Recursos lingüísticos computacionales para lenguas minoritarias

Puig Portella, Marcel

Recursos lingüísticos computacionales para lenguas minoritarias

Puig Portella, Marcel

Dirigida por:

Xavier Blanco Escoda Director

Universidad de defensa: Universitat Autònoma de Barcelona

Fecha de defensa: 02 de septiembre de 2011

Tribunal:

Dolors Català Guitart Presidente/a
Jorge Manuel Evangelista Baptista Secretario/a
Pedro Mogorrón Huerta Vocal

Tipo: Tesis

Teseo: 311087 DIALNET

Resumen

En el estudio de las lenguas minoritarias, la falta de recursos lingüísticos de calidad para su consulta, sean estos referentes al escaso número de compilaciones o a la no adaptación de los sistemas de análisis existentes a las particularidades de las mismas, es, junto con su escasa disponibilidad y una difusión prácticamente restringida al ámbito científico, una de las principales dificultades no tan sólo para el estudio de dichas lenguas, sino también para la creación de instrumentos de desarrollo, como programas de software y de comunicación, en las mismas. En esta tesis tratamos de la aplicación de algunos recursos computacionales de libre acceso para la compilación y estudio de aspectos lingüísticos concretos en algunas de estas lenguas; con un análisis posterior de los resultados, que responde tanto a fines compilatorios y de estudio como a la finalidad de contrastar los mismos con los modelos y descripciones ya existentes para dichas lenguas. Entre los programas y recursos computacionales utilizados, priman los de carácter léxico, pero también se muestra un apartado especial dedicado al estudio fonético comparativo de un rasgo prosódico suprasegmental, el tópico referencial, entre el catalán y el aranés (dialecto del occitano). El estudio fonético comparativo entre estas dos lenguas permite acercarnos a las posibilidades de procesamiento del programa de análisis fonético PRAAT, pero aplicado esta vez a un aspecto suprasegmental de las lenguas, su prosodia. La teoría de la que se parte y que permite realizar y cuantificar el análisis del rasgo prosódico en cuestión es el modelo fonético de M. Rossi, pensado inicialmente para la lengua francesa pero extensible a otras lenguas del ámbito románico. Para el resto de los análisis, léxico-semánticos, se parte en cambio de una perspectiva lineal, tanto para la sintaxis como para la comprensión de lo que es el procesamiento automático aplicado a la lengua de estudio. La comprensión de dicha linealidad ayuda a esclarecer no tan sólo las limitaciones del proceso de procesamiento-traducción, sino a definir con nitidez los instrumentos más válidos para su estudio. El principal programa utilizado para estos estudios es NooJ, desarrollado por M. Silberztein, pero siempre desde una aproximación y una perspectiva teórica cercana a la del Observatoire de la lingüistique Sens-Texte (Montreal). Comienza, dicho análisis lexicológico, con la compilación de un módulo léxico aranés-catalán-inglés con 17500 entradas léxicas y transformado a su vez en diccionario electrónico. A esta compilación inicial hay que añadirle la implementación, para dicho diccionario, de los correspondientes códigos de flexión para todos los substantivos y adjetivos del aranés. Dichos códigos encuentran su base y derivación en los códigos ya existentes y creados en el propio departamento de Filología Francesa y Románica por Sastre para su diccionario electrónico del catalán (2007). El diccionario distingue también el género natural de los sustantivos, para consideraciones sintáctico-semánticas. En un segundo nivel de análisis, se incluyen unidades superiores al lema simple: En el módulo del léxico corso-francés de frases hechas se analizan estas unidades a partir de la identificación de las mismas ya desde la propia entrada léxica del diccionario electrónico. La consideración de dichas unidades como semánticamente infragmentables encuentra su base en la teoría Sens-Texte de I. Mel'cuk. Dentro del mismo análisis de secuencias complejas se encuentra el módulo compilatorio con aproximadamente 1000 pragmatemas del catalán, así como un subapartado con otros más y sus respectivas equivalentes al francés. En él, se explican las restricciones, tanto semánticas como contextuales o pragmáticas que caracterizan dichas unidades léxicas, según la base del modelo Sens-Texte. Para concluir nuestra tesis sobre el análisis computacional de unidades lingüísticas, regresamos a un nivel de procesamiento más molecular, concretamente al de la semántica y particular combinatoria sintáctica de los términos relacionados con el campo de los colores. Así, el estudio cuantitativo y estadístico de las ocurrencias a partir del instrumento de análisis desarrollado por P. Makagonov permite una imagen global de la presencia de los términos de color en corpus más generales del lenguaje. Sin embargo, quizá el aspecto más remarcable tratado en este último apartado de estudio no sea tanto el de las ocurrencias de dichos términos como la observación de una característica que les es excepcionalmente común: su excepcional ambigüedad semántica vinculada a su contexto sintáctico. La consideración de diferentes opciones para la solución de dicha ambigüedad a ese específico nivel de análisis puede terminar mostrando indicios para la resolución del que con certeza es uno de los principales problemas actuales en el procesamiento general de textos y la traducción automática del lenguaje natural; el de la ambigüedad textual vinculada a la combinatoria sintáctica de aquellas unidades más simples.