SIDEBAR
»
S
I
D
E
B
A
R
«
Lingüística Computacional
Dic 1st, 2019 by papaique

Introducción

El presente trabajo pretende dar una visión panorámica de la Lingüística Computacional: sus orígenes y desarrollo desde el siglo XX hasta la actualidad, su adscripción en el marco de las ciencias, así como una introducción a las diferentes ramas de estudio teóricas y a las diferentes sub-disciplinas prácticas.   

La Lingüística Computacional (LC)

1. ¿Qué es? Objeto de estudio. 

La Lingüística Computacional es una de las ramas más jóvenes del campo de la Lingüística, cuyo inicio se origina con la invención y desarrollo de los ordenadores, en los años inmediatamente posteriores al final de la Segunda Guerra Mundial. Al igual que cualquier otra disciplina en busca de ser calificada como ‘ciencia’, la Lingüística Computacional hubo de delimitar y definir con exactitud su objeto de estudio y su posición dentro de las otras sub-ramas de la Lingüística; dadas las diferentes confusiones y discusiones entre los teóricos.

Empecemos analizando algunas de las definiciones que más se ajustan a la visión actual de la disciplina, como por ejemplo la que da Moreno Sandoval (1998): 

«La LC trata de la construcción de sistemas informáticos que procesen estructura lingüística y cuyo objetivo sea la simulación parcial de la capacidad lingüística de los hablantes de una lengua, independientemente de su carácter comercial o de investigación básica» (p. 16)

A partir de esta definición podemos empezar a delimitar y diferenciar la LC respecto a otras disciplinas. Como podemos observar, Moreno habla de sistemas informáticos que procesen estructura lingüística. Esto es debido a que, al principio, se utilizaba el término Lingüística Computacional para hacer referencia a cualquier investigación lingüística o literaria que conllevara el uso de ordenadores o medios informáticos tales como diccionarios en línea o programas destinados a la enseñanza de lenguas. Esto no es tarea de la LC, sino de la Informática Lingüística (Moreno Sandoval, 1998, pp. 15-16; Tordera Yllescas, 2004, p. 16).

También es importante separar la LC de la Ingeniería Lingüística, que abarca “toda aplicación potencialmente comercial que implique el uso de nuevas tecnologías y lenguas” como es el caso de los correctores gramaticales de pago u otros servicios, cuyo primer objetivo es la venta de un producto/servicio y por lo tanto no tienen un fin lingüístico (M. Teresa Cabré, 2005, pp. 20-24)

Por último, muchísimo más discutida ha sido la relación entre la Lingüística Computacional y el Procesamiento del Lenguaje Natural (PLN), término que, en la actualidad, es frecuentemente utilizado como sinónimo. Como expone Villayandre Llamazares (2010), el PLN, al igual que la LC, “considera los ordenadores como un instrumento adecuado para la descripción y explicación de las diferentes facetas o niveles del lenguaje: fonética y fonología, morfología, sintaxis, semántica, pragmática, análisis del discurso, etc.” y en consecuencia, ambas disciplinas comparten un objetivo común “diseñar programas o sistemas informáticos que simulen la conducta lingüística humana en todas o en alguna de sus facetas, programas que sean capaces de utilizar lenguajes naturales” (p. 55).  Dicho en palabras de Moreno Sandoval (1998, p.14): “[…] Lingüística Computacional y Procesamiento del Lenguaje Natural tratan de lo mismo: del desarrollo de programas de ordenador que simulan la capacidad lingüística humana” (como se cita en Villayandre, 2010).

Ahora bien, a pesar de que los objetivos son compartidos, algunos teóricos siguen diferenciando ambos términos en base a dos criterios, expuestos en Villayandre (2010, p. 60): a) el ámbito de procedencia: la LC se sitúa entre la Lingüística y la Ciencia Cognitiva (pronto hablaremos de esto) mientras que el PLN se encuentra entre la Informática y la Inteligencia Artificial (L. Moreno Boronat et al., 1999, p. 13) y b), sus respectivas motivaciones; la LC hace hincapié en los aspectos teóricos o científicos, a diferencia del PLN que prioriza los aplicados o tecnológicos.

LC PLN
Más utilizado desde la lingüística Más utilizado desde la informática
LC TEÓRICA | LC APLICADA PLN TÉORICO | PLN APLICADO
Predominio de aspectos teóricos Predominio de aspectos aplicados

Fig. 1. LC vs PLN (información extraída de Villayandre) 

Recapitulemos pues, con la definición de LC ofrecida por Tordera Yllescas (2011, pp. 20-21):

«La Lingüística Computacional es la disciplina cuyo objetivo persigue la simulación de la competencia comunicativa del hombre a nivel escrito y/o a nivel oral o, al menos, la simulación de alguna sub-competencia de esta. El primer objetivo es el más ambicioso y el que menos resultados positivos a dado, mientras que el segundo tipo de objetivo sería más modesto, pero con resultados mucho más alentadores» (énfasis mío)

Definición que es importante para recalcar dos hechos: a) la LC no se limita a trabajar únicamente con texto escrito, sino también el discurso oral y b) no sé produce una verdadera competencia comunicativa por parte del sistema computacional, puesto que este no entiende lo que expresa o lo que reconoce, lo que hace es fingir o simular que posee dicha competencia.

2. Lugar dentro de las ciencias

Dado que la LC aborda cuestiones multidisciplinares, situarla dentro del marco de las ciencias no es una tarea sencilla. De acuerdo con la información extraída de Villayandre (2010, pp. 17-29) y Tordera Yllescas (2011, pp.21-28), haremos un recorrido por las diferentes ramas en la que los teóricos han adscrito la Lingüística Computacional, la cual suele variar según el enfoque aplicado; bien lingüístico, bien informático.

2.1. La LC dentro de la Lingüística

Desde una perspectiva Lingüística, la LC ha sido adscrita en la Lingüística General

«Lingüística computacional: Rama de la lingüística en la que se emplean técnicas y conceptos computacionales para la elucidación de problemas lingüísticos y fonéticos. Se han desarrollado varias áreas de investigación entre las que se incluyen el procesamiento del lenguaje natural, la síntesis del habla, el reconocimiento del habla, la traducción automática, la creación de concordancias, la evaluación de las gramáticas y muchas otras áreas en las que se requieren cálculos y análisis estadísticos (p. ej. en los estudios de textos literarios)» (D. Crystal, 2000, p. 345).

En particular, ha sido vinculada tanto a la Lingüística Teórica, como es el caso de J. Gómez Guinovart el cual considera que “desde el punto de vista de su vinculación a la lingüística, la lingüística computacional puede ser considerada una subdisciplina de la lingüística teórica, pues uno de sus objetivos es la elaboración de modelos formales (e implementables informáticamente) del lenguaje humano” (1998, p.135) como a la Lingüística Práctica, posición que toman K. Johnson y H. Johnson (1998, pp. 81-82):

«La Lingüística computacional puede ser vista como una rama de la Lingüística Aplicada, tratando el procesamiento computacional del lenguaje humano. La traducción automática entre lenguajes naturales, el procesamiento del texto y la comunicación entre personas y ordenadores son algunas de sus preocupaciones principales. El reconocimiento del habla, la comprensión verbal y la síntesis de voz permiten comunicarnos con los ordenadores usando el lenguaje hablado. Las Gramáticas computacionales con capacidad para procesos ascendentes y descendentes se han desarrollado en este sentido. Los programas de aprendizaje de idiomas asistidos por ordenador se encuentran entre muchas de las diferentes aplicaciones de la nueva tecnología. Los corpus informatizados de textos escritos y hablados facilitan la investigación en el uso utilizando concordancias». (Traducción mía)

 Esta vinculación con la Lingüística es debido a que comparten objetos de estudios comunes: el lenguaje, es decir, la facultad del lenguaje, y las lenguas naturales, que son el resultado de dicha facultad. Por consiguiente, la LC “comparte con la Lingüística el interés por descubrir y describir cómo funciona el lenguaje, cómo podemos comunicarnos las personas a través de él, qué elementos y procesos intervienen cuando actuamos como emisores y cuáles cuando lo hacemos como receptores” pero difiere, entre otras cosas, en las herramientas empleadas en sus investigaciones (Villayandre, pp. 22-23).

 Por ende, podemos relacionarla tanto con la L. Teórica como con la L. Práctica, dependiendo del propósito. La primera establece relación con la LC Teórica, la faceta más “científica” de la disciplina, es decir, los objetivos teóricos. La diferencia entre ambas reside en el hecho de que la LC se sirve de formalismos y técnicas computacionales, además de que la LC estudia los diferentes niveles y procesos del lenguaje (sintaxis, fonética, morfología, pragmática…) de una manera global e integrada, pues el objetivo es simular la competencia lingüística en su totalidad. La segunda, la L. Práctica, se relaciona pues, con la LC Aplicada en tanto que esta se centra en los “aspectos prácticos que se puedan derivar de la simulación de la conducta lingüística con medios informáticos” con la intención de “crear productos informáticos que incorporen algún componente en el que intervenga el lenguaje, oral o escrito” (Villayandre 2010, p. 37) y que estén dedicados a la resolución de los problemas de la sociedad.

Es importante señalar, tal y como deja entrever Halvorsen (1988, p. 253), que la relación dada entre la LC y la Lingüística Teórica no es de oposición absoluta, sino de complementariedad, dado que los avances de una repercuten en el desarrollo de la otra:

 «Los descubrimientos de la Lingüística computacional acerca de los métodos para establecer correspondencias estructurales entre los niveles de representación y la división óptima del trabajo en un sistema lingüístico han inspirado algunos desarrollos en la teoría lingüística (por ejemplo, en la GLF [Gramática Léxico-Funcional]» (citado en Tordera Yllescas, p.28).

2.1.2. La LC dentro de la Informática.

Del mismo modo que el lenguaje es el elemento que conecta la LC con la Lingüística, es el uso de sistemas computacionales (i.e., el uso de ordenadores) lo que vincula la LC con la Informática. Este vínculo, no obstante, va más allá del simple uso de un ordenador, pues la LC en su ambición por que la simulación de las competencias lingüísticas humanas sea lo más natural posible, ha de recurrir también a las aportaciones de la Informática; especialmente, a las de la Inteligencia Artifical (IA), sub-disciplina de la Informática. En concreto, la LC se adscribe al Procesamiento del Lenguaje Natural (sub-disciplina de la IA, ya mencionada y discutida en §1). Por lo tanto, provienen de estos sectores las técnicas, estrategias, formalismos de representación y otras herramientas de la LC orientadas a aplicaciones prácticas (Villayandre, pp. 24-25). 

2.1.3. La LC como intersección interdisciplinaria

Dado que la Lingüística Computacional depende tanto de la Lingüística como de la Informática con la misma importancia, autores como Hays o Hausser conciben la LC como una disciplina intersectiva entre la Lingüística y la Informática, tal y como se recoge en Tordera Yllescas (2011, p. 21) y Villayandre (2010, p. 29).

«La meta de la Lingüística Computacional es reproducir la transmisión natural de información a través del modelado de la producción del hablante y la interpretación del oyente en un tipo de ordenador adecuado. Esto nos lleva a la construcción de máquinas cognitivas autónomas (robots) que pueden comunicarse libremente en lenguaje natural» (2001, p. 1) (traducción mía).

También hay autores que van más allá de la Informática y la Lingüística y afirman que la LC converge, además, con las Ciencias Cognitivas. Entendemos por Ciencias Cognitivas al

 «Amplio conjunto de disciplinas que comparten un interés en [el estudio de] la mente, sea biológica o artificial, y su relación con lo físico, neural, corporal, social y cultural, así como en sus cambios durante la vida del individuo y a lo largo de la evolución de las especies. Destacan varias ramas de la Psicología, la Neurociencia, la Filosofía, la Lingüística, la Antropología y la Inteligencia Artificial, entre otras» (Santiago de Torres, s.f.)

El punto clave que vincula la LC con todas estas otras disciplinas es, según Villayandre (2010, pp. 30-33), la aceptación de la metáfora del cerebro como un ordenador capaz de manipular símbolos y de ejecutar complejos procesos basados en el conocimiento almacenado en su interior (Winograd, 1983). La LC recurrirá, pues, a los descubrimientos y procedimientos de estas diferentes ciencias cuando la Lingüística no sea capaz de darle respuestas (especialmente a la IA).

«La Lingüística Computacional és una nova disciplina que ha sorgit de la col·laboració entre la Lingüística, la Informàtica i altres àrees de coneixement com la Intel·ligència Artificial i la Ciencia Cognitiva» (Martí Antonín y Castellón Masalles, 2000, p. 1)

En resumidas cuentas, el estudio de la LC se puede efectuar “desde diferentes perspectivas: la de la Lingüística y la de la Informática, con la Ciencia Cognitiva como telón de fondo. Como es lógico, cada una lo aborda con presupuestos teóricos, objetivos, métodos y herramientas muy distintos.” (Villayandre, 2010, p. 33).  

FALTA GRÁFICO

3. Historia de la Lingüística Computacional

Como hemos mencionado al principio, la LC es un campo de estudio muy joven cuyo desarrollo se ha producido, y sigue produciéndose, a pasos agigantados. Debido a su carácter contemporáneo y su corta vida (en comparación con otras disciplinas), es difícil periodizar su desarrollo. Así lo demuestran los diversos manuales consultados, pues cada uno estructura el desarrollo de la LC atendiendo a diferentes criterios. Por ejemplo, Moreno Sandoval (1998, pp. 41-45) periodiza por décadas, describiendo los avances desde los años sesenta hasta los noventa. Otros autores, en cambio, prefieren aglutinar décadas en función de diversos criterios (generalmente según la aparición de nuevas aportaciones teóricas, bien lingüísticas y/o computacionales) como es el caso de Ruíz Antón Antón (2005, pp. 404-407), quien distingue tres etapas: la época de los pioneros (1950-1966), la época de consolidación (1966-1980) y la época actual (1980-90). Martí Antonín y Castellón Masalles (2000, pp. 11-14) también siguen el mismo criterio que Ruíz Antón y, sin embargo, no distinguen tres etapas, sino cuatro (1949-1965, 1965-1980, 1980-1990 y 1990-actualidad). En definitiva, los criterios de periodización son de carácter subjetivo y por tanto podemos encontrar bastantes modos de organización.

En nuestro caso, optaremos por la división establecida por Tordera Yllescas (2011, pp. 30-31) debido a que esta refleja la simbiosis (mencionada en §2.1) entre la LC y la Lingüística Teórica, al organizar la periodización en torno a dos fechas claves de la Lingüística: 1965 y 1982. Esto es, la publicación de Aspectos para una teoría de la sintaxis de Noam Chomsky y el comienzo de la Gramática Léxico-Funcional con la publicación de The Mental Representation of Grammatical Relation, respectivamente.

Siguiendo este criterio, distinguimos tres etapas en la Lingüística Computacional:

  • I etapa: desde los años 40 hasta 1965
  • II etapa: desde 1965 hasta 1982
  • III etapa: desde 1982 hasta la actualidad

3.1. I etapa: desde los años 40 hasta 1965.

La LC se inicia con el interés por la Traducción Automática (TA). A finales de los 40 las máquinas criptográficas de las que disponía los Estados Unidos fueron extremadamente esenciales para el descifrado de los códigos militares enemigos y, por lo tanto, la victoria del conflicto bélico. No es de extrañar, pues, que cuando los primeros ordenadores fueron inventados Warren Weaver, integrante de la fundación Rockefeller y experto en criptografía, realizara un informe (Weaver’s Memorandum) en 1949 planteando el uso de estos ordenadores para la traducción de idiomas e invitando a las universidades e investigadores a indagar en ello (Ruíz Antón pp. 404-405; Tordera Yllescas p. 32).

Dos años después, la TA se institucionaliza seriamente en universidades como la de California, Harvard o Georgetown y el Massachusetts Institute of Technology (MIT) nombra como el primer investigador exclusivamente centrado en Traducción Automática a Bar-Hillel, quien al año siguiente organizaría el primer congreso sobre TA. En dicho congreso, al cual asistieron principalmente lingüistas, se subrayó la necesidad de ahondar en el análisis sintáctico y morfológico y de resolver ciertos problemas como la polisemia (Hernández Mercedes, 2002, p.103). El tono de la conferencia era bastante optimista, ya que la TA se veía como algo posible e inmediato. De hecho, este optimismo se acrecentó cuando tuvo lugar la primera demostración pública de traducción automática; con la traducción del ruso al inglés de 49 oraciones extraídas de un texto especializado. Este traductor contaba con un diccionario de doscientas cincuenta palabras y únicamente seis reglas gramaticales, lo que indica que en la práctica el traductor automático hacía una mera traducción individual de cada una de las palabras (Tordera Yllescas, pp. 34-35).

A pesar de la simplicidad del traductor, la baja calidad de los resultados y la necesidad de post-edición humana, esto atrajo la atención de las instituciones estadounidenses, quiénes en plena Guerra Fría, decidieron subvencionar este tipo de investigaciones. Así pues, los años sesenta darán lugar a dos vías de investigación: a) La corriente “fuerza bruta”, nombre con el que se conocen aquellas investigaciones dedicadas a la obtención de resultados prácticos en poco tiempo y b) La corriente “perfeccionista”, integrada por los investigadores que priorizaron la construcción de una teoría sólida a pesar de que los resultados prácticos tardasen más en llegar. (Hutchins y Somers 1992, p. 31; Tordera Yllescas pp.36-37). La primera corriente, la fuerza bruta, estaba formada por grupos como la Universidad de Washington o la Universidad de Georgetown mientras que la perfeccionista era constituida por el MIT, universidades norteamericanas tales como Harvard, Texas o Berkeley y el Instituto de Lingüística de Moscú, entre otros.

En cuanto a los resultados, estos no fueron muy alentadores o por lo menos no cumplían las altas expectativas de los investigadores, de modo que el derrotismo acabó imponiéndose progresivamente (especialmente en la corriente fuerza bruta). Esta falta de progreso se debe a, según recopila Tordera Yllescas (2011, p.38) a tres factores:

  1. Concepción simplista del lenguaje: este es visto como un simple conjunto de símbolos y difícilmente se tiene en cuenta como se combinan (sintaxis), qué expresan (semántica) ni la manera en la que sirven de instrumento interactivo con el entorno (pragmática).
  2. Bajo nivel de teoría Lingüística: a pesar de que eran conscientes de la necesidad de profundizar en la teoría lingüística (como ya se subrayaba desde el primer congreso de traducción automática), en la aplicación práctica no tenía apenas cabida. Además, se ignoraban las teorías gramaticales de aquel momento, como era el caso de las gramáticas de estados finitos o las categoriales.
  3. Limitaciones de hardware: los ordenadores de aquella época no contaban con la memoria, la potencia y la capacidad de procesamiento que tienen los de hoy en día. Esto limitaba a su vez los lenguajes de programación, los cuales eran únicamente capaces de manipular números y no símbolos.

3.1.2. II etapa: desde 1965 hasta 1982

En 1965, como se mencionó con anterioridad, es publicada la obra Aspectos para una teoría de la sintaxis de Noam Chomsky. Este autor se opone tanto al uso de las gramáticas de estados finitos como a las gramáticas independientes del contexto para explicar la complejidad del lenguaje (Chomsky, 1957 [1974], pp. 33-66) y, es más, se opone al tratamiento del lenguaje con leyes probabilísticas, pues estas se oponen al principio de creatividad del lenguaje (Chomsky, 1957 [1974], pp. 36-41) (citado en Tordera Yllescas, p. 40). Por ello, él defiende la Gramática Generativa Transformacional, centrada especialmente en sintaxis y que se trata de un modelo formal de descripción lingüística según la cual hay una estructura mental innata que permite producir y entender cualquier enunciado. Según Hernández Mercedes (2002, p.104), los investigadores de TA rápidamente asimilaron esta teoría y se dieron cuenta de que “una traducción de cierta calidad sólo sería posible con un análisis sintáctico y semántico completo de las lenguas de origen y de destino”. A pesar del positivismo inicial, la aplicación de la Gramática Generativa en el campo de la LC acabo siendo un fiasco, principalmente por la incapacidad del ordenador para englobar en el análisis la estructura del discurso (esto quiere decir que se traducen las frases de manera aislada, sin atender al contexto que les rodean).

A esto hay que añadir, además, un acontecimiento clave que determinará el rumbo de la TA en esta etapa: el informe ALPAC (1966). Ante el lento avance y los numerosos fracasos, por no decir el propio pesimismo de los investigadores, el gobierno norteamericano encargó la elaboración del informe ALPAC (Automatic Language Processing Advisory Comittee). El resultado del informe fue, como era de esperar, negativo. Se concluyó que el avance de la TA era lento y mucho más costoso económicamente que la traducción manual y, por lo tanto, inútil. No obstante, se sugirió la destinación de las subvenciones para la investigación teórica en el campo de la LC y la elaboración de programas informáticos útiles para los traductores. De cualquiera de las maneras, el impacto de dicho informe fue devastador: la gran mayoría de las subvenciones cesaron, la investigación sobre TA fue prácticamente nula en Estados Unidos por más de diez años y la percepción de este campo de investigación fue bastante negativa durante años, pues se consideraba utópico (Hernández Mercedes, 2002, p. 105). Como consecuencia, entre 1967 y 1977, la investigación sobre TA se desarrolló sobre todo en Canadá, Europa occidental y Japón.

Sin embargo, la investigación teórica continuó. El fracaso de la aplicación generativista supuso el retorno a las gramáticas de estados finitos con la aplicación computacional de las redes de transición aumentadas (Woods, 1970), si bien grupos como el MITRE continuaron intentando la aplicabilidad del generativismo en la TA y también destacan los avances en teoría relativa a la semántica y la pragmática con la Gramática de casos de Charles Fillmore y sus redes semánticas, las cuales permiten establecer patrones semánticos a través de una organización taxonómica del conocimiento del mundo real (Fernández Díaz, 1997, p. 55). Los avances teóricos de la IA también son remarcables, pues se introducen los conceptos de frame o marco y script o guion, los cuales tratan de “dar cuenta de la información procedente del conocimiento no lingüístico o enciclopédico utilizada en el procesamiento del lenguaje” (Tordera Yllescas, 2011, p. 44). Si bien en un principio estos no tuvieron gran repercusión, debido a los problemas de implementación computacional, lo cierto es que sí fueron relevantes para la Lingüística teórica.

En cuanto a las aplicaciones prácticas en Lingüística Computacional, el foco de atención es desplazado de la TA hacía los robots conversacionales (bots en inglés) con la creación de diferentes sistemas como ELIZA, LUNAR o SHRDLU. Estos sistemas posibilitan la interacción de los humanos con robots a través del lenguaje natural y sobre un tema de conversación bien reducido y limitado.

El sistema ELIZA fue elaborado por Weizenbaum en 1966 y simulaba una conversación escrita hombre-máquina en un contexto bien reducido, pues la máquina fingía ser una psicoterapeuta y el hombre su paciente; y, por lo tanto, cualquier interacción humana que se desviase de dicho contexto recibiría una respuesta insatisfactoria. A nivel computacional, ELIZA opera a través de la búsqueda de patrones (pattern matching) uno de los primeros tipos de analizadores sintácticos (parsers):

«Analizadores basados en la técnica del pattern matching, que se limitaban a detectar palabras clave, presentes en la oración de entrada, que estaban asociadas con patrones previamente establecidos, como se puede observar en el sistema Eliza. Por lo tanto, el conocimiento lingüístico implicado era mínimo […]» (Villayandre, 2010, p. 225)

En caso de que el enunciado del humano/paciente no contuviera ninguna de las palabras claves introducidas en el sistema, ELIZA respondería con enunciados vacíos pidiendo más información. A continuación, podemos leer un ejemplo extraído del propio Weizenbaum:

«-Pacient: Men are all alike.

-ELIZA: In what way?

-Pacient: They’re always bugging us about something or other.

-ELIZA: Can you think of a specific example?

-Pacient: Well, my boyfriend made me come here.

-ELIZA: Your boyfriend made you come here?

-Pacient: He says I’m depressed much of the time.

-ELIZA: I am sorry to hear that you are depressed. » (1966, pp. 36-45)

Mucho más avanzados que ELIZA resultaron los sistemas LUNAR y SHRDLU, quienes integraron los avances teóricos de la Inteligencia Artificial y buscaban una verdadera comprensión de la conversación. En el caso de LUNAR, su desarrolló se inició en el 1973 y fue liderado por Woods. Al igual que ELIZA, el tópico de conversación era limitado y preciso, la geología lunar; pero a diferencia de la anterior, LUNAR integraba los últimos descubrimientos teóricos al funcionar a través de redes semánticas y redes de transición aumentadas. En cuanto a SHRDLU, este fue diseñado por Winograd en 1972 y estaba fundamentado bajo la gramática sistémica de Halliday.

«Este sistema podía interactuar con el hombre a partir de un universo muy restringido; todo el mundo conocido de SHRDLU se reducía a determinadas formas (bloques, pirámides, cajas y prismas), colores (rojo, azul, verde) y dimensiones (pequeño, grande). Este universo quedaba representado en una red semántica en la que se especificaba las propiedades de los objetos (v.gr.: cubo rojo pequeño, pirámide verde grande…) así como la ubicación de los objetos dentro de un sistema de coordenadas» (Tordera Yllescas, 2011, p. 54).

De acuerdo con Ruiz Anton (2005, p. 406), este sistema era capaz de analizar y comprender oraciones interrogativas y exhortativas inglesas e incluso identificar referentes, pidiendo hasta aclaraciones en caso de ser necesario:

«U: Coge un bloque rojo grande.

S: Hecho.

U: Coge la pirámide.

S: No sé a qué pirámide te refieres.

U: Busca un bloque que sea más alto que el que estás sujetando, y mételo en la caja.

S: Por ‘lo’ supongo que te refieres al bloque que sea más alto que el que estoy sujetando.

S: Hecho.

U: ¿Qué contiene la caja?

S: La pirámide azul y el bloque azul.» (X)

Para concluir y comprender mejor esta etapa, se resumirán algunas de sus características básicas recopiladas en Tordera Yllescas (2011, pp. 66- 68) y Villayandre (2010, pp. 120-121):

  1. El perfeccionamiento informático: a diferencia de la etapa anterior, donde los lenguajes de programación eran muy rudimentarios e incapaces de manejar datos simbólicos, en este período se utilizan lenguajes de programación de alto nivel como PASCAL o PROLOG. Por otro lado, también se producen mejoras a nivel de hardware, teniendo en cuenta que los ordenadores empezaron a incorporar bases de silicio y, por lo tanto, adquirieron mayor potencia.
  2. Mayor nivel de teoría lingüística: como hemos visto, en este período se prueba la aplicabilidad de diferentes teorías gramaticales como la generativa, la de casos, la de los estados finitos… y conceptos como son frame y script por parte de la IA. También se abandona la visión simplista del lenguaje, ya que se tienen en cuenta los análisis sintácticos, semánticos e incluso pragmáticos.
  3. Orientación psicológica: como queda patente en los sistemas LUNAR y SHRDLU, la LC busca una auténtica comprensión del lenguaje. Además, el hecho de que los robots de conversa intentaran simular la interacción humana despertó el interés de los psicolingüistas y los psicólogos.

3.1.2. III etapa: desde 1982 hasta la actualidad.

Durante este período se prosigue con la investigación teórica, si bien más aplicada a obtener resultados prácticos. Con esta finalidad, los lingüistas computacionales tratan de desarrollar lenguajes formales más simples que la gramática Generativa , además de lenguajes de programación lógico o de alto nivel como PROLOG, el cual hace factible el desarrollo de las llamadas gramáticas de unificación: la gramática Léxico-Funcional, la gramática de Estructura Sintagmática de Control Nuclear o la gramática categorial de unificación (Moreno Ortiz, 2000) La semántica léxica también será uno de los focos de investigación, debido a la publicación de la teoría chomskiana de Rección y Ligamento y debido a las propias necesidades de los diferentes sistemas de traducción automática como Taum-Méteo o EUROTRA .

Desafortunadamente, los progresos de aplicación práctica no son los esperados. Esto redefinirá por completo las orientaciones de la disciplina, las cuales trataremos de resumir a continuación (Tordera Yllescas pp. 6-74; Moreno Sandoval, 1998, pp. 43-44):

a) Enfoques realistas y comerciales: los investigadores tratan de ser menos ambiciosos y se ajustan a los recursos del momento. Por ejemplo, los sistemas de traducción pasan a enfocarse en la traducción humana asistida y no en aquella traducción automática exenta de revisión humana tan anhelada en los orígenes de la LC. También se encargan de mejorar la calidad de los productos desarrollados, pues debido al alto costo monetario que supone el desarrollo de aplicaciones, los productos han de ser lo más comerciales posible.

b) Estandarización de la codificación lingüística: en relación con ese enfoque comercial, se crean lenguajes de codificación estándar como el SGML, el EAGLES o el TEI que permiten reutilizar e integrar la información lingüística fácilmente

c) Cantidad sobre calidad: en etapas anteriores hemos visto que los sistemas desarrollados se mueven en contextos muy específicos; por ejemplo, ELIZA únicamente podía funcionar si se seguía el rol psicóloga/paciente, LUNAR solamente respondía a preguntas relacionadas con la geología lunar, SHRDLU al mundo de formas geométricas y colores… A partir de ahora, gracias al avance en la capacidad de memoria y de procesamiento de los ordenadores se busca cubrir cualquier tipo de texto, teniendo en cuenta la capacidad de estos para procesar, interpretar y discriminar la información:

«Los sistemas computacionales priman la cantidad de información sobre la calidad; esto quiere decir que, por ejemplo, un sistema de recuperación puede obtener mucha cantidad de información de entre la cual puede haber información parcial, poco relevante o, incluso, no deseada. Pero es mejor obtener, entre el total de información recopilada por el sistema, esta clase de información que no obtener ninguna; un sistema que primara la calidad sobre la cantidad podría resultar tan rígido o inflexible que no obtuviera ningún tipo de resultado.» (Tordera Yllescas, p. 71)

d) La portabilidad de los sistemas: con el desarrollo de los parsers (analizadores sintácticos) se empieza a distinguir entre las reglas de la gramática y el procedimiento a través del cual estas reglas son aplicadas en el análisis. En otras palabras, se produce una distinción entre conocimiento lingüístico (información declarativa) y programa informático (información procedimental). Así pues, el estilo declarativo se va imponiendo y los sistemas se hacen más flexibles; es decir, portables, ya que la información de dichos sistemas puede ser usada para otros. De este modo somos capaces de hacer que las reglas gramaticales (i.e. información declarativa) introducidas para un sistema de traducción automática sean reutilizadas o transportadas, por ejemplo, en sistemas de diálogo o de extracción de información. La diferencia la encontraremos, entonces, en el modo de tratar el conocimiento declarativo (es decir, la información procedimental).

e) Nuevos modelos computacionales: puesto que el conocimiento lingüístico no es suficiente para afrontar ciertas cuestiones del modelo simbólico, la LC decide incorporar conocimientos estadísticos (modelo estadístico), basados principalmente en datos recogidos de los corpus lingüísticos, y conocimientos biológicos (modelo biológico) que se centran en conseguir el procesamiento simultáneo y paralelo de los diferentes módulos (análisis sintáctico, semántico, pragmático…) oponiéndose, por lo tanto, al procesamiento lineal, pues hay un deseo de imitar el cerebro humano y sus procesos cognitivos.

4. Áreas de trabajo de la LC

Al igual que la Lingüística identifica disciplinas lingüísticas según la prioridad que dan estas a una u otras dimensiones del lenguaje (funciones, formas, significados y uso), es decir; la fonología, la semántica, la morfología, la sintaxis y la pragmática, las cuales ofrecen un estudio pormenorizado del lenguaje; la lingüística computacional, en su afán por imitar la competencia comunicativa de los humanos, se dedicará también al estudio detallado de cada uno de estos niveles. Claramente, y a diferencia de la Lingüística Teórica, el estudio de los diferentes niveles está destinado a la aplicación computacional y también integra aportaciones de otras disciplinas (IA, Matemáticas, Ciencias Cognitivas…). De este modo, la LC Teórica se descompone en las siguientes ramas de estudio:

– Fonología computacional

– Morfología computacional

– Sintaxis computacional

-Semántica computacional

– Pragmática computacional (Vilayandre, 2010, p. 133)

En cuanto a la LC Aplicada, destinada (como ya mencionamos en  §2.1.) a la resolución de problemas de la sociedad, también es posible establecer diferentes sub-disciplinas según el objetivo de las aplicaciones desarrolladas. Estas se dividen, de acuerdo con Villayandre (pp.284-286), en dos bloques, atendiendo a la modalidad oral o escrita de la lengua:

En primer lugar, tenemos las llamadas Tecnologías del texto, las cuales se centran en tratar el lenguaje escrito:

 -Traducción automática: se encarga de la traducción de un texto, ya sea oral o escrito, de un lenguaje natural a otro sin la necesidad de revisión humana.

-Interfaces de lenguaje natural: destinada a la interacción entre usuario-máquina mediante el uso del lenguaje natural y no en lenguaje artificial (facilitando, pues, la comunicación).

-Recuperación y extracción de información:

a) Sistemas de recuperación de la información textual: ante la consulta de un usuario a un banco de datos textuales, el sistema de recuperación seleccionará la información más adecuada en función de los criterios de búsqueda del usuario, a través del procesamiento de las palabras clave y la comprensión lingüística de la consulta. (Pablo Giordanino, s.f.)

b) Sistemas de extracción de información: tienen como objetivo el procesamiento de los textos para extraer la información más relevante. Estos sistemas distinguen las partes de un texto que son relevantes y las que no (filtrado) y después organizan la información de acuerdo con la plantilla (template) predefinida (M. A. Martí y J. Llisterri p. 19)

-Herramientas de ayuda a la escritura:

a) Correctores ortográficos: las palabras del texto son comparadas con las de un diccionario; si una palabra escrita no se encuentra en dicho diccionario, se marca la palabra y se propone un término similar

b) Correctores sintácticos y de estilo: son más complejos que los anteriores, pues buscan errores gramaticales (fallos de concordancia, orden de la frase alterado…) y también de estilo (falta de puntuaciones, mayúsculas, variantes ortográficas preferidas, impropiedades léxicas…), lo cual requiere mayor conocimiento lingüístico y la capacidad de sistematización es menor.

-Creación automática de resúmenes: relacionado con los sistemas de extracción de información, consiste en la síntesis de las ideas principales de uno o múltiples documentos. De acuerdo con Garcés Chapero (2009, p. 11) la síntesis automática puede enfocarse desde dos perspectivas:

a) La extracción: las fuentes se perciben como un conjunto de frases. En primer lugar, se recopilan los términos, frases, o párrafos más significativos en función de los criterios establecidos; generalmente, se utilizan criterios de selección basados en la estadística. Seguidamente, la información recopilada se utiliza para generar un resumen, tratando de evitar la pérdida de información y la redundancia; y, por último, podemos aplicar tratamientos posteriores para conseguir una mayor coherencia y cohesión, pues el método por extracción, al no tener una comprensión profunda de la información contenida en el texto, flojea en ese sentido.

b) La abstracción: este es un enfoque mucho más complejo y novedoso que el anterior, por lo que los progresos aún son limitados. Esto se debe al hecho de que los resúmenes por abstracción han de generar lenguaje natural, ya que no se limitan a extraer términos o frases clave, sino que además tratan de comprenderlo; con la intención de generar un nuevo resumen a partir de la información analizada. Por lo tanto, este método se acerca más al modo en que los seres humanos realizamos resúmenes.

-Extracción de terminología: muy importante para la Traducción Automática, la extracción de información y la clasificación de documentos escritos en lengua especializada. Tal y como apunta Antonio Moreno (2017), los métodos para llevar a cabo esta tarea son dos:

a) Técnicas lingüísticas: se utilizan listas de palabras que sirven para filtrar el texto. Sin embargo, hay ciertas limitaciones; por ejemplo, no es capaz de reconocer neologismos o términos excluidos de la lista. Otra técnica más compleja consiste en la utilización de patrones de formación de términos como N+ADJ+PREP+N, «infarto agudo de miocardio». También es frecuente, sobre todo en el ámbito médico, el uso de listas de raíces y afijos para la detección de neologismos: «cardio-» «patía», «cardio-» «grafía», etc.

b) Técnicas estadísticas: contrastan la frecuencia de una determinada expresión en el texto analizado con su frecuencia en textos generales o textos de dominio restringido, de modo que los términos con mayor frecuencia son más propensos a ser términos reales.

Por lo general, lo más común es combinar ambas técnicas, en mayor o menor medida, de modo que se abarca el mayor número de términos posibles.

-Indexación automática: consiste en la clasificación de un texto dentro de un dominio según los términos que aparezcan, lo cual nos sirve para acelerar su búsqueda y para la recuperación de información.

-Minería de datos (data mining): en palabras de Montes Gómez (2001, pp. 1-4), la minería de texto se enfoca en “el descubrimiento de patrones interesantes y nuevos conocimientos en un conjunto de textos, es decir, su objetivo es descubrir cosas tales como tendencias, desviaciones y asociaciones entre la “gran” cantidad de información textual.” Por lo tanto, la minería de datos se encarga de descubrir información que no se encuentra explícitamente en los textos trabajados, sino que surge como conclusión tras relacionar la información de los diferentes textos.

«En una investigación sobre la migraña, mediante esta aplicación [la minería de datos], se extrajeron y analizaron datos de artículos que permitieron concluir a los investigadores que la migraña aparecía asociada con el estrés y con deficiencias de magnesio, lo que en ese momento era información desconocida» (Villayandre, p. 285)

En segundo lugar, tenemos las Tecnologías del habla, “centradas en facilitar la interacción oral con los sistemas informáticos, complementando o substituyendo los métodos tradicionales como el teclado o la pantalla y permitiendo a la vez el acceso telefónico a una serie de servicios automatizados” (M.A. Martí y J. Llisterri pp. 19-20). Es decir, aplicaciones centradas específicamente en el tratamiento del lenguaje oral. Dentro de estas distinguimos:

-Síntesis de voz (speech synthesis): consiste en la conversión de una señal digital en una señal analógica. En otras palabras, la generación de habla artificial a partir de un texto escrito. (Villayandre, 2010, p. 285; Moreno Sandoval, 1998, p. 22) De acuerdo con Ruíz Antón (p.X) los sistemas de síntesis de voz procesan el texto en tres etapas:

1º. Normalización del texto: hay elementos como expresiones numéricas, siglas, abreviaturas, símbolos… que pueden resultar problemáticos para la lectura del texto. Por ejemplo, como se cita en Tordera Yllescas (2011, p. 78), Alfonso X se lee Alfonso décimo y no, literalmente, Alfonso equis o en el caso de los decimales como 5, es necesario hacer saber al programa que no ha de hacer ningún tipo de pausa, ya que se trata de un uso no lingüístico de los signos de puntuación. Por este motivo, es necesario un pre-procesamiento del texto que, a través de reglas y algoritmos, realicen este tipo de conversiones.

2º. Transcripción fonética de las palabras del texto: puesto que la correspondencia exacta y simétrica entre los fonemas de una lengua y los grafemas del sistema ortográfico es muy inusual, podemos recurrir a dos procedimientos que nos permitan llevar a cabo esta tarea: a) transcripción por reglas y b) transcripción por diccionario.

Un ejemplo de transcripción por reglas sería <c> [θ]/ Ø__z__<e>|<i>, que quiere decir que cualquier ‘c’ delante de las vocales e o i ha de pronunciarse [θ] (fricativa interdental sorda).

3º. Tratamiento de la prosodia y la entonación: basado principalmente en reglas y métodos estadísticos.

4º. Producción del sonido, en forma de un fichero de audio (en formato WAV, AIFF, etc.): para la producción de voz se pueden utilizar dos técnicas diferentes de síntesis: o bien la síntesis a partir de segmentos, o bien la síntesis artificial, basada en los formantes acústicos de los fonemas (hertzios, tiempo e intensidad) y una serie de reglas que ajustan dichas frecuencias en función del contexto fónico.

-Reconocimiento del habla (Speech recognition): se trata del proceso contrario a la síntesis de voz, es decir, la conversión de una señal analógica en una señal digital (i.e. la conversión del lenguaje hablado en lenguaje escrito). El reconocimiento del habla no implica la comprensión del mensaje, a diferencia de la Comprensión del Lenguaje; rama de la LC, que sí persigue el entendimiento del mensaje procesado (Tordera Yllescas, 2011, p. 150). E.J. Yannakoudakis y P.J. Hutton (1987, pp. 68-76) señalan siete de los principales problemas que ha de afrontar el reconocimiento del habla:

1º. La segmentación del habla (es decir, la identificación de los límites entre palabras, sílabas o fonemas) para obtener la información correctamente.

2º. Los patrones del habla varían no solo entre hablantes, sino también entre el   propio hablante, incluso cuando se pronuncian dos palabras idénticas.

3º. Una palabra puede variar en intensidad, tono, acento y velocidad de pronunciación.

4º. El origen geográfico del hablante

5º. Palabras diferentes pueden sonar muy similar (encima vs. enzima, por ejemplo)

6º. La presencia de sonido de fondo y otras interferencias que puedan afectar la conversión de señales.

7º. En el habla continua las palabras tienden a afectarse mutuamente, fruto de la co-articulación (asimilaciones, elisiones, introducción de sonidos ajenos…)

Sistemas de diálogo: se refiere al conjunto de aplicaciones en las que existe un intercambio comunicativo entre un usuario y un sistema informático, bien de manera oral o escrita (Villayandre, 2010, p. 287)

a) Sistemas de acceso a bases de datos

b) Sistemas de acceso a otros dominios (p. ej. sistemas operativos)

c) Sistemas de diálogo inteligente (p. ej. ELIZA)

d) Servicios automáticos a través del teléfono

e) Sistemas de enseñanza

f) Control de máquinas

En resumen, todos estos tipos de sistema tienen que ver con la formulación de preguntas u órdenes en lenguaje natural, que son traducidas a un lenguaje formal para poder dar una respuesta al usuario, bien respondiendo en lenguaje natural o bien acatando la orden que se le ha pedido. Al igual que con los otros tipos de sistemas, cuanto más concreto sea el contexto, menos serán las complicaciones y mayor será la eficacia.

Conclusión

La lingüística computacional es la disciplina encargada del estudio y tratamiento del lenguaje natural a través de la informática, con el fin de que los ordenadores sean capaces de adquirir/simular las mismas capacidades lingüísticas que tenemos los humanos. Dentro del marco de las disciplinas, es considerada una intersección de la Lingüística Aplicada y la Informática (concretamente la Inteligencia Artificial) que bebe también de las investigaciones de las Ciencias Cognitivas para completar las carencias teóricas de la Lingüística. Por lo tanto, estamos hablando de un campo de estudio multidisciplinar. La LC, además, se divide en dos vertientes: por un lado, tenemos la Lingüística Computacional Teórica (diferente de la Lingüística Teórica, si bien relacionadas), que se encarga de replantear teorías lingüísticas existentes o teorizar las suyas propias a través del estudio del lenguaje y que sirve como cimiento para los sistemas informáticos desarrollados; y, por otro lado, tenemos la Lingüística Computacional Práctica, encargada de la creación de sistemas y programas informáticos que trabajen con lenguaje natural y respondan a los problemas o necesidades de la sociedad (traducción automática, síntesis del habla, sistemas de diálogo…).

La LC nace alrededor de la II Guerra Mundial con la traducción automática, muy limitada debido a lo rudimentarios que eran los ordenadores de aquella época, así como las carencias teóricas. No obstante, con el paso del tiempo, estas carencias se van supliendo gracias al desarrollo teórico y las mejoras informáticas, tanto a nivel de software como de hardware. De hecho, a día de hoy se considera que los principales obstáculos de la disciplina son a nivel lingüístico, y no informático, tal y como evidencia la implementación de los modelos estadísticos y biológicos.

En cualquier caso, la LC es una rama de vital desarrollo debido a su relevancia actual. Hoy por hoy, en un mundo donde Internet nos permite acceder a toneladas de información de manera instantánea y nos pone en contacto con personas de todo el mundo en cuestión de segundos, el dominio del lenguaje y la información son indispensables. Por lo tanto, el desarrollo de sistemas de resumen automático, traducción automática, minería de datos, etc. son recursos que nos permitirían llevar a cabo estas tareas de una manera más rápida y que, en definitiva, nos harían la vida mucho más fácil.  

Referencias

Cabré, M. (2005). La terminología. Barcelona: Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra, pp.20-24.

Chomsky, N. (1957 [1974]). Estructuras sintácticas. México: Siglo XXI, pp. 33-66

Crystal, D. & Villalba, X. (2000). Diccionario de lingüistica y fonética. Barcelona: Octaedro, p.345.

Fernández Díaz, G. (1997). Beneficios que aporta la semántica a la raducción automática. Philologia Hispalensis, 11 (fasc. 2). Recuperado desde: http://institucional.us.es/revistas/philologia/11_2/art_4.pdf

Garcés Chapero, B. (2009). Resumen Automático IA. Recuperado desde: https://www.cs.upc.edu/~bejar/ia/material/trabajos/Resumen_Automatico1.pdf

Gómez Guinovart, J. (1998). Fundamentos de Lingüística Computacional: bases teóricas, líneas de investigación y aplicaciones. Recuperado desde :https://www.researchgate.net/publication/39105441_Fundamentos_de_Linguistica_Computacional_bases_teoricas_lineas_de_investigacion_y_aplicaciones

Hernández Mercedes, P. (2002). En torno a la traducción automática. Cervantes, Nº2.

Hutchins, W. J.& Somers H. L. (1992). Introducción a la traducción automática. Madrid: Visor.

Johnson, K. y Johnson, H. (eds.) (1998): Encyclopedic Dictionary of Applied Linguistics: A Handbook for Language Teaching, Oxford: Blackwell, p.81-82

Martí Antonín, M. A. & Castellón Masalles, I. (2000). Lingüística computacional. Barcelona: Edicions Universitat de Barcelona.

Martí Antonín, M. A. & Llisterri, J. ([eds.] 2002). Tratamiento del lenguaje natural, Barcelona: Edicions Universitat de Barcelona.

Montes Gómez, M. (n.f.). Minería de texto: un nuevo reto computacional. México: Instituto Politécnico Nacional. Recuperado desde: https://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdf

Moreno Boronat, L., Palomar Sanz, M., Molina Marco, A., & Ferrández Rodríguez, A. (1999). Introducción al procesamiento del lenguaje natural. Alicante: Universidad de Alicante, p.13.

Moreno Ortiz, A. (2000). Diseño e implementación de un lexicón computacional para lexicografía y traducción automática. Estudios de Lingüística del Español, 9.  Recuperado desde: http://elies.rediris.es/elies9/4-4.htm

Moreno Sandoval, A. (1998). Lingüística computacional. Madrid: Ed. Sintesis.

Moreno Sandoval, A. (2017). La extracción automática de términos y su utilidad para aplicaciones de tecnología lingüística [online] iic.uam.es. Disponible en: http://www.iic.uam.es/inteligencia/extraccion-automatica-terminos-utilidad-tecnologia-linguistica/ [Accedida 17 Nov. 2019]

Pablo Giordanino, E. (n.f.). Sistemas de recuperación de la información. [Diapositivas de PowerPoint]. Recuperado de: http://eprints.rclis.org/14874/1/TAI2_introSRI_v4.pdf

Santiago de Torres, J. (n.d.). Acerca de CC | Ciencia Cognitiva. [online] Cienciacognitiva.org. Disponible en: http://www.cienciacognitiva.org/?page_id=5 [Accedida 5 Nov. 2019].

Tordera Yllescas, J. (2011). Lingüística computacional. Tecnologías del Habla. Valencia: Facultat de Filologia, Traducció i Comunicació, Universitat de València.

Llamazares, M. (2010). Aproximación a la Lingüística Computacional. Doctorado. Universidad de León.

Weizenbaum, Joseph. ELIZA – A Computer Program For the Study of Natural Language Communication Between Man and Machine. Communications of the ACM, 9. Edición1 (January 1966): p 36-45.

Winograd, T. (1983). Language as a cognitive process. Reading, Mass.: Addison-Wesley.

Yannakoudakis, E., & Hutton, P. (1987). Speech synthesis and recognition systems. Chichester: Ellis Horwood.

»  Substance:WordPress   »  Style:Ahren Ahimsa