Problemas reales con la Inteligencia Artificial

Quantum Babylon

Contenidos falsos, datos descontrolados y aplicación de sesgos en los países más pobres, el lado negativo de la IA

Los investigadores advierten que la mayor parte del texto que vemos en Internet ha sido mal traducido a uno o más idiomas a través de Inteligencia Artificial y traductores automáticos

Mirando 2024 con acento digital

Explorando el Futuro de la Inteligencia Artificial en 2024: Avances, desafíos y oportunidades

Problemas reales con Inteligencia Artificial.
- José Francisco Alonso

22 de enero 2024 - 08:10

A finales de diciembre era noticia el pacto de la UE para establecer la primera ley sobre inteligencia artificial del mundo y que si el calendario no falla estará en funcionamiento hacía el año 2026 con voces en todas las direcciones, desde que no será suficiente y podrá ser fácilmente esquivada por las grandes compañías del sector a que supondrá una fuerte desventaja competitiva para las empresas o la investigación europea al no contar con esa ingente cantidad de información que “flota” en Internet para alimentar sus máquinas de aprendizaje.

Pero todo esto es difícil de entender sin cifras ni ejemplos que lo traigan al mundo real, de todos son conocidas las frases: “¿Por qué tengo que esconderme si no he hecho nada?” o “Debe existir una total libertad para que todos publiquemos en Internet lo que queramos y así Internet no estará controlada por nadie”. Sobre el papel suenan muy bien y en un mundo ideal, no les faltaría razón, pero como ya sabrán de sobra nuestros lectores la dura realidad funciona de otra manera y nada mejor que unos estudios recientes para hacernos pensar con calma en la necesidad de una ley que pueda poner un poco de orden en este caos.

Para comenzar, si lo habías pensado alguna vez no te equivocabas: una cantidad enorme, posiblemente, casi la mitad de todo lo que existe en la Web es poco menos que basura traducida por IA, según determinó un equipo de científicos de la Universidad de Cornell.

Los expertos detectaron que una cantidad “impactante” de contenidos es material traducido de forma rudimentaria, inexacta y automática sin el menor rigor y además se produce de una manera asombrosa los idiomas hablados en África y el Sur Global. Los investigadores descubrieron que más de la mitad de las oraciones en la web se han traducido a dos o más idiomas, con una calidad cada vez peor debido a la endogamia, lo que, según dijeron, generaba “serias preocupaciones” sobre la formación de grandes modelos de lenguaje que beben de este contenido retorcido hasta el extremo.

“De hecho, nos interesamos en este tema porque varios colegas que trabajan en MT y son hablantes nativos de idiomas de bajos recursos notaron que gran parte de Internet en su idioma nativo parecía ser generado por MT”, dijo Mehak Dhaliwal, ex pasante de ciencias aplicadas en AWS y actual estudiante de doctorado en la Universidad de California, en Santa Bárbara, a Motherboard. “Así que la idea realmente provino de los hablantes de idiomas de bajos recursos, e hicimos el estudio para comprender mejor el problema y ver qué tan extendido estaba”.

Mehak Dhaliwal nos advierte de algo que ya es sobradamente evidente: “Todo el mundo debería ser consciente de que el contenido que ve en la web puede haber sido generado por una máquina” Además, para quien le queden dudas, el estudio, enviado al servidor de arXiv hace unos días, esta generado con un corpus de 6,38 mil millones de oraciones extraídas de la web y se observaron patrones de paralelismo multidireccional, que describe conjuntos de oraciones que son traducciones directas entre sí en tres o más idiomas, descubriendo, sin demasiada sorpresa, que la mayor parte del contenido en Internet son traducciones, ya que el 57,1% de las oraciones del corpus eran paralelas en varios sentidos en al menos tres idiomas.

Para empeorar las cosas, como todos los esfuerzos de aprendizaje automático, la traducción automática se ve afectada por los prejuicios humanos y como no, se inclina hacia los idiomas hablados en el mundo occidental y grandes potencias del Norte, por lo que la calidad de las traducciones varía enormemente, y los idiomas de los países de lugares como África producen textos muy inexactos.

Los idiomas de países más avanzados, como el inglés o el francés, tendían a tener un paralelismo promedio de 4, lo que significa que las oraciones tenían equivalentes traduccionales en otros tres idiomas, mientras que los idiomas de países más pobres, como las lenguas africanas wolof o xhosa, tenían un paralelismo promedio que podía alcanzar más de ocho con textos profundamente inexactos.

Ahí no quedaba el asunto, para facilitar la traducción las IAs seleccionan textos lo más corto posibles para ser “más predecibles” y facilitar la traducción a otros lenguajes, así que tienden a buscar traducciones de artículos ya caracterizados como de baja calidad, que requerían poca o ninguna experiencia o esfuerzo previo para su creación. O dicho de otra manera, cuanto más tonto y sencillo fuese el origen, mejor.

Los investigadores vieron que el sesgo de selección hacia oraciones cortas de artículos de baja calidad se debía a que “el contenido de baja calidad “ se traducía en masa a muchos idiomas de países en vías de desarrollo con el objetivo, probablemente, de generar mucha publicidad y ganancias.

Una gran parte de Internet en idiomas de países en vías de desarrollo está mal traducida por IA, lo que plantea interrogantes sobre la capacidad para desarrollar grandes modelos lingüísticos en idiomas no mayoritarios.

La IA moderna requiere de enormes cantidades de datos para el entrenamiento, generalmente desde varios cientos de miles de millones de tokens hasta unos pocos billones de tokens y esa formación a esta escala sólo es posible con datos extraídos de la web. Así que plantear entrenar IAs con semejante inexactitud en la información pronto se tornará en un problema muy serio.

Finalmente, aunque lo hemos oído tanto en los últimos años que parece no afectarnos, recordemos que las empresas recopilan una gran cantidad de nuestros datos y luego los distribuyen alegremente. Consumer Reports realizó un estudio enfocado a Facebook y la vasta cantidad de información de los usuarios que traslada a miles de empresas. Su objetivo era proporcionar las cifras más precisas hasta la fecha, y los resultados son bastante alarmantes. Facebook informó de media a 2.230 empresas diferentes sobre los gustos de tan solo 709 voluntarios. De hecho, en uno de los casos más extremos, se encontraron datos en casi 48.000 empresas diferentes sobre un solo voluntario.

¿Seguro que no debemos regular un poco todo esto?

No hay comentarios

Ver los Comentarios

También te puede interesar

Lo último