Los rápidos avances en la tecnología de aprendizaje automático permiten construir grandes modelos lingüísticos que se entrenan con conjuntos de datos masivos. Estos modelos han dado lugar a ChatGPT y otros asistentes virtuales de chat (o chatbots de “inteligencia” artificial) que se propagan rápidamente y que se están diseñando para analizar y generar texto principalmente en inglés. El diseño y desarrollo de tecnologías de lenguaje digital en general, pero especialmente las tecnologías que se basan en modelos lingüísticos, exigen un análisis profundo de quién está construyendo esta tecnología, quién se beneficiará de ella y quién decidirá sobre su futuro. Timnit Gebru, informática etíope que se especializa en sesgo algorítmico, argumenta que la construcción de modelos lingüísticos avanza con poca evaluación de los riesgos éticos y sin ninguna estrategia para eliminar los sesgos inherentes a los conjuntos de datos — sesgos que perpetúan el racismo y otras formas de violencia y discriminación que afectan de manera desproporcionada a comunidades marginadas.
Procesos de colonización, genocidio masivo y extractivismo dieron forma al mapa lingüístico global que conocemos hoy en día. Las lenguas “minoritarias” y las lenguas en peligro de extinción (más del 40% de las lenguas existentes) alguna vez fueron idiomas regionales dominantes usados por millones de personas de Naciones Indígenas en todo el mundo de la Mayoría Global: Asia, África, las Américas, el Caribe y el Islas del pacifico. Gran parte de estas lenguas eran formas de comunicación no textuales, sino orales, gestuales, visuales o incluso transmitidas a través del sonido (por ejemplo por medio de tambores). Hoy en día, de más de 7000 lenguas distintas en todo el mundo, solo alrededor de 4000 tienen sistemas de escritura, la mayoría de los cuales se desarrollaron a través de procesos de colonización y no por hablantes de esas lenguas. Además, aquellas lenguas que tienen una forma escrita, pero que no son lenguas euro-coloniales, especialmente inglés, permanecen al margen de la academia, la industria editorial y en general de la producción pública de conocimiento en línea. El 60% del contenido en línea está disponible sólo en inglés, y la mayoría de las publicaciones académicas científicas o sociales reconocidas globalmente están en inglés, por ejemplo.
Esta importante exclusión de gran parte de las lenguas del mundo (y de sus varias formas y modalidades) de las tecnologías del lenguaje digital afecta negativamente los datos empleados en el procesamiento de lenguajes naturales (PLN), y consecuentemente a los grandes conjuntos de datos lingüísticos utilizados para entrenar a los modelos lingüísticos. Mejorar estos corpus es una tarea que requiere mucho tiempo, es emocionalmente demandante, y generalmente se realiza por personas en países del mundo de la Mayoría Global, donde la mano de obra es barata y las regulaciones laborales son poco estrictas. Pero aún cuando se introducen ciertas mejoras, estas van dirigidas a los corpus en idiomas dominantes, por lo general el inglés. Así, las lenguas originarias, son doble o triplemente excluidas del sistema de PLN, debido a que por lo general no tienen un sistema escrito y no tienen un valor económico atractivo para las grandes compañías tecnológicas o para las personas desarrolladoras. Por tanto hay menos interés y recursos para tener datasets representativos en lenguas originarias.
Cuando miramos el contenido que está disponible en línea, vemos que más del 75% de quienes acceden a Internet lo hacen en solo 10 lenguas. Más del 90% de las personas afrodescendientes necesitan cambiar a una segunda lengua para usar algunas de las principales plataformas y aplicaciones que usamos para crear contenido actualmente. Las lenguas minoritarias tienen menos disponibilidad que las lenguas euro-coloniales y que otras lenguas dominantes (como el chino mandarín o el árabe): los servicios en línea son más reducidos, existen menos interfaces traducidas a estas lenguas y hay menos soporte para las personas usuarias. En resumen, las plataformas y aplicaciones más usadas ofrecen una experiencia mucho mejor para las personas hablantes de lenguas dominantes o de vitalidad asegurada que para quienes hablan lenguas minoritarias o cuya transmisión intergeneracional está en peligro. Claramente, conectarse a internet puede ser una tarea desafiante y que requiere mucho tiempo para la mayoría de la población cuya primera lengua no es euro-colonial o dominante en su región.
Estas son algunas de las razones por las que es muy difícil para comunidades marginadas crear contenido afirmante y relevante, y traer sus conocimientos a internet — una tarea particularmente difícil para aquellas personas que se encuentran en las intersecciones de múltiples sistemas de discriminación y opresión (como el racismo, la homofobia, el capacitismo, el clasismo, por nombrar algunos). De todas las cosas que internet podría ser para estas comunidades, se convierte en un lugar desafiante y peligroso. El contenido en internet, por otro lado, se reduce a una recolección de las formas de ser y de entender el mundo de una minoría privilegiada; y estas son las opiniones, los marcos epistemológicos y las ontologías que alimentan a los modelos lingüísticos perpetuándose en estas nuevas tecnologías.
Impulsando el multilingüismo y la multimodalidad a través de la práctica
Aprender y reflexionar sobre el estado de las lenguas en línea es un aspecto central del trabajo sobre la justicia epistémica y lingüística de Whose Knowledge?. Es una práctica que venimos fortaleciendo de diferentes maneras, incluyendo con la del Informe sobre el Estado de las Lenguas en Internet lanzado en febrero de 2022, en asociación con el Oxford Internet Institute y el Center for Internet and Society (India).
El análisis del poder y las invitaciones y provocaciones de cara al futuro que ofrecemos aquí provienen del fascinante tejido del Informe sobre el Estado de las Lenguas en Internet. Como todo trabajo que desafía las estructuras históricas y actuales de poder y privilegio, este es un esfuerzo continuo y comunitario donde el proceso de construcción fue tan importante como el resultado final.
Por ejemplo, como un desafío ante la rápida adopción de herramientas de traducción automática, reunimos a un grupo de traductoras con valores anticoloniales para traducir el Informe sobre el Estado de las Lenguas en Internet. Al colocar a personas en el centro del proceso de traducción, no solo construimos una comunidad, sino que también posibilitamos que estas personas aportaran sus habilidades lingüísticas al informe.
También aprovechamos la oportunidad para probar la tecnología de videoconferencia y streaming con un lente crítico: el Informe sobre el Estado de las Lenguas en Internet se lanzó en un panel en línea transmitido en vivo, con moderación en portugués, inglés y español, con la participación de panelistas que hablaron en zapoteco, inglés, español y bengalí, y con interpretación simultánea en inglés, español, portugués, árabe y bengalí. Lamentablemente, ninguna de las plataformas de videoconferencia que probamos funciona bien en un escenario multilingüe tan complejo, ya que el soporte de idiomas de su interfaz es limitado, y no ofrece una forma accesible e interoperable de hacer streaming de un evento en varias lenguas a diferentes canales de manera simultánea.
Ya que solo una fracción de las lenguas del mundo tienen sistemas de escritura, nos esforzamos por no perpetuar la predominancia del texto sobre otras formas del lenguaje como la oralidad, gestualidad y lo visual. Por ello en el Informe sobre el Estado de las Lenguas en Internet dimos el salto para darle mayor importancia al audio, las imágenes y el video (incluyendo una traducción al lenguaje se señas), mejorando al mismo tiempo la accesibilidad del contenido.
Reconocemos que todas las personas tenemos habilidades y experiencias diferentes y que necesitamos trabajar juntas para crear una internet verdaderamente multilingüe, con ese espíritu el Informe sobre el Estado de las Lenguas en Internet ofrece una agenda de acción para avanzar hacia una internet más multilingüe y multimodal.
Image: Versión de las autoras de cómo una máquina vería la imagen principal de este artículo.
Mirando hacia el futuro: cambiando nuestras formas de hacer y soñar
Cambiar la narrativa en torno al desarrollo y las posibilidades de los modelos lingüísticos es un desafío que exige un replanteamiento profundo de las tecnologías que construimos y una invitación a soñar de manera diferente, como ya lo están haciendo algunas comunidades tecnológicas.
La industria de la tecnología no es enteramente responsable de cómo y por qué la mayoría de las lenguas no están representadas en línea. Pero los valores capitalistas y tecno-chovinistas que lideran el sector perpetúan los mecanismos que marginan las lenguas minoritarias en línea. Las personas desarrolladoras de tecnologías digitales deben reflexionar sobre cómo la tecnología que crean y las políticas de sus empresas están contribuyendo a profundizar las injusticias sistémicas existentes, incluida la discriminación lingüística.
Las empresas tecnológicas, como actores claves, deben poner la ética y el consentimiento comunitario en su centro al momento de crear tecnología y recolectar datos lingüísticos, garantizando que las comunidades de hablantes puedan decidir de manera autónoma y segura cómo y qué información comparten. Esto implica que las tecnologías digitales deben estar articuladas en torno al contexto, las necesidades, los diseños y la imaginación de comunidades lingüísticas locales, pero conectadas a nivel global, en lugar de intentar encajar la diversidad lingüística en un modelo tecnológico único.
Las personas hablantes de una lengua deben ser una parte central en el desarrollo de tecnologías y creación de contenido en las plataformas y herramientas que utilizan. Las empresas tecnológicas y las organizaciones de estándares deberían priorizar este modelo participativo y verlo como un derecho humano fundamental. Para lograr esto, necesitamos repensar el modelo de gobernanza de las infraestructuras lingüísticas y avanzar hacia un conjunto de prácticas de gobernanza más justas, que estén en valores comunitarios y que sean distribuidas. Es crucial construir a partir de conjuntos de datos relativamente pequeños, gobernados y gestionados por comunidades mediante procesos humanos basados en el contexto y el respeto mutuo con comunidades marginadas.
Estos procesos comunitarios a pequeña escala también permitirían poner a las lenguas marginadas al centro del diseño de estas tecnologías en lugar de verlas como cuestiones periféricas. Recordemos que así como la imaginación, experiencia y el conocimiento ancestral de las Naciones Indígenas es fundamental para hacer frente a la inminente crisis ecológica, también lo es para diseñar tecnologías lingüísticas que respeten la memoria colectiva y comunitaria.
Atrevámonos a imaginar tecnologías de lenguaje digital, ya sea en forma de asistentes virtuales como ChatGPT, que permitan representar en línea todos los lenguajes y conocimientos humanos en sus múltiples formas y en toda su inmensidad. Principalmente, soñemos con una internet donde la Mayoría Global —aquellas comunidades que venimos luchando históricamente por ser vistas, escuchadas y reconocidas— podamos usar internet con plenitud y placer. Al fin y al cabo, las lenguas son mucho más que un medio de comunicación, cada lengua es una forma de ser, hacer, conocer e imaginar. Ngũgĩ wa Thiong'o, en Decolonizing the Mind, afirma que “un idioma, cualquiera que sea, tiene un carácter dual: es tanto un medio de comunicación como un portador de cultura”. Comunicarse en una lengua colonial implica existir en el mundo de una forma meramente cerebral y no de una manera emocional o personificada, sugiere el autor. Soñemos con tecnologías lingüísticas que nos permitan a todas las personas narrar nuestras historias y compartir nuestros conocimientos desde el honor y dignidad.
Notas:
[1] Mayoría Global o Mayoría minorizada del mundo se define en el Informe sobre el Estado de las Lenguas en Internet como: “Las estructuras de poder y privilegio históricas y actuales tienen como consecuencia la discriminación y opresión de muchas diferentes comunidades y poblaciones en el mundo. En muchos casos estas formas de poder y privilegio convergen y se cruzan de forma que algunas comunidades se ven desfavorecidas y oprimidas de varias maneras: en base a su género, su raza, su sexualidad, su clase, su casta, su religión, su región, sus capacidades y, por supuesto, su lengua. Tanto en el mundo físico como en la red, estas comunidades conforman la mayoría del mundo a nivel numérico y poblacional, si bien habitualmente no ocupan posiciones de poder y son, por lo tanto, tratadas como una minoría. En otras palabras: son la “mayoría minorizada” del mundo.”
[2] Lenguas coloniales europeas o lenguas euro-coloniales se definen en el Informe sobre el Estado de las Lenguas en Internet como: “Lenguas de Europa occidental que se propagaron por África, Asia, las Américas, el Caribe y las Islas del Pacífico a través de los procesos de colonización llevados a cabo por las compañías comerciales y los imperios europeos a partir del siglo XVI. Incluyen el inglés, el castellano, el francés, el portugués, el neerlandés y el alemán. Es importante señalar que estas lenguas también fueron lenguas “colonizadoras” para los pueblos indígenas de América del Norte y no solo en América Latina (América Central y del Sur).”
[3] Thiong'o, N.W. (2005). Decolonizing the Mind: The Politics of Language in African Literature. East African Educational Publishers Ltd.
Aldo Berríos: Magíster en Lingüística Aplicada por la Universidad de Concepción. Cofundador del proyecto Kimeltuwe que promueve y enseña el mapudungun (idioma mapuche) en internet, con cientos de miles de seguidores. Como docente del idioma mapuche, ha preparado y publicado materiales de referencia para procesos de enseñanza y aprendizaje. Sus intereses académicos son la variación y diversidad expresada especialmente en el nivel fonológico y morfológico del mapudungun.
Ana Alonso Ortíz: Antropóloga, lingüista, oradora, y miembro de la organización Dill Yelnbán y de la comunidad zapoteca en Oaxaca, México. El trabajo de Ana se centra en el estudio lingüístico de la lengua zapoteca. También trabaja en evaluación de idiomas, generalmente investigando formas de evaluar el dominio del idioma en lenguas indígenas. Como antropóloga, analiza la relación entre lengua y cultura a través de las fronteras zapotecas.
Claudia Pozo: Feminista marrón boliviana y tecnóloga de derechos humanos con formación en Estudios de Desarrollo y Comunicaciones. Claudia es una activista polifacética, científica social, estratega y persona técnica que ha trabajado como desarrolladora web y productora de contenido en diversos formatos y en varios idiomas durante más de 15 años. También es la coordinadora del programa Language Justice en Whose Knowledge?