Advanced level of Spanish
Puede usar las teclas derecha/izquierda para votar el artículo.Votación:1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (2 votos, promedio: 5,00 sobre 5)
LoadingLoading...

España Nivel C1

“MarIA”, el primer sistema de inteligencia artificial experto en lengua española

EFE / Madrid.- “MarIA” es el nombre del sistema creado en el Centro Nacional de Supercomputación de Barcelona y entrenado en el superordenador “MareNostrum” con archivos de datos de la BNE y que permitirá a los desarrolladores de aplicaciones disponer del primer método de inteligencia artificial “experto en comprender y escribir castellano”.

Según ha informado la Biblioteca Nacional de España (BNE), “MarIA” está disponible en abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste, y sus posibles aplicaciones van desde los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática, entre otros.

Eso sí, los ficheros de datos que han servido para entrenar a “MarIA” no están en dominio público y por lo tanto, “no están accesibles en internet”.

Se trata de los llamados ficheros resultantes del rastreo y archivado de la web española, que la Biblioteca Nacional de España conserva como patrimonio documental. El Centro Nacional de Supercomputación ha podido utilizarlos para entrenar al sistema gracias a la participación de ambas instituciones en el Plan de Tecnologías del Lenguaje.

El primer modelo de IA masivo de lengua española

Según han destacado desde la BNE, “MarIA” es el “primer modelo” de Inteligencia Artificial masivo de la lengua española.

“Es un conjunto de modelos del lenguaje o, dicho de otro modo, redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto. Logran trabajar con interdependencias cortas y largas y son capaces de entender, no sólo conceptos abstractos, sino también el contexto de los mismos”, añaden.

La creación del sistema “MarIA”

En este sentido, para crear el corpus de “MarIA” se han utilizado 59 terabytes (equivale a 59.000 gigabytes) del archivo web de la BNE. Posteriormente, estos archivos se procesaron para eliminar todo aquello que no fuera texto bien formado (números de páginas, gráficos, oraciones que no terminan, codificaciones erróneas, oraciones duplicadas u otros idiomas) y se guardaron solamente los textos bien formados en la lengua española, tal y como se utiliza realmente.

Para este cribado y su posterior compilación, explican desde la BNE, fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades.

Redes neuronales

Una vez creado el corpus, los investigadores del CNS utilizaron una tecnología de redes neuronales (basada en la arquitectura “Transformer”), que ha demostrado “excelentes resultados” en el inglés y que se entrenó para aprender a utilizar la lengua.

En este sentido, explican, las redes neuronales multicapa son una tecnología de Inteligencia Artificial y los entrenamientos consisten, entre otras técnicas, en presentar a la red textos con palabras ocultas, para que aprenda a adivinar cuál es la palabra ocultada dado su contexto.

Para este entrenamiento han sido necesarias 184.000 horas de procesador.

Las nuevas tecnologías de la IA

Según Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del CNS, las nuevas tecnologías de Inteligencia Artificial están “transformando completamente” el campo del procesamiento del lenguaje natural“.

Este proyecto se ha financiado con fondos del Plan de Tecnologías del Lenguaje de la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center.

Y con él, la BNE explora “nuevas vías” de explotación de los datos y las colecciones que conserva; así como busca “impulsar la reutilización, nuevos proyectos de investigación y mejorar el acceso de los ciudadanos a la información”.

El Barcelona Supercomputing Center (BSC) es la oficina técnica del Plan de las Tecnologías del Lenguaje (Plan-TL) de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA).

Como tal, su misión es facilitar el desarrollo de sistemas del lenguaje más competitivos a la sociedad, compañías y grupos de investigación, haciendo públicos modelos de lenguaje tanto generales como específicos -para dominios como la biomedicina o la legal- y liberando conjuntos de texto para entrenar y evaluar nuevos modelos, según el BSC.  (4 de agosto de 2021, EFE/PracticaEspañol)

La noticia relacionada en vídeo (mayo 2019):


Work with the video

¿Qué palabras necesitas para decir lo mismo que la locutora en el vídeo? Escucha y completa

Congratulations - you have completed ¿Qué palabras necesitas para decir lo mismo que la locutora en el vídeo? Escucha y completa.

You scored %%SCORE%% out of %%TOTAL%%.

Your performance has been rated as %%RATING%%


Your answers are highlighted below.
Question 1
"El ___________ de IBM Noam Slonim, reponsable del diseño The Project Debater, un dispositivo de inteligencia artificial _________ de ___________ temas complejos ________ seres humanos, mostró los avances de este __________ en Ginebra"
A
ingenioso, capas, batir, como, proyecto
B
ingeniero, capaz, debatir, con, proyecto
C
ingenio, capaz, rebatir, en, proyectó
Question 2
" ___________ la presentación, el dispositivo con una _______ femenina __________ por ordenador defendió que _____________ son buenas ______ el ___________"
A
durante, vos, generada, las redes, por, seres humanos
B
en, voz, general, la red social, para, humano
C
durante, voz, generada, las redes sociales, para, ser humano
Question 3
"Slonim explicó que su ____________ artificial utiliza varias herramientas ________ _________ frases que _________ relacionadas _______ el tópico a discutir, que __________ ___________ el oponente y que _________ __________________ la postura que se le ha asignado"
A
inteligente, para, coger, están, como, polemizan, contra, van, en favor de
B
inteligencia, para, escoger, estén, con, polemicen, contra, vayan, a favor de
C
inteligencia, por, recoger, estén, con, polemizan, con, vaya, a favor
Once you are finished, click the button below. Any items you have not completed will be marked incorrect. Get Results
There are 3 questions to complete.

Noticias al azar

Multimedia news of Agencia EFE to improve your Spanish. News with text, video, audio and comprehension and vocabulary exercises.