CienciaEducaciónInternetNoticiasTecnologíaYandex

Científicos rusos y Yandex presentan un dataset único para enseñar a la IA las reglas más complejas del ruso

Revolución lingüística: así la innovación de la MSU y Yandex transforma el aprendizaje de redes neuronales

La Universidad Estatal de Moscú y Yandex han creado el primer dataset abierto para entrenar a la IA en las reglas complejas del idioma ruso. El nuevo método aumentó la precisión en la corrección de errores en un 10%. Descubre cómo esto puede transformar el futuro de la inteligencia artificial.

Por primera vez, investigadores rusos de la Universidad Estatal de Moscú y la empresa Yandex han unido fuerzas para crear un conjunto de datos abierto que abarca los aspectos más complejos de la gramática y la puntuación del ruso. Este proyecto responde a un problema de larga data: aunque los modelos de lenguaje modernos han logrado avances impresionantes en la generación de textos, a menudo cometen errores cuando se requiere un conocimiento profundo de los matices lingüísticos. La causa radica en la falta de ejemplos especializados en los conjuntos de datos disponibles, lo que dificulta que las redes neuronales aprendan a manejar correctamente las reglas más complejas.

Como parte de esta nueva iniciativa, se ha recopilado un conjunto de datos único que incluye 48 reglas clave que suelen presentar dificultades incluso para hablantes nativos. El dataset contiene ejemplos que aparecen en exámenes y olimpiadas: desde la puntuación en oraciones subordinadas complejas hasta los matices del uso de la partícula «не» y la concordancia entre sujeto y predicado. Para la recopilación y anotación de los datos, participaron estudiantes de lingüística y se utilizaron manuales autorizados del idioma ruso. El resultado es un millar de ejemplos cuidadosamente seleccionados, en los que no solo se corrigen los errores, sino que también se indican detalladamente las reglas correspondientes.

Los desarrolladores señalan que este enfoque no solo permite identificar y corregir errores, sino también explicar por qué una corrección es la adecuada. Esto es especialmente importante para el entrenamiento de la inteligencia artificial, que debe no solo corregir el texto de manera mecánica, sino también comprender la lógica del lenguaje.

Método innovador para entrenar redes neuronales

Para aumentar la eficiencia al trabajar con el nuevo conjunto de datos, el equipo implementó un método original de entrenamiento para redes neuronales: la Generación Aumentada mediante Recuperación (Retrieval-Augmented Generation). El principio consiste en que, al detectar un error, el modelo primero busca en el conjunto de datos casos similares y luego utiliza los ejemplos encontrados para corregir adecuadamente la frase original. Este mecanismo permite evitar cambios innecesarios y centrarse solo en las partes problemáticas del texto.

Como base para el entrenamiento se eligió el modelo GECTOR, que fue adaptado teniendo en cuenta las particularidades del idioma ruso. Durante las pruebas en diversos modelos de lenguaje, incluyendo YandexGPT 5 Lite y YandexGPT 5 Pro, así como en análogos extranjeros, se logró un aumento significativo en la precisión de las correcciones. Según la métrica internacional F0,5, utilizada para evaluar la calidad de la corrección gramatical, la mejora fue de entre un 5% y un 10%. La mejora fue especialmente notable al trabajar con los errores más complejos, que anteriormente quedaban fuera del alcance de los algoritmos estándar.

YandexGPT 5 Pro, por ejemplo, tras la implementación del nuevo método, comenzó a corregir errores con una precisión de hasta el 83 %, mientras que la versión más ligera, YandexGPT 5 Lite, alcanza el 71 %. Estos resultados confirman la versatilidad y eficacia del enfoque propuesto, que puede adaptarse a otros idiomas y tareas.

Impacto en el desarrollo de la inteligencia artificial

Expertos destacan que la aparición de esta herramienta abre nuevas posibilidades para el desarrollo de sistemas automáticos de revisión y corrección de textos en ruso. Ahora, las redes neuronales no solo pueden corregir errores tipográficos comunes, sino también comprender construcciones sintácticas complejas, lo que resulta especialmente relevante para plataformas educativas, servicios de traducción automática y asistentes de voz.

El proyecto recibió reconocimiento en la conferencia internacional de lingüística computacional ACL 2025, donde fue destacado como una de las mejores soluciones en el ámbito de la inteligencia artificial aplicada a la educación. Al evento asistieron grandes empresas globales como Google, Apple, IBM y Bloomberg AI, lo que subraya el alto nivel del desarrollo ruso.

Durante el Congreso de Jóvenes Científicos, celebrado en la Universidad Científico-Tecnológica «Sirius» del 26 al 28 de noviembre, representantes de Yandex presentaron en detalle los resultados del trabajo y compartieron sus planes para el futuro desarrollo de la tecnología. Se espera que el acceso abierto al conjunto de datos y a la metodología de entrenamiento permita a otros investigadores y empresas aprovechar estos avances en sus propios proyectos.

A propósito de Yandex: el líder en tecnologías digitales en Rusia

Cabe destacar que «Yandex» es una de las mayores empresas de TI de Rusia, fundada en 1997. Con el paso de los años, la marca ha evolucionado de ser un motor de búsqueda a convertirse en un ecosistema multiproducto que abarca desde mapas en línea y taxis hasta servicios en la nube e inteligencia artificial. La compañía invierte activamente en investigación científica, colabora con universidades líderes y apoya startups en el ámbito de las altas tecnologías. En los últimos años, «Yandex» ha puesto especial atención en el desarrollo de sus propios modelos lingüísticos y servicios basados en IA, lo que le permite competir con los líderes mundiales del sector. Los productos de la empresa son utilizados por millones de usuarios no solo en Rusia, sino también en el extranjero. Gracias a la constante innovación y su enfoque en la calidad, «Yandex» mantiene su posición como uno de los referentes de la transformación digital en el país.

Подписаться
Уведомление о
guest
Не обязательно

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии
Botón volver arriba
RUSSPAIN.COM
Resumen de privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Cerrar

Bloqueador de anuncios detectado

У Вас включена блокировка рекламы. Мы работаем для Вас, пишем новости, собираем материал для статей, отвечаем на вопросы о жизни и легализации в Испании. Пожалуйста, выключите Adblock для нашего сайта и позвольте окупать наши затраты через рекламу.