LIBRA: un nuevo estándar para evaluar la resistencia de la inteligencia artificial

Científicos rusos crean una prueba única para IA en textos extensos

En Rusia se ha desarrollado el primer conjunto integral de pruebas para inteligencia artificial capaz de trabajar con grandes volúmenes de texto. El nuevo benchmark LIBRA (Long Input Benchmark for Russian Analysis) está diseñado para evaluar hasta qué punto los modelos de lenguaje actuales realmente pueden “mantener en memoria” y analizar textos de una extensión comparable a la de un libro completo. Hasta ahora, no existían este tipo de herramientas para el ruso y las pruebas existentes no permitían comparar objetivamente diferentes redes neuronales entre sí.

LIBRA incluye 18 tareas agrupadas por nivel de dificultad y abarca un amplio espectro de desafíos, desde la búsqueda de información específica hasta complejos razonamientos lógicos y matemáticos. Este enfoque permite identificar los puntos fuertes y débiles de los modelos, así como comprender en qué momento la inteligencia artificial empieza a “perderse” en documentos extensos.

Estructura de LIBRA

El principio fundamental de LIBRA es la evaluación multinivel. El primer grupo de tareas consiste en buscar frases únicas en un texto extenso, algo así como “una aguja en un pajar”. El modelo debe encontrar de forma rápida y precisa la información requerida entre miles de líneas. El siguiente nivel exige no solo búsqueda, sino también respuestas significativas basadas en el contenido del documento.

La tercera categoría de tareas obliga a la red neuronal a analizar y correlacionar hechos dispersos a lo largo de todo el texto. Aquí una búsqueda superficial ya no es suficiente: se requiere auténtico pensamiento analítico. Las pruebas más difíciles están relacionadas con la lógica y las matemáticas: la inteligencia artificial debe no solo comprender lo leído, sino también sacar conclusiones basándose en todo el contexto.

Transparencia y accesibilidad

LIBRA se ha creado como una plataforma abierta para investigadores y desarrolladores. Todas las tareas, conjuntos de datos y herramientas de evaluación están disponibles en un leaderboard público, lo que permite comparar los resultados de diferentes modelos en un entorno justo y transparente. Este enfoque fomenta la competencia saludable y acelera el desarrollo de tecnologías para el procesamiento de textos extensos en ruso.

María Tíjonova, directora de SberAI y profesora asociada de la Escuela Superior de Economía, subraya la importancia de las herramientas abiertas para la colaboración en la era del rápido avance de la inteligencia artificial. Según ella, LIBRA no es solo un conjunto de tareas, sino una auténtica ‘sandbox’ para probar y perfeccionar redes neuronales.

Resultados del testeo

En LIBRA ya se han probado 17 modelos lingüísticos populares. Los resultados han sido reveladores: incluso los sistemas más avanzados empiezan a perder precisión a medida que aumenta el volumen del texto. El líder entre los modelos probados fue GPT-4o, y entre las soluciones abiertas destacó GLM4-9B-Chat, accesible para desarrolladores rusos.

El desarrollador principal de LIBRA, Igor Churin, señala que la limitada “ventana de contexto” durante mucho tiempo obstaculizó la integración de las LLM (Large Language Models) en procesos empresariales reales y en la investigación científica. El nuevo benchmark permite evaluar de forma cuantitativa cómo estos modelos afrontan tareas que requieren analizar decenas de miles de tokens, desde extensos artículos hasta libros completos.

Características y perspectivas

LIBRA se distingue no solo por su escala, sino también por un enfoque único en la elaboración de las tareas. Catorce de las dieciocho pruebas fueron diseñadas especialmente para este proyecto a partir de fuentes abiertas en ruso. Esto permite tener en cuenta las particularidades lingüísticas y el contexto cultural, algo imposible al utilizar conjuntos de datos traducidos.

Aydar Bulatov, del laboratorio de sistemas neuronales y aprendizaje profundo del MIPT, destaca que antes de la aparición de LIBRA los desarrolladores rusos no contaban con un estándar unificado para evaluar modelos con textos largos. Ahora, todos tienen la oportunidad de comparar objetivamente sus soluciones e identificar áreas para un mayor desarrollo.

El equipo del proyecto planea ampliar el benchmark incorporando nuevos tipos de tareas y dominios textuales, lo que permitirá analizar aún más a fondo las capacidades de la inteligencia artificial y detectar sus puntos débiles.

Si no lo sabía, SberAI es la división de Sber dedicada a la investigación y desarrollo en el ámbito de la inteligencia artificial. María Tikhonova, quien dirige el área, participa activamente en la creación de plataformas abiertas para el desarrollo de la IA en Rusia. Igor Churin es el principal especialista en modelos de lenguaje y uno de los fundadores del proyecto LIBRA. El MIPT (Instituto de Física y Tecnología de Moscú) es uno de los socios científicos clave que respaldan la iniciativa para el avance de las tecnologías nacionales de inteligencia artificial.

Fernando Molina 01.12.2025 22:12

0 5 minutos de lectura