Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información
Si bien los modelos de lenguaje grande (LLM) se están volviendo cada vez más efectivos en tareas complicadas, hay muchos casos en los que no pueden obtener la respuesta correcta en el primer intento. Es por eso que existe un interés creciente en permitir que los LLM detecten y corrijan sus errores, también conocido como «autocorrección». Sin embargo, los intentos actuales de autocorrección son limitados y tienen requisitos que a menudo no se pueden cumplir en situaciones del mundo real.
En un nuevo artículo, investigadores de Google DeepMind presentan la autocorrección mediante aprendizaje por refuerzo (SCoRe), una técnica novedosa que mejora significativamente las capacidades de autocorrección de los LLM utilizando únicamente datos autogenerados. SCoRe puede ser una herramienta valiosa para hacer que los LLM sean más sólidos y confiables y abre nuevas posibilidades para mejorar sus habilidades de razonamiento y resolución de problemas.
La importancia de la autocorrección en los LLM
«La autocorrección es una capacidad que mejora enormemente el pensamiento humano», dijo a VentureBeat Aviral Kumar, científico investigador de Google DeepMind. “Los humanos a menudo pasan más tiempo pensando, probando múltiples ideas, corrigiendo sus errores, para finalmente resolver una pregunta desafiante determinada, en lugar de simplemente producir soluciones de una sola vez para preguntas desafiantes. Nos gustaría que los LLM pudieran hacer lo mismo”.
Idealmente, un LLM con fuertes capacidades de autocorrección debería poder revisar y refinar sus propias respuestas hasta llegar a la respuesta correcta. Esto es especialmente importante porque los LLM a menudo poseen el conocimiento necesario para resolver un problema internamente pero no lo utilizan de manera efectiva al generar su respuesta inicial.
“Desde un punto de vista fundamental del aprendizaje automático, no se espera que ningún LLM resuelva problemas difíciles usando su memoria (ningún ser humano ciertamente puede hacer esto) y, por lo tanto, queremos que los LLM dediquen más tiempo a pensar en cálculos y corregirse a sí mismos para tener éxito. problemas difíciles”, dijo Kumar.
Los intentos anteriores de permitir la autocorrección en los LLM se han basado en ingeniería rápida o modelos de ajuste específicos para la autocorrección. Estos métodos generalmente suponen que el modelo puede recibir retroalimentación externa sobre la calidad de los resultados o tiene acceso a un «oráculo» que puede guiar el proceso de autocorrección.
Estas técnicas no utilizan las capacidades intrínsecas de autocorrección del modelo. Los métodos de ajuste supervisado (SFT), que implican entrenar un modelo para corregir los errores de un modelo base, también han mostrado limitaciones. A menudo requieren retroalimentación de Oracle por parte de anotadores humanos o modelos más sólidos y no dependen del propio conocimiento del modelo. Algunos métodos SFT incluso requieren múltiples modelos durante la inferencia para verificar y refinar la respuesta, lo que dificulta su implementación y uso.
Además, la investigación de DeepMind muestra que, si bien los métodos SFT pueden mejorar las respuestas iniciales de un modelo, no funcionan bien cuando el modelo necesita revisar sus respuestas en varios pasos, lo que suele ocurrir con problemas complicados.
«Es muy posible que al final del entrenamiento el modelo sepa cómo corregir los errores del modelo base, pero no tenga capacidades suficientes para detectar sus propios errores», dijo Kumar.
Otro desafío con SFT es que puede conducir a un comportamiento no deseado, como que el modelo aprenda a producir la mejor respuesta en el primer intento y no la cambie en los pasos posteriores, incluso si es incorrecta.
«Descubrimos que el comportamiento de los modelos entrenados en SFT colapsa en gran medida ante esta estrategia ‘directa’ en lugar de aprender a autocorregirse», dijo Kumar.
Autocorrección mediante aprendizaje por refuerzo
Para superar las limitaciones de enfoques anteriores, los investigadores de DeepMind recurrieron al aprendizaje por refuerzo (RL).
“Los LLM hoy en día no pueden hacer (autocorrección), como se desprende de estudios anteriores que evalúan la autocorrección. Esta es una cuestión fundamental”, dijo Kumar. “Los LLM no están capacitados para mirar atrás e introspeccionar sus errores, sino que están capacitados para producir la mejor respuesta ante una pregunta. Por lo tanto, comenzamos a desarrollar métodos de autocorrección”.
SCoRe entrena un único modelo para generar respuestas y corregir sus propios errores sin depender de comentarios externos. Es importante destacar que SCoRe logra esto entrenando el modelo completamente con datos autogenerados, eliminando la necesidad de conocimiento externo.
Los intentos anteriores de utilizar RL para la autocorrección se han basado principalmente en interacciones de un solo turno, lo que puede conducir a resultados indeseables, como que el modelo se centre únicamente en la respuesta final e ignore los pasos intermedios que guían la autocorrección.
“Vemos… ‘colapso de comportamiento’ en LLM capacitados para realizar autocorrección con RL ingenuo. Aprendió a simplemente ignorar las instrucciones de autocorregirse y producir la mejor respuesta a partir de su memoria, en cero, sin aprender a corregirse a sí mismo”, dijo Kumar.
Para evitar el colapso del comportamiento, SCoRe utiliza un proceso de entrenamiento de dos etapas con técnicas de regularización. La primera etapa reemplaza SFT con un proceso que optimiza el rendimiento de la corrección al tiempo que garantiza que los intentos iniciales del modelo permanezcan cerca de los resultados del modelo base.
La segunda etapa emplea RL de múltiples turnos para optimizar la recompensa tanto en el intento inicial como en los posteriores, al tiempo que incorpora una bonificación de recompensa que alienta al modelo a mejorar sus respuestas desde el primer al segundo intento.
«Tanto la inicialización como la bonificación de recompensa garantizan que el modelo no pueda simplemente aprender a producir la mejor respuesta en el primer intento y editarla sólo ligeramente», escriben los investigadores. «En general, SCoRe puede obtener conocimientos del modelo base para permitir una autocorrección positiva».
SCoRe en acción
Los investigadores de DeepMind evaluaron SCoRe comparándolo con métodos existentes que utilizan datos autogenerados para el entrenamiento de autocorrección. Se centraron en tareas de matemáticas y codificación, utilizando puntos de referencia como MATH, MBPP y HumanEval.
Los resultados mostraron que SCoRe mejoró significativamente las capacidades de autocorrección de los modelos Gemini 1.0 Pro y 1.5 Flash. Por ejemplo, SCoRe logró una ganancia absoluta del 15,6 % en autocorrección en el punto de referencia MATH y una ganancia del 9,1 % en el punto de referencia HumanEval en comparación con el modelo base, superando a otros métodos de autocorrección en varios puntos porcentuales.
La mejora más notable fue la capacidad del modelo para corregir sus errores desde el primer al segundo intento. SCoRe también redujo considerablemente los casos en los que el modelo cambió por error una respuesta correcta por una incorrecta, lo que indica que aprendió a aplicar correcciones sólo cuando era necesario.
Además, SCoRe demostró ser muy eficiente cuando se combina con estrategias de escalamiento de tiempo de inferencia, como la autoconsistencia. Al dividir el mismo presupuesto de inferencia en múltiples rondas de corrección, SCoRe permitió mayores ganancias de rendimiento.
Si bien el artículo se centra principalmente en tareas de codificación y razonamiento, los investigadores creen que SCoRe también puede ser beneficioso para otras aplicaciones.
«Se podría imaginar enseñar a los modelos a revisar sus resultados que podrían ser potencialmente inseguros y mejorarlos por sí mismos, antes de mostrárselos al usuario», dijo Kumar.
Los investigadores creen que su trabajo tiene implicaciones más amplias para la formación de LLM y destaca la importancia de enseñar a los modelos cómo razonar y corregirse a sí mismos en lugar de simplemente asignar entradas a salidas.