Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


Investigadores del Scaling Intelligence Lab de la Universidad de Stanford introdujeron un nuevo marco de inferencia que podría ayudar a los modelos de lenguajes grandes (LLM) a analizar posibles respuestas más rápidamente.

El marco, Archon, utiliza un algoritmo de búsqueda de arquitectura en tiempo de inferencia (ITAS) para mejorar el rendimiento de los LLM sin capacitación adicional. Es independiente del modelo, de código abierto y está diseñado para ser plug-and-play para modelos grandes y pequeños.

Idealmente, Archon podría ayudar a los desarrolladores a diseñar sistemas de modelos de IA utilizando múltiples técnicas de tiempo de inferencia para reducir los modelos y determinar las respuestas. El Scaling Intelligence Lab dijo que técnicas como Archon ayudarían a reducir los costos relacionados con la construcción de modelos e inferencias. A medida que el desarrollo de LLM gire hacia parámetros más amplios o un razonamiento más avanzado, los costos podrían aumentar a pesar de que empresas como OpenAI anticipan una mayor asequibilidad.

Según los investigadores, Archon diseña automáticamente arquitecturas que mejoran la generalización de tareas, permitiendo a los modelos realizar tareas más allá de aquellas para las que fueron entrenados inicialmente.

«Nuestro marco Archon y nuestro algoritmo ITAS se inspiran en las arquitecturas neuronales y la búsqueda de arquitectura neuronal, respectivamente», dijeron los investigadores en su artículo. «Archon está construido a partir de capas de LLM, en las que los modelos de la misma capa se ejecutan en paralelo, pero cada uno de ellos se ejecuta posteriormente de forma secuencial».

Estas capas realizan diferentes técnicas de inferencia en tiempo, «ya sea transformando la cantidad de respuestas candidatas mediante generación y fusión (como transformaciones lineales) o reduciendo la cantidad de respuestas candidatas para mejorar la calidad (como no linealidades)».

Archon superó a GPT-4o y Claude 3.5 Sonnet por 15,1 puntos porcentuales en pruebas de referencia como MT-Bench, Arena-Hard-Auto, Alpaca-2.0 Eval, MixEval, MixEval Hard, MATH y CodeContests. Cuando Archon se enfrentó a LLM de código abierto, los superó en 11,2 puntos porcentuales.

Componentes de arconte

El algoritmo ITAS se compone de varios componentes LLM y puede realizar técnicas de inferencia en tiempo.

El primer componente es el Generador, que crea posibles respuestas para el modelo. El segundo componente, el Guser, tomará estas respuestas y las combinará en una sola. Un ejemplo sería si la pregunta planteada a un modelo quiere saber la capital de Francia, el fusor tomará las respuestas generadas de “la capital de Francia es París”, Francia está en Europa” y las convertirá en “la capital de Francia”. Francia, un país de Europa, es París”.

A continuación, Archon pasa al componente Ranker, que clasifica las mejores respuestas. Un componente crítico evalúa las respuestas clasificadas para determinar si son buenas o malas. El Verificador verifica la lógica y la corrección antes de pasar al Generador y Evaluador de Pruebas Unitarias, que realizan pequeñas pruebas para ver si la respuesta funciona y verifican los resultados de la prueba.

Al construir Archon de esta manera, los investigadores dijeron que el marco mejora la calidad de las respuestas de los LLM más rápido y sin ajustes adicionales.

Las limitaciones de Arconte

Hasta ahora, el marco Archon funciona mejor con LLM con parámetros 70B o más, como Code Llama 70B de Meta, lo que dificulta señalar la mayoría de los LLM en este momento. Los investigadores dijeron que la mayor parte del desafío proviene de las capacidades limitadas del modelo más pequeño para seguir instrucciones debido a las ventanas de contexto más pequeñas.

«Cuando utilizamos la arquitectura Archon con solo 7B de modelos de código abierto, obtenemos una disminución notable del 16%» en el rendimiento, afirma el documento.

Los modelos más pequeños que utilizan la estructura Archon quedaron rezagados con respecto a los modelos de una sola vuelta en un 15,7%.

El laboratorio de Stanford también dijo que Archon “no es ideal para tareas que prefieren la latencia de una sola llamada de LLM”, como los chatbots. El marco realiza múltiples llamadas de LLM debido a las diferentes operaciones que realiza, por lo que las consultas de preguntas y respuestas únicas no se beneficiarán de sus capacidades. Archon puede funcionar mejor para tareas que involucran instrucciones complejas como resolver ecuaciones, programación o incluso problemas complicados de servicio al cliente.

A pesar de sus limitaciones, los investigadores detrás de Archon dijeron que esperan que pueda acelerar el desarrollo de modelos de alto rendimiento sin requerir más inferencia y capital de capacitación.