Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información
En marcado contraste con el llamativo evento del año pasado, OpenAI celebró una conferencia DevDay más moderada el martes, evitando grandes lanzamientos de productos en favor de mejoras incrementales en su conjunto existente de herramientas de IA y API.
Este año, el enfoque de la compañía fue empoderar a los desarrolladores y mostrar historias de la comunidad, lo que indica un cambio en la estrategia a medida que el panorama de la IA se vuelve cada vez más competitivo.
La compañía presentó cuatro innovaciones importantes en el evento: Vision Fine-Tuning, Realtime API, Model Distillation y Prompt Caching. Estas nuevas herramientas resaltan el giro estratégico de OpenAI hacia el empoderamiento de su ecosistema de desarrolladores en lugar de competir directamente en el espacio de aplicaciones para el usuario final.
Almacenamiento en caché rápido: una bendición para los presupuestos de los desarrolladores
Uno de los anuncios más importantes es la introducción de Prompt Caching, una función destinada a reducir los costos y la latencia para los desarrolladores.
Este sistema aplica automáticamente un descuento del 50 % en los tokens de entrada que el modelo ha procesado recientemente, lo que podría generar ahorros sustanciales para las aplicaciones que reutilizan el contexto con frecuencia.
«Hemos estado bastante ocupados», dijo Olivier Godement, jefe de producto de OpenAI para la plataforma, en una pequeña conferencia de prensa en la sede de la compañía en San Francisco al iniciar la conferencia de desarrolladores. “Hace apenas dos años, GPT-3 estaba ganando. Ahora, hemos reducido (esos) costos casi 1000 veces. Estaba tratando de encontrar un ejemplo de tecnologías que redujeran sus costos casi 1000 veces en dos años, y no puedo encontrar un ejemplo”.
Esta dramática reducción de costos presenta una gran oportunidad para que las nuevas empresas y las empresas exploren nuevas aplicaciones, que antes estaban fuera de su alcance debido a los gastos.
Ajuste de la visión: una nueva frontera en la IA visual
Otro anuncio importante es la introducción del ajuste de visión para GPT-4o, el último modelo de lenguaje grande de OpenAI. Esta característica permite a los desarrolladores personalizar las capacidades de comprensión visual del modelo utilizando imágenes y texto.
Las implicaciones de esta actualización son de gran alcance y potencialmente impactan campos como los vehículos autónomos, las imágenes médicas y la funcionalidad de búsqueda visual.
Grab, una empresa líder en transporte compartido y entrega de alimentos del sudeste asiático, ya ha aprovechado esta tecnología para mejorar sus servicios de mapeo, según OpenAI.
Usando solo 100 ejemplos, Grab supuestamente logró una mejora del 20 por ciento en la precisión del conteo de carriles y un aumento del 13 por ciento en la localización de señales de límite de velocidad.
Esta aplicación del mundo real demuestra las posibilidades de ajuste de la visión para mejorar drásticamente los servicios impulsados por IA en una amplia gama de industrias utilizando pequeños lotes de datos de entrenamiento visual.
API en tiempo real: cerrando la brecha en la IA conversacional
OpenAI también presentó su API en tiempo real, ahora en versión beta pública. Esta nueva oferta permite a los desarrolladores crear experiencias multimodales de baja latencia, particularmente en aplicaciones de voz a voz. Esto significa que los desarrolladores pueden comenzar a agregar los controles de voz de ChatGPT a las aplicaciones.
Para ilustrar el potencial de la API, OpenAI demostró una versión actualizada de Wanderlust, una aplicación de planificación de viajes presentada en la conferencia del año pasado.
Con la API en tiempo real, los usuarios pueden hablar directamente con la aplicación y entablar una conversación natural para planificar sus viajes. El sistema incluso permite interrupciones a mitad de frase, imitando el diálogo humano.
Si bien la planificación de viajes es solo un ejemplo, la API en tiempo real abre una amplia gama de posibilidades para aplicaciones habilitadas por voz en diversas industrias.
Desde servicio al cliente hasta herramientas educativas y de accesibilidad, los desarrolladores ahora tienen un nuevo y poderoso recurso para crear experiencias impulsadas por IA más intuitivas y receptivas.
«Cada vez que diseñamos productos, básicamente nos fijamos tanto en empresas emergentes como en empresas», explicó Godement. «Y entonces, en la versión alfa, tenemos un grupo de empresas que utilizan las API, y también los nuevos modelos de los nuevos productos».
Básicamente, la API en tiempo real agiliza el proceso de creación de asistentes de voz y otras herramientas de inteligencia artificial conversacional, eliminando la necesidad de unir múltiples modelos para la transcripción, la inferencia y la conversión de texto a voz.
Los primeros usuarios como Healthify, una aplicación de entrenamiento de nutrición y fitness, y Speak, una plataforma de aprendizaje de idiomas, ya han integrado la API en tiempo real en sus productos.
Estas implementaciones muestran el potencial de la API para crear experiencias de usuario más naturales y atractivas en campos que van desde la atención sanitaria hasta la educación.
La estructura de precios de Realtime API, si bien no es económica: $0,06 por minuto de entrada de audio y $0,24 por minuto de salida de audio, aún podría representar una propuesta de valor significativa para los desarrolladores que buscan crear aplicaciones basadas en voz.
Destilación de modelos: un paso hacia una IA más accesible
Quizás el anuncio más transformador fue la introducción de Model Distillation. Este flujo de trabajo integrado permite a los desarrolladores utilizar resultados de modelos avanzados como o1-preview y GPT-4o para mejorar el rendimiento de modelos más eficientes como GPT-4o mini.
El enfoque podría permitir a las empresas más pequeñas aprovechar capacidades similares a las de los modelos avanzados sin incurrir en los mismos costos computacionales.
Aborda una división de larga data en la industria de la IA entre sistemas de vanguardia que consumen muchos recursos y sus contrapartes más accesibles pero menos capaces.
Consideremos el caso de una pequeña empresa emergente de tecnología médica que desarrolla una herramienta de diagnóstico basada en inteligencia artificial para clínicas rurales. Utilizando Model Distillation, la empresa podría entrenar un modelo compacto que capture gran parte de la destreza de diagnóstico de modelos más grandes mientras se ejecuta en computadoras portátiles o tabletas estándar.
Esto podría llevar capacidades sofisticadas de IA a entornos con recursos limitados, mejorando potencialmente los resultados de la atención médica en áreas desatendidas.
El cambio estratégico de OpenAI: construir un ecosistema de IA sostenible
El DevDay 2024 de OpenAI marca un giro estratégico para la empresa, al priorizar el desarrollo del ecosistema sobre los lanzamientos de productos que acaparan los titulares.
Este enfoque, aunque menos interesante para el público en general, demuestra una comprensión madura de los desafíos y oportunidades actuales de la industria de la IA.
El discreto evento de este año contrasta marcadamente con el DevDay 2023, que generó un entusiasmo similar al del iPhone con el lanzamiento de la Tienda GPT y las herramientas de creación de GPT personalizadas.
Sin embargo, el panorama de la IA ha evolucionado rápidamente desde entonces. Los competidores han logrado avances significativos y se han intensificado las preocupaciones sobre la disponibilidad de datos para la capacitación. El enfoque de OpenAI en perfeccionar las herramientas existentes y empoderar a los desarrolladores parece ser una respuesta calculada a estos cambios. Al mejorar la eficiencia y la rentabilidad de sus modelos, OpenAI pretende mantener su ventaja competitiva y al mismo tiempo abordar las preocupaciones sobre la intensidad de los recursos y el impacto ambiental.
A medida que OpenAI pasa de ser un disruptor a un proveedor de plataformas, su éxito dependerá en gran medida de su capacidad para fomentar un ecosistema de desarrolladores próspero.
Al proporcionar herramientas mejoradas, costos reducidos y mayor soporte, la empresa está sentando las bases para el crecimiento y la estabilidad a largo plazo en el sector de la IA.
Si bien el impacto inmediato puede ser menos visible, esta estrategia podría, en última instancia, conducir a una adopción más sostenible y generalizada de la IA en muchas industrias.