LLM Apocalipsis Ahora La Venganza de los Clones de Código Abierto.

LLM Apocalipsis Ahora Venganza de Clones de Código Abierto.

Esta es una historia acerca de cómo los proyectos de código abierto están desafiando a la industria de LLM.

“Éramos demasiados. Teníamos acceso a demasiado dinero, demasiado equipo, y poco a poco, nos volvimos locos.”

Francis Ford Coppola no estaba haciendo una metáfora para las empresas de inteligencia artificial que gastan demasiado y pierden el rumbo, pero podría haberlo hecho. Apocalypse Now fue épica pero también un proyecto largo, difícil y costoso de hacer, al igual que GPT-4. Sugeriría que el desarrollo de LLMs se ha gravitado hacia demasiado dinero y demasiado equipo. Y parte de la exageración de “acabamos de inventar la inteligencia general” es un poco loca. Pero ahora es el turno de las comunidades de código abierto de hacer lo que mejor saben hacer: ofrecer software gratuito y competitivo utilizando mucho menos dinero y equipo.

OpenAI ha recibido más de 11 mil millones de dólares en financiación y se estima que GPT-3.5 cuesta entre 5 y 6 millones de dólares por ejecución de entrenamiento. Sabemos muy poco sobre GPT-4 porque OpenAI no lo está revelando, pero creo que es seguro asumir que no es más pequeño que GPT-3.5. Actualmente hay una escasez mundial de GPU y, por un cambio, no se debe a la última criptomoneda. Las startups de IA generativa están obteniendo rondas de financiación de Serie A de más de 100 millones de dólares a valoraciones enormes cuando no son dueñas de ninguna propiedad intelectual del LLM que utilizan para impulsar su producto. El carro de la LLM está en pleno apogeo y el dinero fluye.

Parecía que el destino estaba sellado: sólo las empresas con mucho dinero como Microsoft/OpenAI, Amazon y Google podían permitirse entrenar modelos con cien billones de parámetros. Se suponía que los modelos más grandes eran mejores modelos. ¿GPT-3 se equivocó en algo? ¡Solo espera hasta que haya una versión más grande y todo estará bien! Las empresas más pequeñas que buscan competir tenían que recaudar mucho más capital o quedarse construyendo integraciones de productos en el mercado de ChatGPT. La academia, con presupuestos de investigación aún más limitados, se quedó relegada a un segundo plano.

Afortunadamente, un grupo de personas inteligentes y proyectos de código abierto tomaron esto como un desafío en lugar de una restricción. Los investigadores de Stanford publicaron Alpaca, un modelo de 7 billones de parámetros cuyo rendimiento se acerca al modelo de 175 billones de parámetros de GPT-3.5. Al no tener los recursos para construir un conjunto de entrenamiento del tamaño utilizado por OpenAI, eligieron ingeniosamente tomar un LLM de código abierto entrenado, LLaMA, y ajustarlo en una serie de entradas y salidas de GPT-3.5 en su lugar. Básicamente, el modelo aprendió lo que hace GPT-3.5, lo que resulta ser una estrategia muy efectiva para replicar su comportamiento.

Alpaca está licenciado sólo para uso no comercial en código y datos, ya que utiliza el modelo LLaMA de código abierto no comercial, y OpenAI explícitamente prohíbe cualquier uso de sus APIs para crear productos competidores. Eso crea la tentadora perspectiva de ajustar un LLM de código abierto diferente en las entradas y salidas de Alpaca… creando un tercer modelo similar a GPT-3.5 con diferentes posibilidades de licencia.

Hay otro nivel de ironía aquí, y es que todos los principales LLMs se entrenaron con texto y imágenes con derechos de autor disponibles en Internet, y no pagaron ni un centavo a los titulares de los derechos. Las empresas afirman la exención de “uso justo” bajo la ley de derechos de autor de EE.UU. con el argumento de que el uso es “transformador”. Sin embargo, cuando se trata de la salida de los modelos que construyen con datos gratuitos, realmente no quieren que nadie les haga lo mismo. Espero que esto cambie a medida que los titulares de los derechos se den cuenta, y puede terminar en los tribunales en algún momento.

Esto es un punto separado y distinto al planteado por autores de código abierto con licencias restrictivas que, para productos de IA generativa para código como CoPilot, se oponen a que su código se use para el entrenamiento por el hecho de que no se sigue la licencia. El problema para los autores de código abierto individuales es que necesitan demostrar su posición – copia sustancial – y que han sufrido daños. Y dado que los modelos hacen que sea difícil vincular el código de salida con la entrada (las líneas de código fuente del autor) y no hay pérdida económica (se supone que es gratuito), es mucho más difícil hacer un caso. Esto es diferente para los creadores con fines de lucro (por ejemplo, los fotógrafos) cuyo modelo de negocio completo consiste en licenciar/vender su trabajo, y que son representados por agregadores como Getty Images, que pueden mostrar copias sustanciales.

Otra cosa interesante sobre LLaMA es que surgió de Meta. Fue lanzado originalmente solo para investigadores y luego se filtró al mundo a través de BitTorrent. Meta tiene un negocio fundamentalmente diferente a los de OpenAI, Microsoft, Google y Amazon en el sentido de que no está tratando de venderte servicios en la nube o software, y por lo tanto tiene incentivos muy diferentes. Ha puesto en código abierto sus diseños de computación en el pasado (OpenCompute) y ha visto cómo la comunidad los mejora – entiende el valor del código abierto.

Meta podría convertirse en uno de los contribuyentes de IA de código abierto más importantes. No solo tiene recursos masivos, sino que se beneficia si hay una proliferación de una gran tecnología generativa de IA: habrá más contenido para que lo monetice en las redes sociales. Meta ha lanzado otros tres modelos de IA de código abierto: ImageBind (indexación de datos multidimensionales), DINOv2 (visión por computadora) y Segment Anything. Este último identifica objetos únicos en imágenes y se libera bajo la licencia de Apache altamente permisiva.

Finalmente, también tuvimos la supuesta filtración de un documento interno de Google “No tenemos foso, y OpenAI tampoco” que tiene una opinión desfavorable de los modelos cerrados frente a la innovación de las comunidades que producen modelos mucho más pequeños y más baratos que funcionan igual o mejor que sus contrapartes de código cerrado. Digo supuestamente porque no hay forma de verificar que el origen del artículo sea interno de Google. Sin embargo, contiene este gráfico convincente:

Stable Diffusion, que sintetiza imágenes a partir de texto, es otro ejemplo de cómo la IA generativa de código abierto ha podido avanzar más rápido que los modelos propietarios. Una iteración reciente de ese proyecto (ControlNet) lo ha mejorado de tal manera que ha superado las capacidades de Dall-E2. Esto surgió de un montón de experimentación en todo el mundo, lo que resultó en un ritmo de avance difícil de igualar para cualquier institución individual. Algunos de esos experimentadores descubrieron cómo hacer que Stable Diffusion sea más rápido para entrenar y ejecutar en hardware más barato, lo que permite ciclos de iteración más cortos por más personas.

Y así hemos llegado al punto de partida. No tener demasiado dinero ni demasiado equipo ha inspirado un nivel astuto de innovación por toda una comunidad de personas comunes. Qué momento para ser un desarrollador de IA. Mathew Lodge es CEO de Diffblue, una startup de IA para el código. Tiene más de 25 años de experiencia diversa en liderazgo de productos en empresas como Anaconda y VMware. Lodge actualmente forma parte del consejo de Good Law Project y es vicepresidente del consejo de administración de la Royal Photographic Society.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Snowflake vs. Data Bricks Compitiendo para crear la mejor plataforma de datos en la nube

¿Quieres entrar en la carrera por la mejor plataforma de datos en la nube? Echa un vistazo a la diferencia entre Snow...

Inteligencia Artificial

La ciudad más avanzada tecnológicamente de Estados Unidos tiene dudas sobre los coches autónomos

Los funcionarios y residentes de San Francisco no están impresionados por los autos autónomos, subrayando los desafío...

Aprendizaje Automático

Esta Herramienta de IA Explica Cómo la IA 'Ve' Imágenes y por qué Puede Equivocarse al Confundir un Astronauta con una Pala.

Es ampliamente reconocido que la inteligencia artificial (IA) ha logrado avances significativos en los últimos años, ...

Inteligencia Artificial

El nuevo modelo de IA de Phind supera a GPT-4 en codificación, con una velocidad similar a la de GPT-3.5 y un contexto de 16k.

En la codificación y resolución de problemas técnicos, un desafío ha sido el equilibrio entre la velocidad y la preci...

Aprendizaje Automático

Acelerando el Acelerador Científico Acelera la Computación de Alto Rendimiento de CERN con GPUs y IA.

Nota del editor: Esto es parte de una serie que perfila a investigadores que avanzan en la ciencia con cómputo de alt...

Inteligencia Artificial

¡Desbloquea el poder de GenAI LLMs directamente en tu máquina local!

Introducción Desde el lanzamiento de GenAI LLMs, hemos comenzado a utilizarlos de una forma u otra. La forma más comú...