¿Pueden los modelos de lenguaje pequeños ofrecer un alto rendimiento? Conoce a StableLM un modelo de lenguaje de código abierto que puede generar texto y código, brindando un alto rendimiento con un entrenamiento adecuado.

StableLM es un modelo de lenguaje de código abierto que puede generar texto y código con un alto rendimiento, incluso siendo un modelo de lenguaje pequeño, siempre y cuando se le realice un entrenamiento adecuado.

Stability AI es una startup en el campo de la inteligencia artificial más conocida por su tecnología de IA generadora de imágenes llamada Stable Diffusion. Hoy ha presentado un nuevo modelo de lenguaje gratuito y de código abierto llamado StableLM. El modelo se ofrece en tres tamaños de parámetros diferentes para la fase Alpha: tres mil millones, siete mil millones, quince mil millones y sesenta y cinco mil millones. Bajo las reglas de la licencia CC BY-SA-4.0, los desarrolladores pueden revisar, utilizar y modificar los modelos básicos de StableLM para proyectos personales y comerciales.

El revolucionario modelo de imágenes Stable Diffusion, que ofrece una alternativa más abierta, escalable y transparente a la IA propietaria, fue lanzado al público en 2022 gracias a los esfuerzos de Stability AI. Stability AI ha lanzado el conjunto de modelos StableLM, ampliando aún más su misión de democratizar las capacidades básicas de la IA. Los modelos de StableLM impulsarán diversas aplicaciones con capacidades de generación de texto y código. Demuestran cómo modelos pequeños y eficientes pueden ser entrenados para funcionar bien.

El trabajo previo de código abierto del equipo con EleutherAI, un centro de investigación sin fines de lucro, les permitió sentar las bases para el lanzamiento de StableLM. El conjunto de datos de código abierto Pile se utilizó para entrenar varios modelos de lenguaje populares, como GPT-J, GPT-NeoX y el conjunto Pythia. Cerebras-GPT y Dolly-2 son solo dos ejemplos de los muchos nuevos modelos de lenguaje de código abierto que amplían estos anteriores.

El conjunto de datos experimental utilizado para enseñar StableLM se basa en The Pile, pero es tres veces más grande, con 1,5 billones de tokens. A pesar de tener solo 3-7 mil millones de parámetros (GPT-3 tiene 175 mil millones), StableLM logra un rendimiento sorprendentemente excelente en tareas de conversación y codificación gracias a la riqueza de este conjunto de datos. La información sobre el conjunto de datos se hará pública en una fecha posterior.

Han lanzado una colección de modelos de investigación optimizados para su uso en entornos educativos. Estos modelos refinados utilizarán primero datos de cinco conjuntos de datos de agentes conversacionales de código abierto recientemente lanzados: Alpaca, GPT4All, Dolly, ShareGPT y HH. Siguiendo la licencia Alpaca de Stanford, estos modelos afinados están disponibles bajo una licencia CC BY-NC-SA 4.0 no comercial para la investigación académica.

StableLM representa la visión del equipo de desarrollar tecnología de IA abierta, accesible y útil a través de las siguientes capacidades:

  1. Transparencia: Para confirmar el rendimiento, establecer enfoques de interpretabilidad, identificar riesgos y ayudar en la creación de salvaguardias, los investigadores pueden “mirar bajo el capó”. Sin revelar información privada ni renunciar a la autoridad sobre las capacidades de IA, las empresas y agencias gubernamentales pueden modificar (o “ajustar”) estos modelos de código abierto para adaptarlos a sus necesidades.
  2. Accesibilidad: El equipo construye para que la gente común pueda utilizar sus modelos en sus dispositivos. En lugar de depender de servicios exclusivos de algunas empresas, los desarrolladores pueden utilizar estos modelos para crear aplicaciones que funcionen con una gama más amplia de hardware disponible públicamente. De esta manera, los beneficios económicos de la IA se distribuyen entre un gran grupo de usuarios y creadores. Los modelos propuestos son abiertos y granulares, lo que permite a los investigadores y académicos ir más allá de las limitaciones de los modelos cerrados en términos de interpretabilidad y seguridad.
  3. Apoyo: Estos modelos están diseñados para ayudar a los clientes, no para reemplazarlos. En lugar de buscar una inteligencia superhumana, el equipo se centra en mejorar la capacidad de la IA para ejecutar tareas específicas en contextos del mundo real. Construyen recursos que permiten a las personas comunes y a las empresas aprovechar el potencial de la IA para fomentar la innovación, aumentar la producción y ampliar los horizontes económicos.

El equipo destaca que la calidad de las respuestas que recibe un usuario puede variar, y pueden contener lenguaje desagradable u opiniones, como ocurre con cualquier modelo de lenguaje grande preentrenado que carece de ajuste fino y aprendizaje por refuerzo. La escala, el aumento de datos, la retroalimentación de la comunidad y la optimización son factores que deberían conducir a una mejora considerable.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de la Universidad Sorbona presentan UnIVAL un modelo de IA unificado para tareas de imagen, video, audio y lenguaje.

Un gran avance en la creación de modelos generalistas es la aparición de Modelos de Lenguaje Grandes (LLMs, por sus s...

Inteligencia Artificial

Meer Pyrus Base Una nueva plataforma de código abierto basada en Python para la simulación bidimensional (2D) de RoboCup Soccer

La robótica, la rama dedicada por completo al campo de la Ingeniería Electrónica e Informática, está ahora conectada ...

Aprendizaje Automático

Conoce BITE Un Nuevo Método Que Reconstruye la Forma y Poses 3D de un Perro a Partir de una Imagen, Incluso con Poses Desafiantes como Sentado y Acostado.

Múltiples campos, incluyendo la biología y la conservación, así como el entretenimiento y el desarrollo de contenido ...

Inteligencia Artificial

El surgimiento de la IA en la construcción de sitios web Un vistazo más cercano al Constructor de Sitios Web de IA de Hostinger

En la era digital de hoy en día, tener un sitio web es imprescindible para cualquiera que busque establecer una sólid...