Conoce a Baichuan-13B el modelo de lenguaje de código abierto de China para competir con OpenAI

Baichuan-13B es el modelo de lenguaje de código abierto de China para competir con OpenAI.

Wang Xiaochuan, el fundador del motor de búsqueda chino Sogou, ha lanzado un nuevo modelo de lenguaje enorme llamado Baichuan-13B a través de su empresa, Baichuan Intelligence. Actualmente, su uso comercial está restringido a programadores e investigadores. El fundador de Sogou, Wang Xiaochuan, publicó recientemente en Weibo que “China necesita su propio OpenAI”. El empresario chino está un paso más cerca de hacer realidad su visión después de que su incipiente empresa, Baichuan Intelligence, lanzara Baichuan-13B, su modelo de lenguaje grande de próxima generación. Baichuan se lanzó hace tres meses y rápidamente atrajo a un grupo de inversores dispuestos a aportar $50 millones. Como resultado de las habilidades excepcionales del fundador en ciencias de la computación, su organización es ahora considerada uno de los creadores más prometedores de modelos de lenguaje enormes de China.

Baichuan-13B sigue el mismo diseño Transformer que GPT y la mayoría de las variantes chinas autóctonas. Además de entrenarse con datos en chino e inglés, sus 13 mil millones de parámetros (variables utilizadas en la producción y análisis de texto) son bilingües. El modelo es de código abierto y puede utilizarse con fines de lucro, y se construyó utilizando datos de GitHub.

Después del éxito de Baichuan-7B, Baichuan Intelligent Technology creó Baichuan-13B, un modelo de lenguaje de gran escala de código abierto y disponible comercialmente con 13 mil millones de parámetros. En comparación con otros modelos de tamaño similar, supera las normas chinas y en inglés. Esta versión incluye tanto la versión base (Baichuan-13B-Base) como la versión de diálogo (Baichuan-13B-Chat).

Características

  • Baichuan-13B se basa en Baichuan-7B aumentando el número de parámetros a 13 mil millones, y se han entrenado 1.4 billones de tokens en corpora de alta calidad, lo cual es un 40% más que LLaMA-13B. Actualmente, en el tamaño de 13B de código abierto, es el modelo con más datos de entrenamiento. Utiliza codificación posicional ALiBi y una ventana de contexto de 4096 bytes, y funciona en chino e inglés.
  • El modelo de pre-entrenamiento sirve como una “base” para los desarrolladores, mientras que el modelo alineado con características de diálogo es más demandado entre los usuarios regulares. Por lo tanto, esta versión de código abierto incluye el modelo alineado (Baichuan-13B-Chat), que cuenta con potentes características de diálogo, está listo para usar y solo requiere unas pocas líneas de código para implementarlo.
  • También se están poniendo a disposición de los investigadores versiones cuantizadas int8 e int4, que son aún más eficientes para la inferencia, para fomentar su uso generalizado por los usuarios. Pueden implementarse en tarjetas gráficas de consumo como Nvidia 3090, pero la versión no cuantizada requiere hardware significativamente más potente.
  • Gratis para uso público sin restricciones de reventa o modificación: si un desarrollador solicita una licencia comercial oficial por correo electrónico, puede utilizar Baichuan-13B con fines comerciales sin costo alguno.

Se están utilizando aproximadamente 1.4 mil millones de tokens para entrenar a Baichuan-13. Según OpenAI, ChatGPT-3 supuestamente se entrenó con 300 mil millones de tokens. El equipo de Baichuan duplicó su tamaño en tres meses, llegando a cincuenta miembros, y demostró públicamente su modelo, Baichuan-7B, que tiene siete mil millones de parámetros, el mes pasado. La versión Baichuan-13B, lanzada hace dos días, es la versión básica. Ahora se ofrece de forma gratuita a investigadores y programadores que han obtenido autorización legal para utilizarlo con fines comerciales. El futuro del lanzamiento oficial del modelo para uso generalizado aún está por descubrirse.

El modelo básico Baichuan-13B ahora está disponible de forma gratuita para investigadores y programadores que han obtenido las autorizaciones legales necesarias para utilizarlo con fines comerciales. Dado las recientes restricciones de Estados Unidos contra los fabricantes chinos de chips de inteligencia artificial (IA), es especialmente notable que las variantes de este modelo puedan ejecutarse en hardware de consumo como las tarjetas gráficas Nvidia 3090.

Los investigadores de Baichuan Intelligent Technology confirman que su grupo aún no ha creado aplicaciones basadas en Baichuan-13B para ninguna plataforma, incluyendo iOS, Android, la web u otras. Se insta a los usuarios a no utilizar el modelo Baichuan-13B para fines ilegales o perjudiciales, como comprometer la seguridad nacional o social. También se anima a los usuarios a abstenerse de utilizar el modelo Baichuan-13B para servicios de Internet sin las auditorías de seguridad y los registros necesarios. Cuentan con que todos sigan esta regla para mantener el progreso tecnológico dentro de los límites de la ley.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de UC Berkeley introducen Ghostbuster un método de IA SOTA para detectar texto generado por LLM

ChatGPT ha revolucionado la capacidad de producir fácilmente una amplia gama de texto fluido sobre una amplia gama de...

Inteligencia Artificial

PoisonGPT Hugging Face LLM difunde noticias falsas

Los Grandes Modelos de Lenguaje (LLMs, por sus siglas en inglés) han ganado una popularidad significativa en todo el ...

Ciencia de Datos

Gestionando los costos de almacenamiento en la nube de aplicaciones de Big Data

Con la creciente dependencia de cantidades cada vez mayores de datos, las empresas de hoy en día dependen más que nun...

Inteligencia Artificial

Investigación de Google revela Transformadores Generativos de Vocabulario Infinito (GIVT) Pioneros en secuencias de vectores de valor real en IA

Los Transformers fueron introducidos por primera vez y rápidamente se elevaron a la prominencia como la arquitectura ...

Inteligencia Artificial

AI Surge El CEO de Stability AI predice pérdidas de empleo para los desarrolladores indios en un plazo de 2 años

A medida que la revolución de la IA se desarrolla, el mundo presencia tanto los posibles beneficios como las preocupa...