8 Modelos de Lenguaje Grandes y Nuevos que Debes Tener en Cuenta

8 Grandes y Nuevos Modelos de Lenguaje a Considerar

Últimamente hemos escuchado mucho sobre los grandes modelos de lenguaje, o LLMs, en las noticias. Si no lo sabes, los LLMs son un tipo de inteligencia artificial que se entrena con cantidades masivas de datos de texto. Esto les permite generar texto que a menudo es indistinguible del texto escrito por humanos, como ChatGPT. Debido a esto, los LLMs tienen una amplia gama de aplicaciones potenciales, incluyendo en los campos del procesamiento del lenguaje natural, la traducción automática y la generación de texto.

Dicho esto, aquí hay algunos de los LLMs más nuevos y populares que vale la pena tener en cuenta:

RWKV

Con la esperanza de combinar las fortalezas de los transformadores de alta potencia con la eficiencia de las RNNs, RWKV espera combinar las mejores características de ambos. Se espera que RWKV pueda lograr un rendimiento de última generación con menores costos computacionales. Si tiene éxito, esto podría llevar a modelos de PLN más eficientes en el futuro.

Palm 2

PaLM 2 es un nuevo modelo de lenguaje que es más multilingüe, más eficiente y tiene mejores capacidades de razonamiento que su predecesor, PaLM. Es un modelo basado en transformadores entrenado utilizando una mezcla de objetivos similar a UL2. PaLM 2 ha demostrado tener una calidad significativamente mejorada en tareas posteriores en diferentes tamaños de modelo, al mismo tiempo que muestra inferencia más rápida y eficiente en comparación con PaLM. PaLM 2 también demuestra capacidades de razonamiento robustas y un rendimiento estable en una variedad de evaluaciones de IA responsable.

Pythia

Pythia es un conjunto de 16 LLMs entrenados con los mismos datos públicos que se pueden utilizar para estudiar el desarrollo y la evolución de los LLMs. También se ha utilizado para estudiar la memorización, los efectos de la frecuencia de términos en algunas actuaciones cortas y la reducción del sesgo de género. Los modelos varían en tamaño desde 70M hasta 12B parámetros. Pythia está disponible públicamente e incluye herramientas para descargar y reconstruir los cargadores de datos de entrenamiento.

GPT-4

GPT-4 es un modelo multimodal a gran escala que puede aceptar imágenes y texto como entradas y producir salidas de texto. Exhibe un rendimiento a nivel humano en varias pruebas profesionales y académicas, incluyendo aprobar un examen de barra simulado. Es un modelo basado en transformadores que está pre-entrenado para predecir el siguiente token en un documento. El proceso de alineación posterior al entrenamiento resulta en un mejor rendimiento en medidas de veracidad y adherencia a un comportamiento deseado. GPT-4 es uno de los LLMs más conocidos en esta lista y ya ha demostrado realizar hazañas increíbles gracias a los ingenieros de sugerencias creativas.

Kosmos

Kosmos-1 es un modelo de lenguaje multimodal a gran escala que puede percibir modalidades generales, aprender en contexto y seguir instrucciones. Fue entrenado en corpus multimodales a gran escala, que incluyen texto e imágenes. Kosmos-1 logra un rendimiento impresionante en una amplia gama de tareas, incluyendo comprensión del lenguaje, generación y tareas de percepción del lenguaje. También puede beneficiarse de la transferencia entre modalidades, lo que le permite transferir conocimiento del lenguaje a multimodal y viceversa.

LLaMA

LLaMA de Meta, que significa Modelo de Lenguaje Grande desde cero con Texto Anotado Masivo, varía en tamaño desde 7B hasta 65B parámetros. LLaMA fue entrenado en conjuntos de datos disponibles públicamente. LLaMA demuestra que es posible entrenar modelos de lenguaje de última generación utilizando solo datos disponibles públicamente y que LLaMA-13B supera a GPT-3 (175B) en la mayoría de las pruebas. LLaMA-65B es competitivo con los mejores modelos, Chinchilla70B y PaLM-540B. Actualmente, esos modelos solo se han lanzado a la comunidad de investigación caso por caso.

Vicuna

Vicuna-13B es un chatbot de código abierto que se entrena mediante la puesta a punto de LLaMA en conversaciones compartidas por los usuarios, que se recopilaron de ShareGPT. Inspirado en el proyecto Meta LLaMA y Stanford Alpaca, Vicuna-13B cuenta con un conjunto de datos mejorado y una infraestructura escalable y fácil de usar. El objetivo de este LLM es eliminar las barreras que dificultan el alcance y la innovación de código abierto en el campo.

Dolly

Dolly 2.0 es un modelo de lenguaje de 12B parámetros que es de código abierto y es uno de los pocos LLMs en esta lista que se puede utilizar con fines comerciales. Dolly 2.0 se entrenó en un conjunto de datos de 15,000 pares de instrucciones generadas por humanos. El conjunto de datos fue creado por empleados de Databricks y contiene una variedad de tareas, como preguntas y respuestas abiertas, preguntas y respuestas cerradas, extracción de información de Wikipedia, resumen de información de Wikipedia, lluvia de ideas, clasificación y escritura creativa.

Conclusión

Bastante impresionante, ¿verdad? Bueno, hay mucho más por aprender sobre los modelos de lenguaje grandes, pero no tienes que preocuparte por buscar en la web. ODSC tiene todo cubierto con la Cumbre de IA Generativa, una conferencia virtual gratuita que se llevará a cabo el 20 de julio, donde se reunirán las mentes más destacadas que impulsan la IA generativa. Obtén tu pase hoy mismo y descubre por ti mismo las últimas novedades en LLMs, IA generativa y su impacto en diferentes industrias.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Completado de nubes de puntos con modelos de difusión preentrenados de texto a imagen

¿Alguna vez has oído el término nube de puntos? Es una representación fundamental de datos en 3D, que consiste en pun...

Inteligencia Artificial

Hoja de ruta de Aprendizaje Automático Recomendaciones de la Comunidad 2023

En el último artículo, Parte 1 de este mapa de ruta, discutimos brevemente las herramientas iniciales y las direccion...

Inteligencia Artificial

La ciudad más avanzada tecnológicamente de Estados Unidos tiene dudas sobre los coches autónomos

Los funcionarios y residentes de San Francisco no están impresionados por los autos autónomos, subrayando los desafío...

Inteligencia Artificial

Explora el poder de las imágenes dinámicas con Text2Cinemagraph una nueva herramienta de IA para la generación de cinemagraphs a partir de indicaciones de texto

Si eres nuevo en la terminología, quizás te estés preguntando qué son los cinemagraphs, pero puedo asegurarte que pro...