GPT privado ajustar fino LLM en datos empresariales

GPT privado para ajuste fino de LLM en datos empresariales

Haciendo cosas geniales con los datos

Foto de Robynne Hu en Unsplash

Introducción

En la era del big data y la inteligencia artificial avanzada, los modelos de lenguaje han surgido como herramientas formidables capaces de procesar y generar texto similar al humano. Los modelos de lenguaje grandes, como ChatGPT, son bots de propósito general capaces de tener conversaciones sobre muchos temas. Sin embargo, los modelos de lenguaje también se pueden afinar con datos específicos del dominio, lo que los hace más precisos y pertinentes para preguntas empresariales específicas del dominio.

Muchas industrias y aplicaciones requerirán modelos de lenguaje afinados. Algunas razones incluyen:

  • Mejor rendimiento de un chatbot entrenado con datos específicos
  • Los modelos de OpenAI como chatgpt son una caja negra y las empresas pueden dudar en compartir sus datos confidenciales a través de una API
  • Los costos de la API de ChatGPT pueden ser prohibitivos para aplicaciones grandes

El desafío con el afinamiento de un modelo de lenguaje es que el proceso es desconocido y los recursos computacionales necesarios para entrenar un modelo de mil millones de parámetros sin optimizaciones pueden ser prohibitivos.

Afortunadamente, se ha realizado mucha investigación sobre técnicas de entrenamiento que ahora nos permiten afinar modelos de lenguaje en GPU más pequeñas.

En este blog, cubriremos algunas de las técnicas utilizadas para afinar modelos de lenguaje. ¡Entrenaremos el modelo Falcon 7B en datos financieros en una GPU de Colab! Las técnicas utilizadas aquí son generales y se pueden aplicar a otros modelos más grandes como MPT-7B y MPT-30B.

En Deep Learning Analytics, hemos estado construyendo modelos de aprendizaje automático personalizados durante los últimos 6 años. Contáctenos si está interesado en afinar un modelo de lenguaje para su aplicación.

QLoRA

QLoRA, que significa “Adaptación de rango bajo cuantizado”, presenta un enfoque que combina la cuantización y la adaptación de rango bajo para lograr un afinamiento eficiente de los modelos de IA. Ambos términos se explican con más detalle a continuación.

QLoRA reduce la memoria requerida para el afinamiento de modelos de lenguaje, sin que haya una disminución en el rendimiento en comparación con un modelo de afinamiento estándar de 16 bits. Este método permite afinar un modelo de 7 mil millones de parámetros en una GPU de 16GB, un modelo de 33 mil millones de parámetros en una sola GPU de 24GB y un modelo de 65…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de UC Berkeley y Deepmind proponen SuccessVQA una reformulación de la detección de éxito que es compatible con VLM pre-entrenados como Flamingo.

Para lograr la máxima precisión en el rendimiento, es crucial entender si un agente está en el camino correcto o pref...

Ciencia de Datos

JPL Crea Archivo PDF para Ayudar en la Investigación de Malware.

Los científicos de datos han recopilado 8 millones de archivos PDF en un archivo de código abierto para mejorar la se...

Aprendizaje Automático

Conoce TRACE Un Nuevo Enfoque de IA para la Estimación Precisa de la Postura y la Forma Humana en 3D con Seguimiento de Coordenadas Globales.

Muchas áreas pueden beneficiarse y utilizar los avances recientes en la estimación de la pose y forma humana 3D (HPS)...

Inteligencia Artificial

ULTRA Modelos de base para el razonamiento del gráfico de conocimiento

Entrenar un solo modelo genérico para resolver conjuntos de datos arbitrarios siempre ha sido un sueño para los inves...

Inteligencia Artificial

ChatGPT obtiene una puntuación en el 1% superior en la prueba de creatividad humana

La inteligencia artificial (IA) ha alcanzado nuevas alturas, según una investigación realizada por la Universidad de ...

Inteligencia Artificial

Conoce a Ego-Exo4D Un conjunto de datos y una suite de referencia esenciales para apoyar la investigación sobre aprendizaje de video y percepción multimodal.

Hoy en día, la inteligencia artificial encuentra su aplicación en casi todos los campos imaginables. Definitivamente ...