Ajuste fino de LLaMA en documentos médicos Conozca el modelo PMC-LLaMA-A que logra un alto rendimiento en los puntos de referencia de preguntas y respuestas biomédicas.

PMC-LLaMA-A es un modelo de LLaMA que logra un alto rendimiento en preguntas y respuestas biomédicas.

El desarrollo de modelos de lenguaje grandes (LLMs), como ChatGPT de OpenAI y GPT-4, ha transformado la inteligencia artificial en muchos campos, incluyendo el procesamiento de lenguaje natural, la visión por computadora y el campo biomédico. Desafortunadamente, aún se desconocen los detalles del entrenamiento de ChatGPT y las arquitecturas de los modelos para sus variantes. Mientras que LLaMA es un modelo de lenguaje fundamental de código abierto, se hipotetiza que su bajo rendimiento en aplicaciones que requieren un amplio conocimiento de dominio se debe a la falta de datos específicos del dominio durante la etapa de pre-entrenamiento del modelo. 

Se han realizado muchos estudios que discuten la modificación y el uso de LLMs de código abierto para propósitos especializados. Por ejemplo, Alpaca y Vicuna se han centrado en ampliar la capacidad del modelo para la interacción, entrenándolo con ejemplos de obediencia a instrucciones creadas automáticamente. 

Un trabajo reciente realizado por la Universidad Jiao Tong de Shanghai y el Laboratorio de IA de Shanghai adopta un enfoque diferente al infundir conocimiento de dominio en un solo modelo de lenguaje fundamental pre-entrenado para dirigirlo hacia un corpus médico específico. Introducen PMC-LLaMA, un modelo de lenguaje de acceso público desarrollado refinando LLaMA-7B utilizando 4,8 millones de artículos académicos médicos. El equipo cree que la discusión y consulta médica se beneficiarían más de un modelo de lenguaje fundamental con enfoque médico. 

El equipo comenzó con los conjuntos de datos S2ORC, que contienen 81,1 millones de artículos académicos en inglés, y los clasificó según su PubMed Central (PMC)-id. Por lo tanto, aproximadamente 4,9 millones de artículos, que suman más de 75 mil millones de tokens, están altamente relacionados con el conocimiento médico. Optimizando un objetivo de generación autoregresiva, presentado por primera vez en GPT2, ajustaron finamente el modelo LLaMA-7B en estos artículos de PMC de acceso gratuito. Emplearon el formato de datos bf16 (Brain Floating Point) y el enfoque de aceleración Fully Sharded Data Parallel (FSDP) para acelerar el proceso de aprendizaje.

El equipo prueba PMC-LLaMA realizando tres tipos diferentes de ajuste fino en los conjuntos de datos de preguntas y respuestas médicas asociados mencionados anteriormente: ajuste fino completo, ajuste fino eficiente en parámetros y ajuste fino eficiente en datos. Los resultados de los experimentos muestran que PMC-LLaMA supera a LLaMA y a otros modelos entrenados con instrucciones ajustadas de LLaMA en el dominio médico cuando se ajustan las instrucciones. 

Una limitación de PMC-LLaMA es que no se puede encontrar cada token en los 4,8 millones de artículos debido a que hasta ahora solo se han entrenado cinco épocas. En el futuro, planean entrenar gradualmente modelos PMC-LLaMA con más parámetros, entrenar PMC-LLaMA de manera continua y actualizar el modelo base en la página de hugging face. 

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Vuelva a entrenar los modelos de aprendizaje automático y automatice las predicciones por lotes en Amazon SageMaker Canvas utilizando conjuntos de datos actualizados.

Ahora puedes re-entrenar modelos de aprendizaje automático (ML) y automatizar flujos de trabajo de predicción en lote...

Inteligencia Artificial

Investigadores de OpenAI pioneros en modelos avanzados de consistencia para muestreo de datos de alta calidad sin entrenamiento adversario'.

Los modelos de consistencia representan una categoría de modelos generativos diseñados para generar datos de alta cal...

Noticias de Inteligencia Artificial

La Influencia Revolucionaria de la Inteligencia Artificial Generativa en la Industria Automotriz

La IA generativa ha surgido como una fuerza transformadora en numerosos sectores, incluida la industria automotriz, d...

Inteligencia Artificial

Una forma más rápida de enseñar a un robot

Una nueva técnica ayuda a un usuario no técnico a entender por qué un robot falló, y luego ajustarlo con un esfuerzo ...