Investigadores de Stanford presentan HyenaDNA un modelo genómico de base de largo alcance con longitudes de contexto de hasta 1 millón de tokens a una resolución de nucleótido único.

Investigadores de Stanford presentan HyenaDNA, un modelo genómico de largo alcance con longitudes de contexto de hasta 1 millón de tokens y resolución de nucleótido único.

En los últimos años, ha habido avances rápidos en el campo de la inteligencia artificial (IA) que tienen el potencial de transformar por completo las industrias y ampliar los límites de lo posible. Una área que ha recibido mucha atención por parte de los investigadores es el desarrollo de modelos más robustos y eficientes para tareas de procesamiento del lenguaje natural. En este contexto, los investigadores están constantemente haciendo esfuerzos para desarrollar modelos capaces de manejar tokens más largos, ya que el número de tokens en un modelo determina su capacidad para procesar y comprender texto. Además, una mayor cantidad de tokens permite que el modelo tenga en cuenta un contexto más amplio, lo que le permite procesar secuencias extensas de datos. Sin embargo, en cuanto a los modelos de contexto largo, la atención se ha centrado principalmente en el lenguaje natural, y ha habido una falta significativa en el campo que trata inherentemente con secuencias largas: la genómica, que implica el estudio de diferentes aspectos del material genético de un organismo, como su estructura, elementos evolutivos, etc. Siguiendo un enfoque similar al de los modelos de lenguaje natural, los investigadores han propuesto el uso de modelos fundamentales (FMs, por sus siglas en inglés) en genómica para adquirir características generalizables a partir de datos genómicos no estructurados. Estos FMs luego pueden ser ajustados para varias tareas, como la localización de genes, la identificación de elementos reguladores, etc.

Sin embargo, los modelos genómicos existentes basados en la arquitectura Transformer enfrentan desafíos únicos al tratar con secuencias de ADN. Una de las limitaciones es la escala cuadrática de la atención, lo cual restringe el modelado de interacciones a larga distancia dentro del ADN. Además, los enfoques prevalecientes se basan en k-mers y tokenizadores fijos para agregar unidades significativas de ADN, lo que a menudo resulta en la pérdida de características individuales del ADN. Sin embargo, a diferencia del lenguaje natural, esta pérdida es crucial, ya que incluso variaciones genéticas sutiles pueden tener un impacto profundo en las funciones de las proteínas. Hyena, un LLM (modelo de lenguaje largo) recientemente introducido, ha surgido como una alternativa prometedora a los modelos basados en atención al utilizar convoluciones implícitas. Este enfoque innovador ha demostrado una calidad comparable a los modelos basados en atención al permitir el procesamiento de longitudes de contexto más largas mientras reduce significativamente la complejidad computacional en términos de tiempo. Inspirado por estos hallazgos, un equipo de investigadores de las universidades de Stanford y Harvard se embarcó en la investigación de si las capacidades de Hyena podrían ser aprovechadas para capturar de manera efectiva las dependencias esenciales a larga distancia y las características individuales del ADN necesarias para analizar secuencias genómicas.

Esto llevó al desarrollo de HyenaDNA, un FM genómico con una capacidad sin precedentes para procesar longitudes de contexto de hasta 1 millón de tokens a nivel de nucleótido individual, lo que representa un aumento notable de 500 veces en comparación con los modelos basados en atención existentes. Aprovechando el poder de las capacidades a larga distancia de Hyena, HyenaDNA exhibe una escalabilidad sin igual, entrenando hasta 160 veces más rápido que los Transformers equipados con FlashAttention. HyenaDNA utiliza una pila de operadores de Hyena como base para modelar el ADN y sus interacciones intrincadas. El modelo utiliza aprendizaje no supervisado para aprender la distribución de secuencias de ADN y comprender cómo se codifican los genes y cómo las regiones no codificantes realizan funciones regulatorias en la expresión génica. El modelo se desempeña excepcionalmente en varias tareas genómicas desafiantes, como tareas de clasificación de especies a larga distancia. Además, logra resultados de vanguardia en 12 de 17 conjuntos de datos en comparación con el Nucleotide Transformer, utilizando modelos con significativamente menos parámetros y datos de preentrenamiento.

Como se mencionó anteriormente, durante el preentrenamiento, HyenaDNA logra una impresionante longitud de contexto de hasta 1 millón de tokens, lo que permite que el modelo capture de manera efectiva las dependencias a larga distancia dentro de las secuencias genómicas. Además, la capacidad del modelo se mejora aún más al utilizar una resolución de nucleótido individual y una tokenización con contexto global disponible en cada capa. Para abordar la inestabilidad del entrenamiento y acelerar aún más el proceso, los investigadores también han introducido de manera reflexiva un programador de calentamiento de longitud de secuencia, lo que resulta en una reducción del 40% en el tiempo de entrenamiento para tareas relacionadas con la clasificación de especies. Otra ventaja significativa de HyenaDNA es su eficiencia de parámetros. Los investigadores también hacen una observación innovadora sobre la relación entre el tamaño del modelo y la calidad, indicando que con secuencias más largas y un vocabulario más pequeño, HyenaDNA muestra un rendimiento superior a pesar de su tamaño significativamente reducido en comparación con los FM genómicos anteriores.

Los investigadores evaluaron el rendimiento de HyenaDNA en varias tareas secundarias. En el conjunto de datos GenomicBenchmarks, los modelos preentrenados lograron un rendimiento de vanguardia en los ocho conjuntos de datos, superando significativamente enfoques anteriores. Además, en los conjuntos de datos del Nucleotide Transformer, HyenaDNA logró resultados de vanguardia en 12 de los 17 conjuntos de datos con muchos menos parámetros y menos datos de preentrenamiento. Para explorar el potencial del aprendizaje en contexto (ICL, por sus siglas en inglés) en genómica, los investigadores también realizaron una serie de experimentos. Introdujeron el concepto de tokens de indicación suave, lo que permitió que la entrada guíe la salida de un modelo HyenaDNA preentrenado congelado sin la necesidad de actualizar los pesos del modelo o adjuntar una cabeza decodificadora. Aumentar el número de tokens de indicación suave mejoró notablemente la precisión en los conjuntos de datos GenomicBenchmarks. El modelo también demostró un rendimiento notable en tareas de alcance ultralargo. HyenaDNA compitió eficazmente contra BigBird, un modelo de transformador disperso de vanguardia, en una tarea desafiante de perfiles de cromatina. Además, en una tarea de clasificación de especies de alcance ultralargo, el modelo demostró su eficiencia al lograr resultados exitosos cuando la longitud de contexto se aumentó a 450 K y 1 M de tokens.

Estos resultados resaltan las notables capacidades de HyenaDNA para manejar tareas genómicas complejas y su potencial para abordar dependencias de largo alcance y diferenciación de especies. Anticipan que este progreso será crucial para impulsar el descubrimiento de medicamentos asistido por inteligencia artificial e innovaciones terapéuticas. Además, tiene el potencial de permitir que los modelos genómicos fundamentales aprendan y analicen genomas completos de pacientes de manera personalizada, mejorando aún más la comprensión y aplicación de la genómica.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La cirugía cerebral impulsada por IA se convierte en una realidad en Hong Kong

El Centro de Inteligencia Artificial y Robótica, bajo la Academia China de Ciencias, completó pruebas exitosas de un ...

Inteligencia Artificial

Comprendiendo el Lado Oscuro de los Modelos de Lenguaje Grandes Una Guía Completa sobre Amenazas de Seguridad y Vulnerabilidades

Los LLM se han vuelto cada vez más populares en la comunidad de procesamiento de lenguaje natural (NLP, por sus sigla...

Inteligencia Artificial

10 millones se registran en la aplicación rival de Twitter de Meta, Threads.

La experiencia de microblogging similar a Twitter sugiere que Meta Platforms se ha estado preparando para desafiar di...

Inteligencia Artificial

Investigadores cultivan matrices precisas de nanoLEDs

Una nueva técnica produce nanocristales de perovskita justo donde se necesitan, para que los materiales extremadament...

Inteligencia Artificial

Visión del PM Modi sobre la regulación de la IA en India Cumbre B20 2023

A medida que el B20 Summit India 2023 llegaba a su fin en Delhi, las palabras del primer ministro Narendra Modi conti...

Inteligencia Artificial

¡Gol! El equipo de NVIDIA se lleva el trofeo en Sistemas de Recomendación

Un equipo de cinco expertos en aprendizaje automático de NVIDIA, repartidos en cuatro continentes, ganó las tres tare...