La Fascinante Evolución de la Inteligencia Artificial Generativa

La Evolución de la Inteligencia Artificial Generativa

Introducción

En el siempre creciente ámbito de la inteligencia artificial, un campo fascinante que ha capturado la imaginación de investigadores, tecnólogos y entusiastas por igual es la Inteligencia Artificial Generativa. Estos algoritmos ingeniosos están empujando los límites de lo que los robots pueden hacer y entender cada día, dando paso a una nueva era de invención y creatividad. En este ensayo, nos embarcamos en un viaje emocionante a través de la Evolución de la Inteligencia Artificial Generativa, explorando sus modestos orígenes, puntos de inflexión importantes y los desarrollos revolucionarios que han influenciado su curso.

Examinaremos cómo la Inteligencia Artificial Generativa ha revolucionado varios campos, desde el arte y la música hasta la medicina y las finanzas, comenzando con sus primeros intentos de crear patrones simples y avanzando hacia las obras maestras impresionantes que crea ahora. Podemos obtener conocimientos profundos sobre el enorme potencial de la Inteligencia Artificial Generativa para el futuro al comprender el trasfondo histórico y las innovaciones que llevaron a su nacimiento. Únete a nosotros mientras exploramos cómo las máquinas adquirieron la capacidad de crear, inventar e imaginar, alterando para siempre el campo de la inteligencia artificial y la creatividad humana.

Cronología de la Evolución de la Inteligencia Artificial Generativa

En el panorama en constante evolución de la inteligencia artificial, pocas ramas han despertado tanta fascinación y curiosidad como la Inteligencia Artificial Generativa. Desde sus primeras conceptualizaciones hasta los logros asombrosos alcanzados en los últimos años, el viaje de la Inteligencia Artificial Generativa ha sido nada menos que extraordinario.

En esta sección, nos embarcamos en un viaje cautivador a través del tiempo, desentrañando los hitos que dieron forma al desarrollo de la Inteligencia Artificial Generativa. Nos adentramos en avances clave, documentos de investigación y progresos, pintando una imagen completa de su crecimiento y evolución.

Acompáñanos en un viaje a través de la historia, presenciando el nacimiento de conceptos innovadores, la aparición de figuras influyentes y la permeación de la Inteligencia Artificial Generativa en diversas industrias, enriqueciendo vidas y revolucionando la IA tal como la conocemos.

Año 1805: Primera NN / Regresión Lineal

En 1805, Adrien-Marie Legendre introdujo una red neuronal lineal (NN) con una capa de entrada y una única unidad de salida. La red calculaba la salida como la suma de las entradas ponderadas. Ajustaba los pesos utilizando el método de los mínimos cuadrados, similar a las NN lineales modernas, sirviendo como base para el aprendizaje superficial y las arquitecturas complejas subsiguientes.

Año 1925: Primera Arquitectura RNN

La primera arquitectura RNN no aprendida (el modelo Ising o Lenz-Ising) fue introducida y analizada por los físicos Ernst Ising y Wilhelm Lenz en la década de 1920. Se establece en un estado de equilibrio en respuesta a las condiciones de entrada y es la base de las primeras RNN de aprendizaje.

Año 1943: Introducción de las Redes Neuronales

En 1943, por primera vez, se introdujo el concepto de las Redes Neuronales por Warren McCulloch y Walter Pitts. Se inspira en el funcionamiento de la neurona biológica. Las redes neuronales se modelaron utilizando circuitos eléctricos.

Año 1958: MLP (Sin Aprendizaje Profundo)

En 1958, Frank Rosenblatt introdujo MLPs con una primera capa no aprendida con pesos aleatorios y una capa de salida adaptativa. Aunque esto aún no era aprendizaje profundo porque solo la última capa se aprendía, Rosenblatt básicamente tenía lo que mucho más tarde se rebrandeó como Máquinas de Aprendizaje Extremo (ELMs) sin atribución adecuada.

Año 1965: Primer Aprendizaje Profundo

En 1965, Alexey Ivakhnenko & Valentin Lapa introdujeron los primeros algoritmos de aprendizaje exitosos para MLPs profundos con múltiples capas ocultas.

Año 1967: Aprendizaje Profundo por SGD

En 1967, Shun-Ichi Amari propuso entrenar perceptrones multicapa (MLPs) con múltiples capas utilizando descenso de gradiente estocástico (SGD) desde cero. Entrenaron un MLP de cinco capas con dos capas modificables para clasificar patrones no lineales, a pesar de los altos costos computacionales en comparación con hoy en día.

Año 1972: Publicación de Redes Neuronales Recurrentes Artificiales

En 1972, Shun-Ichi Amari adaptó la arquitectura recurrente de Lenz-Ising para que aprendiera a asociar patrones de entrada con patrones de salida mediante el cambio de los pesos de conexión. Diez años después, la red Amari fue republicada con el nombre de Red de Hopfield.

Año 1979: Redes Neuronales Convolucionales Profundas

Kunihiko Fukushima propuso inicialmente la primera arquitectura de CNN, que incluía capas de convolución y submuestreo, llamada Neocognitron, en 1979. En 1987, Alex Waibel combinó convoluciones, compartición de pesos y retropropagación en lo que llamó TDNNs, aplicados al reconocimiento de voz, prefigurando las CNN.

Año 1980: Lanzamiento de los Autoencoders

Los autoencoders fueron introducidos por primera vez en la década de 1980 por Hinton y el grupo PDP (Rumelhart, 1986) para abordar el problema de la “retropropagación sin un maestro” utilizando los datos de entrada como maestro. La idea general de los autoencoders es bastante simple. Consiste en establecer un codificador y un decodificador como redes neuronales y aprender el mejor esquema de codificación-decodificación utilizando un proceso de optimización iterativo.

Año 1986: Invención de la Retropropagación

En 1970, Seppo Linnainmaa introdujo el método de diferenciación automática llamado retropropagación para redes de funciones diferenciables anidadas. En 1986, Hinton y otros investigadores propusieron un algoritmo de retropropagación mejorado para entrenar redes neuronales feedforward, que se describe en su artículo “Aprendizaje de representaciones mediante la retropropagación de errores”.

Año 1988: Reconocimiento de Imágenes (CNN)

Wei Zhang aplicó la retropropagación para entrenar una CNN en el reconocimiento de letras, inicialmente conocida como Red Neuronal Artificial Invariante al Desplazamiento (SIANN). Posteriormente, aplicaron la CNN sin la última capa completamente conectada para la segmentación de objetos en imágenes médicas y la detección de cáncer de mama en mamografías. Este enfoque sentó las bases para la visión por computadora moderna.

Año 1990: Introducción de GAN / Curiosidad

Las Redes Generativas Adversarias (GAN) han ganado popularidad desde su primera publicación en 1990 bajo el nombre de Curiosidad Artificial. Las GAN involucran dos redes neuronales en duelo, un generador (controlador) y un predictor (modelo del mundo), que participan en un juego minimax, maximizando las pérdidas del otro. El generador produce salidas probabilísticas, mientras que el predictor predice reacciones ambientales. El predictor minimiza el error a través del descenso de gradientes, mientras que el generador busca maximizarlo.

Año 1991: Primeros Transformers

Los Transformers con “autoatención linealizada” fueron publicados por primera vez en marzo de 1991, conocidos como “Programadores de Pesos Rápidos” o “Controladores de Pesos Rápidos”. Separaron el almacenamiento y el control, al igual que en las computadoras tradicionales, pero de una manera completamente neuronal, adaptativa y diferenciable de principio a fin. La “autoatención” en los Transformers estándar de hoy combina esto con una proyección y softmax como la introducida en 1993.

Año 1991: Gradiente Desvaneciente

El Problema Fundamental del Aprendizaje Profundo, descubierto por Sepp Hochreiter en 1991, aborda los desafíos del aprendizaje profundo. Hochreiter identificó el problema del gradiente desvaneciente o explosivo en redes neuronales profundas, es decir, las señales de error retropropagadas disminuyen rápidamente o se escalan de forma incontrolable en redes profundas y recurrentes típicas.

Año 1995: Lanzamiento de LeNet-5

Varios bancos aplicaron LeNet-5, una red convolucional pionera de 7 niveles desarrollada por LeCun en 1995 que clasifica dígitos para reconocer números escritos a mano en cheques.

Año 1997: Introducción de LSTM

En 1995, Long Short-Term Memory (LSTM) fue publicada en un informe técnico por Sepp Hochreiter y Jürgen Schmidhuber. Posteriormente, en 1997, el artículo principal de LSTM abordó el problema del gradiente desvaneciente. La versión inicial del bloque LSTM incluía celdas, compuertas de entrada y salida. En 1999, Felix Gers y su asesor, Jürgen Schmidhuber, junto con Fred Cummins, introdujeron la compuerta de olvido en la arquitectura LSTM, lo que permitió a LSTM reiniciar su estado.

Los Desarrollos del Milenio

Año 2001 – Introducción de NPLM

En 1995, ya teníamos un excelente modelo de texto probabilístico neuronal cuyos conceptos básicos se reutilizaron en 2003, es decir, el trabajo anterior de Pollack sobre incrustaciones de palabras y otras estructuras y el modelo de predicción de categorías de palabras de Nakamura y Shikano en 1989. En 2001, los investigadores demostraron que LSTM podía aprender idiomas que no podían aprenderse con modelos tradicionales como HMMs, es decir, un modelo neuronal “subsimbólico” de repente destacó en el aprendizaje de tareas “simbólicas”.

Año 2014 – Autoencoder Variacional

Un autoencoder variacional es un autoencoder cuyo entrenamiento está regularizado para evitar el sobreajuste y garantizar que el espacio latente tenga propiedades adecuadas que permitan un proceso generativo. La arquitectura del VAE es similar a la del Autoencoder, con una ligera modificación del proceso de codificación-decodificación. En lugar de codificar una entrada como un único punto, los investigadores la codifican como una distribución en el espacio latente.

Año 2014 – La Liberación de GAN

Los investigadores propusieron un nuevo marco para estimar modelos generativos mediante un proceso adversarial en el que se entrenan simultáneamente dos modelos. Un modelo generativo, G, captura la distribución de datos, y un modelo discriminativo, D, estima la probabilidad de que una muestra provenga de los datos de entrenamiento en lugar de G. El procedimiento de entrenamiento para G consiste en maximizar la probabilidad de que D cometa un error.

Año 2014 – La Liberación de GRU

Una unidad recurrente con compuertas (GRU) fue propuesta por Cho [2014] para que cada unidad recurrente capture de manera adaptativa las dependencias de diferentes escalas de tiempo. Al igual que la unidad LSTM, la GRU tiene unidades de compuerta que modulan el flujo de información dentro de la unidad, sin embargo, sin tener una celda de memoria separada.

Año 2015 – La Liberación de Modelos de Difusión

Los modelos de difusión son la base de las tareas de generación de imágenes en la actualidad. Al descomponer el proceso de formación de imágenes en una aplicación secuencial de autoencoders de eliminación de ruido, los modelos de difusión (DMs) logran resultados de síntesis de vanguardia en datos de imágenes y más allá. Además, su formulación permite un mecanismo guía para controlar el proceso de generación de imágenes sin necesidad de volver a entrenar.

Año 2016 – La Liberación de WaveNet

WaveNet es un modelo de lenguaje para datos de audio. Es una red neural profunda para generar formas de onda de audio sin procesar. El modelo es completamente probabilístico y autoregresivo, con la distribución predictiva para cada muestra de audio condicionada a todas las anteriores.

Año 2017: La Liberación de Transformers

Google presentó un documento revolucionario en 2017, “Attention Is All You Need” (La atención es todo lo que necesitas). ¡Los LSTMs estaban muertos y ya no se usaban! Este documento presentó una nueva arquitectura que depende completamente de mecanismos de atención. Los elementos fundamentales de los Transformers son la Autoatención, la Atención del Codificador-Decodificador, la Codificación Posicional y la Red Neuronal de Avance. Los principios fundamentales de los Transformers siguen siendo los mismos en los LLMs actuales.

Año 2018: La Liberación de GPT

GPT (Generative Pretraining Transformer) fue presentado por OpenAI al preentrenar un modelo en un corpus diverso de texto no etiquetado. Es un modelo de lenguaje grande entrenado de forma autoregresiva para predecir una nueva secuencia de palabras en el texto. El modelo sigue en gran medida la arquitectura original de los Transformers pero solo contiene un decodificador de 12 capas. En los próximos años, la investigación llevó al desarrollo de modelos más grandes en tamaño: GPT-2(1.5B), GPT-3(175B)

Año 2018: La Liberación de BERT

BERT (Bidirectional Encoder Representations from Transformers) fue presentado por Google en 2018. Los investigadores entrenaron el modelo en 2 pasos: Preentrenamiento y Predicción de la Siguiente Oración. A diferencia de GPT, el modelo predice los tokens faltantes en cualquier parte del texto durante el preentrenamiento. La idea aquí era mejorar la comprensión del lenguaje del texto capturando el contexto desde ambas direcciones.

Año 2019: El Lanzamiento de StyleGAN

Los investigadores propusieron una arquitectura generadora alternativa para las redes generativas adversarias, tomando prestado de la literatura de transferencia de estilo. La nueva arquitectura permite el aprendizaje automático de atributos de alto nivel (por ejemplo, postura e identidad en rostros humanos) y variaciones estocásticas (por ejemplo, pecas, cabello) en imágenes generadas. También permite un control fácil y específico de la síntesis a nivel de escala.

Año 2020: El Lanzamiento de wav2vec 2.0

En 2019, Meta AI lanzó wav2vec, un marco para el pre-entrenamiento no supervisado para el reconocimiento de voz mediante el aprendizaje de representaciones de audio en bruto. Más tarde, en 2020, se introdujo wav2vec 2.0 para el Aprendizaje Autodidacta de Representaciones de Voz. Aprende la representación más poderosa del audio de voz. El modelo fue entrenado utilizando la clasificación temporal conexionista (CTC), por lo que la salida del modelo debe ser decodificada utilizando Wav2Vec2CTCTokenizer.

Año 2021: El Lanzamiento de DALL.E

DALL·E es una versión de 12 mil millones de parámetros de GPT-3 entrenada para generar imágenes a partir de descripciones de texto utilizando un conjunto de datos de pares de texto-imagen. Tiene capacidades diversas, como crear versiones humanizadas de animales y objetos, combinar conceptos no relacionados, renderizar texto y transformar imágenes existentes.

Año 2022: El Lanzamiento de Latent Diffusion

Los modelos de difusión latente logran un nuevo estado del arte en el rellenado de imágenes y un rendimiento altamente competitivo en la generación de imágenes. Los investigadores utilizan autoencoders pre-entrenados poderosos para entrenar modelos de difusión en el espacio latente y capas de atención cruzada. Por primera vez, esto les permite lograr un punto cercano a óptimo entre la reducción de complejidad y la preservación de detalles, aumentando en gran medida la fidelidad visual.

Año 2022: El Lanzamiento de DALL.E 2

En 2021, los investigadores entrenaron a DALL.E, una versión de 12 mil millones de parámetros de GPT-3, para generar imágenes a partir de descripciones de texto utilizando un conjunto de datos de pares de texto-imagen. En 2022, se desarrolló DALL·E 2 para crear imágenes y arte realistas a partir de una descripción en lenguaje natural. DALL·E 2 puede crear imágenes y arte originales y realistas a partir de una descripción de texto. Puede combinar conceptos, atributos y estilos.

Año 2022: El Lanzamiento de Midjourney

Midjourney es un modelo de texto a imagen muy popular impulsado por el modelo de difusión latente. Un laboratorio de investigación independiente con sede en San Francisco lo crea y lo aloja. Puede crear imágenes de alta calidad y definición a través de descripciones en lenguaje natural conocidas como indicaciones.

Año 2022: El Lanzamiento de Stable Diffusion

Stable Diffusion es un modelo de difusión latente de texto a imagen capaz de generar imágenes foto-realistas dado cualquier texto de entrada, cultiva una libertad autónoma para producir imágenes increíbles y capacita a miles de millones de personas para crear arte impresionante en cuestión de segundos.

Año 2022: El Lanzamiento de ChatGPT

ChatGPT es un modelo revolucionario en la historia de la IA. Es un modelo hermano de InstructGPT, entrenado para seguir instrucciones rápidamente y proporcionar una respuesta detallada. Interactúa en un formato de conversación que permite a ChatGPT responder preguntas de seguimiento, admitir sus errores, desafiar premisas incorrectas y rechazar solicitudes inapropiadas.

Año 2022: El Lanzamiento de AudioLM

AudioLM es un marco de trabajo de Google para la generación de audio de alta calidad con consistencia a largo plazo. AudioLM mapea el audio de entrada a una secuencia de tokens discretos y convierte la generación de audio en una tarea de modelado de lenguaje en este espacio de representación. Dado el indicador (discurso/música), puede completarlo.

2023 Desatado: Explorando los Lanzamientos Más Recientes y Calientes

Año 2023: El Lanzamiento de GPT-4

GPT-4 es el sistema más avanzado de OpenAI, que produce respuestas más seguras y útiles. GPT-4 puede resolver problemas complejos con mayor precisión, gracias a su amplio conocimiento general y habilidades para resolver problemas. Supera a GPT-3.5 en su creatividad, entrada visual y contexto más largo.

Año 2023: El lanzamiento de Falcon

Falcon LLM es un modelo de lenguaje grande (LLM) fundamental con 40 mil millones de parámetros entrenados en un billón de tokens. Falcon ocupa el primer lugar en el Hugging Face Open LLM Leaderboard. El equipo se centró especialmente en la calidad de los datos a gran escala. Se tuvo un cuidado significativo en la construcción de un canal de datos para extraer contenido web de alta calidad utilizando filtrado y deduplicación exhaustivos.

Año 2023: El lanzamiento de Bard

Google lanzó Bard como competidor de ChatGPT. Es un chatbot de inteligencia artificial generativo conversacional de Google. Basado en el modelo de base PaLM, Bard interactúa de manera conversacional, respondiendo preguntas de seguimiento, admitiendo errores, desafiando premisas incorrectas y rechazando solicitudes inapropiadas.

Año 2023: El lanzamiento de MusicGen

MusicGen es un modelo de transformador auto-regresivo de una sola etapa capaz de generar muestras de música de alta calidad condicionadas por descripciones de texto o indicaciones de audio. El modelo de codificador de texto congelado pasa las descripciones de texto para obtener una secuencia de representaciones de estado oculto.

Año 2023: El lanzamiento de AutoGPT

Auto-GPT es una aplicación experimental de código abierto que muestra las capacidades del modelo de lenguaje GPT-4. Este programa, impulsado por GPT-4, une “pensamientos” de LLM para lograr de manera autónoma cualquier objetivo que se establezca. Como uno de los primeros ejemplos de GPT-4 que se ejecuta de manera completamente autónoma, Auto-GPT empuja los límites de lo que es posible con la inteligencia artificial.

Año 2023: El lanzamiento de LongNet

La ampliación de la longitud de la secuencia se ha convertido en una demanda crítica en la era de los modelos de lenguaje grandes. Sin embargo, los métodos existentes luchan con la complejidad computacional o la expresividad del modelo, lo que limita la longitud máxima de la secuencia. LongNet, una variante de Transformer, puede ampliar la longitud de la secuencia a más de mil millones de tokens sin sacrificar el rendimiento en secuencias más cortas.

Año 2023: El lanzamiento de Voicebox

Meta AI anunció Voicebox, un avance en la inteligencia artificial generativa para el habla. Los investigadores desarrollaron Voicebox, un modelo de IA de última generación capaz de realizar tareas de generación de habla, como edición, muestreo y estilización, a través del aprendizaje en contexto, incluso sin un entrenamiento específico.

Año 2023: El lanzamiento de LLaMA

Meta AI presentó LLaMA, una colección de modelos de lenguaje fundamentales que van desde 7B hasta 65B de parámetros. Demostraron que es posible entrenar modelos de última generación utilizando conjuntos de datos disponibles públicamente sin recurrir a conjuntos de datos propietarios e inaccesibles. En particular, LLaMA-13B supera a GPT-3 (175B) en la mayoría de las pruebas de referencia.

Conclusión

Al observar la cronología de la inteligencia artificial generativa, hemos sido testigos de cómo ha superado desafíos y limitaciones, redefiniendo constantemente lo que antes se consideraba imposible. La investigación innovadora, los modelos pioneros y los esfuerzos de colaboración han dado forma a este campo como una fuerza impulsora detrás de las innovaciones de vanguardia.

Más allá de sus aplicaciones en el arte, la música y el diseño, la inteligencia artificial generativa tiene un impacto significativo en diversos campos, como la salud, las finanzas y el procesamiento del lenguaje natural, mejorando nuestras vidas diarias. Este progreso abre el potencial para una convivencia armoniosa entre la tecnología y la humanidad, creando innumerables oportunidades. Dediquémonos a desarrollar este destacado campo, fomentando la cooperación y la exploración en los próximos años.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Gestión de modelos para los modelos afinados de LoRA utilizando Llama2 y Amazon SageMaker

En la era del big data y la inteligencia artificial, las empresas buscan constantemente formas de utilizar estas tecn...

Inteligencia Artificial

La SEC le está dando a las empresas cuatro días para informar ciberataques

Los críticos cuestionan si las nuevas reglas podrían causar más daño que beneficio.

Inteligencia Artificial

Conoce a Rodin un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de diversas fuentes de entrada.

Los modelos generativos se están convirtiendo en la solución por defecto para muchas tareas desafiantes en ciencias d...

Inteligencia Artificial

Herramienta LLM encuentra y remedia vulnerabilidades de software

La empresa de software Vicarius presentó vuln_GPT, una herramienta de inteligencia artificial generativa que identifi...

Noticias de Inteligencia Artificial

Manteniendo a los hackers fuera de la red eléctrica.

Protegiendo las redes de suministro eléctrico contra incursiones.