IA generativa y el futuro de la ingeniería de datos

Generative AI and the future of data engineering

Tal vez hayas notado que el mundo ha dejado de lado internet, móviles, redes sociales, la nube e incluso la criptografía a favor de una obsesión por la IA generativa.

Pero ¿hay más en la IA generativa que una demostración sofisticada en Twitter? ¿Y cómo afectará a los datos?

Vamos a evaluarlo.

Cómo la IA generativa afectará a los datos

Con el advenimiento de la IA generativa, los modelos de lenguaje grandes se volvieron mucho más útiles para la gran mayoría de los humanos.

¿Necesitas un dibujo de un dinosaurio montando en monociclo para la fiesta de cumpleaños de tu hijo de tres años? Hecho. ¿Y qué tal un borrador de un correo electrónico para los empleados sobre la nueva política de trabajo desde casa de tu empresa? Tan fácil como el pastel.

Es inevitable que la IA generativa también afecte a los datos. Después de hablar con cientos de líderes de datos en empresas que van desde Fortune 500 hasta startups, llegamos a algunas predicciones:

El acceso a los datos será mucho más fácil y más generalizado

Las interfaces tipo chat permitirán a los usuarios hacer preguntas sobre los datos en lenguaje natural. Las personas que no sean expertas en SQL e inteligencia empresarial ya no necesitarán pedirle a un analista o ingeniero de análisis que les cree un panel de control. Al mismo tiempo, aquellos que sean expertos podrán responder sus propias preguntas y construir productos de datos más rápidamente y de manera más eficiente.

Esto no desplazará a SQL e inteligencia empresarial (o a profesionales de datos), pero reducirá la barrera de acceso a los datos y los abrirá a más partes interesadas en más casos de uso. Como resultado, los datos se volverán más generalizados y más útiles para las organizaciones, con la oportunidad de generar un mayor impacto.

Al mismo tiempo, los ingenieros de datos serán más productivos

A largo plazo, los bots pueden comernos (solo bromeo, en su mayoría), pero en el futuro previsible, la IA generativa no podrá reemplazar a los ingenieros de datos; solo les facilitará la vida, y eso es genial. Mira lo que hace GitHub Copilot si necesitas más pruebas.

Si bien la IA generativa aliviará a los profesionales de datos de parte de su trabajo más ad hoc, también les dará a las personas de datos herramientas asistidas por IA para construir, mantener y optimizar de manera más fácil los flujos de datos. Los modelos de IA generativa ya son excelentes para crear código SQL/Python, depurarlo y optimizarlo, y solo mejorarán.

Estas mejoras pueden estar integradas en los elementos básicos actuales de tu conjunto de datos o ser soluciones completamente nuevas desarrolladas por una startup en etapa inicial que se lanzará pronto. De cualquier manera, el resultado será más flujos de datos y más productos de datos que serán consumidos por los usuarios finales.

Aún así, como cualquier cambio, estos avances no estarán exentos de obstáculos. Un mayor acceso a los datos y una mayor productividad aumentan tanto la importancia crítica de los datos como su complejidad, lo que dificulta su gobernanza y confiabilidad.

No predigo que los bots con forma de paneles de control de Looker e informes de Tableau se descontrolen. Sin embargo, veo un mundo en el que los flujos de datos se conviertan en monstruos figurativos de Frankenstein, y los usuarios comerciales confíen en datos sin tener mucha idea de dónde provienen los datos o qué usar. La gobernanza y confiabilidad de los datos serán mucho más importantes en este nuevo mundo.

Los equipos de ingeniería de software han estado practicando DevOps y automatizando sus herramientas para mejorar los flujos de trabajo de los desarrolladores, aumentar la productividad y construir productos más útiles, todo mientras se aseguran de la confiabilidad de sistemas complejos.

De manera similar, tendremos que intensificar nuestro juego en el ámbito de los datos y ser más disciplinados operacionalmente que nunca. La observabilidad de datos jugará un papel similar para los equipos de datos a la hora de gestionar la confiabilidad de los datos, y los productos de datos, a gran escala, y se volverá más crítica y poderosa.

Construcción, ajuste y aprovechamiento de LLMs

El mes pasado, Datadog anunció que se está integrando con ChatGPT para gestionar mejor el rendimiento y la confiabilidad de las APIs de OpenAI mediante el seguimiento de los patrones de uso, costos y rendimiento.

Monitorear la API de OpenAI es enorme, pero ¿qué sucede cuando los equipos de datos comienzan a utilizar LLMs como parte de sus flujos de procesamiento de datos? ¿Qué sucede cuando los equipos utilizan sus propios conjuntos de datos para ajustar finamente LLMs o incluso crearlos desde cero? No hace falta decir que los flujos de datos rotos y los datos defectuosos afectarán gravemente la calidad y confiabilidad del producto final.

En la llamada de ganancias del primer trimestre de 2023 de Snowflake, Frank Slootman, CEO de Snowflake, argumentó que “la IA generativa está impulsada por datos. Así es como los modelos se entrenan y se vuelven progresivamente más interesantes y relevantes… No se puede simplemente dejar sueltos estos [LLMs] en datos que las personas no entienden en términos de su calidad, definición y linaje”.

Ya hemos visto las implicaciones de un entrenamiento de modelos poco confiables antes de la aparición de los LLM. Justo el año pasado, Equifax, el gigante global del crédito, compartió que un modelo de aprendizaje automático entrenado con datos incorrectos les causó enviar puntajes de crédito incorrectos a los prestamistas de millones de consumidores. Y poco antes de eso, Unity Technologies informó una pérdida de ingresos de $110 millones debido a datos de anuncios incorrectos que alimentaban sus algoritmos de segmentación.

Según Slootman (y probablemente también los ejecutivos de Equifax y Unity en la actualidad), simplemente tener IA no es suficiente para tener éxito con ella, también es necesario gestionar su confiabilidad. No solo eso, sino que los equipos necesitan un enfoque automatizado, escalable, integral y de extremo a extremo para gestionar la detección, resolución y, en última instancia, la prevención de modelos incorrectos impulsados por datos erróneos.

La observabilidad de datos desempeñará un papel clave en llevar los LLM a la producción y hacerlos lo suficientemente confiables como para que las empresas y las personas los adopten en casos de uso en producción.

La observabilidad de datos brinda a los equipos información crítica sobre la salud de sus datos en cada etapa del proceso, monitoreando automáticamente los datos y avisándote cuando los sistemas fallan. La observabilidad de datos también muestra un contexto detallado con linaje a nivel de campo, registros, correlaciones y otros conocimientos que permiten la solución rápida de problemas, la resolución de incidentes y la comunicación efectiva con las partes interesadas afectadas por problemas de confiabilidad de datos, lo cual es crucial tanto para análisis confiables como para productos de IA.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Upstage presenta Solar-10.7B modelos de lenguaje grandes pioneros con escalado en profundidad y precisión ajustada para conversaciones de un solo turno

Los investigadores de Upstage (una empresa de IA de Corea del Sur) han abordado el desafío de maximizar el rendimient...

Inteligencia Artificial

Cómo los LLM basados en Transformer extraen conocimiento de sus parámetros

En los últimos años, los modelos de lenguaje basados en transformadores (LLMs, por sus siglas en inglés) se han vuelt...

Inteligencia Artificial

China tiene un nuevo plan para juzgar la seguridad de la IA generativa, ¡y está repleto de detalles!

Una nueva propuesta detalla las formas muy específicas en que las empresas deben evaluar la seguridad de la IA y apli...

Inteligencia Artificial

Investigadores de Alibaba presentan la serie Qwen-Audio Un conjunto de modelos de audio-idioma a gran escala con habilidades universales de comprensión de audio.

Investigadores de Alibaba Group presentaron Qwen-Audio, que aborda el desafío de los modelos de audio pre-entrenados ...