¿Ahogado en datos? Un lago de datos puede ser su salvavidas

¿Ahogado en datos? Un lago de datos puede salvarlo

En el mundo digital de hoy, los datos son el rey. Las organizaciones que pueden capturar, almacenar, formatear y analizar datos y aplicar la inteligencia empresarial obtenida a través de ese análisis a sus productos o servicios pueden disfrutar de ventajas competitivas significativas.

Pero la cantidad de datos que las empresas deben gestionar está creciendo a un ritmo asombroso. La firma de análisis de investigación Statista pronostica que la creación de datos global alcanzará los 180 zettabytes para 2025. Este crecimiento dificulta que muchas empresas aprovechen los big data; terminan gastando tiempo y recursos valiosos solo intentando gestionar los datos y menos tiempo analizándolos. Una encuesta de 2019 realizada por McKinsey sobre la transformación global de datos reveló que el 30 por ciento del tiempo total que los equipos de TI empresariales dedican se gasta en tareas que no agregan valor relacionadas con la mala calidad y disponibilidad de los datos. Los problemas de gestión de datos también pueden llevar a silos de datos; colecciones dispares de bases de datos que no se comunican entre sí, lo que lleva a un análisis defectuoso basado en conjuntos de datos incompletos o incorrectos.

Una forma de abordar esto es implementar un lago de datos: una base de datos grande y compleja de conjuntos de datos diversos almacenados en su formato original. El lago de datos puede refinar, enriquecer, indexar y analizar esos datos. Todo esto sucede dentro del entorno del lago de datos para producir resultados consistentes y eliminar la posibilidad de silos de datos.

SoureForge se conectó recientemente con Arjuna Chala, vicepresidente asociado de HPCC Systems, donde es responsable de promover la plataforma de lago de datos de HPCC Systems. Arjuna tiene una larga trayectoria ayudando a los clientes a utilizar la analítica de datos para innovar en las industrias de atención médica, fintech, criptomonedas y dispositivos inteligentes, y ha sido fundamental para ayudar a HPCC Systems a ser adoptado por empresas en Brasil, China, India, Estados Unidos y varios países de Europa. En nuestra discusión, cubrimos el origen de la plataforma de lago de datos de HPCC Systems y lo que la diferencia de otras soluciones de big data actualmente disponibles.

Arjuna Chala, vicepresidente asociado, HPCC Systems

Para aquellos que no estén familiarizados con la plataforma de lago de datos de HPCC Systems, ¿puede describir su organización y la historia de desarrollo detrás de HPCC Systems?

Por supuesto. La tecnología que se convirtió en HPCC Systems comenzó su existencia en 1999 en una empresa llamada Seisint. Estaban interesados en crear una plataforma de datos capaz de administrar una cantidad considerable de conjuntos de datos. El trabajo de Seisint llevó al desarrollo de Enterprise Control Language, o ECL, un lenguaje de programación que HPCC Systems utiliza hasta el día de hoy. En 2004, LexisNexis Risk Solutions adquirió Seisint y comenzó a utilizar HPCC Systems internamente. Otras adquisiciones siguieron, y las tecnologías relevantes de gestión y análisis de datos obtenidas a través de esas adquisiciones se integraron en el conjunto de herramientas de HPCC Systems. Esto llevó a que LexisNexis lanzara HPCC Systems bajo una licencia de código abierto, lo que hizo que esta potente plataforma estuviera disponible para una comunidad global de clientes y desarrolladores. Nuestros éxitos iniciales con HPCC Systems fueron en el ámbito académico, pero ahora estamos viendo que HPCC Systems es adoptado por empresas en una variedad de mercados.

¿Cuáles son las principales diferencias entre HPCC Systems y otras herramientas de big data? Por ejemplo, ¿cómo se compara HPCC Systems con Spark?

Spark es, de hecho, una herramienta popular de big data. Spark y HPCC fueron desarrollados utilizando enfoques diferentes en su diseño. Spark fue creado para ser parte de una solución de big data más amplia y por sí solo no puede funcionar como una plataforma completa de lago de datos. Las empresas que utilizan Spark para implementar un lago de datos necesitan obtener e integrar software adicional para herramientas que admitan la gestión de usuarios, el almacenamiento y entrega de datos, el control de ejecución y la administración. HPCC Systems fue creado desde cero para proporcionar no solo la entrega y el análisis de datos a los usuarios; también admite la ingestión, el procesamiento, el formateo, el análisis y la generación de informes de datos. Además, hemos desarrollado soluciones de cifrado y gobierno de datos para HPCC Systems para ayudar a proteger los datos, garantizar que solo sean accedidos por personal autorizado y crear registros de auditoría para asegurar el cumplimiento de los SLA y regulaciones de seguridad de los datos. Realmente es una solución de lago de datos todo en uno.

HPCC Systems y Spark también difieren en que trabajan con partes distintas de la tubería de big data. Spark se centra más en la ciencia de datos, la ingestión y la transformación de datos, mientras que HPCC Systems se centra en la transformación de datos y la entrega y gobierno de datos.

Dicho esto, vale la pena mencionar que el uso de HPCC Systems o otra herramienta de big data como Spark no es una opción excluyente. Los clústeres de datos de Spark pueden ejecutarse en un lago de datos de HPCC Systems, y en algunos casos, un entorno mixto será la mejor implementación para los clientes, especialmente si ya tienen clústeres de Spark en funcionamiento que necesitan mantener.

Describe HPCC Systems como una plataforma completa de data lake. ¿Puedes ser más detallado? ¿De qué exactamente consiste una plataforma de HPCC Systems?

HPCC Systems consiste en tres componentes principales: el lenguaje de programación ECL, un clúster de procesamiento de datos a granel llamado Thor que limpia, estandariza e indexa datos, y un clúster de API/consulta en tiempo real llamado Roxie para manejar consultas de datos.

Háblame más sobre ECL. No es un lenguaje de programación ampliamente conocido como Java, Python o SQL.

La gran diferencia es que ECL fue diseñado específicamente para ser un lenguaje de programación orientado a datos. Esto significa que las primitivas de datos de alto nivel como JOIN, TRANSFORM, PROJECT, SORT, DISTRIBUTE, MAP y NORMALIZE son funciones de primera clase, por lo que las operaciones comunes con datos se pueden escribir con solo una línea de código. ECL también es un lenguaje de programación declarativo, en lugar de un lenguaje imperativo como Java. En esencia, ECL permite a un desarrollador decirle al data lake lo que quiere, pero no requiere que el desarrollador instruya a la plataforma sobre cómo obtener lo solicitado. Esto resulta en una experiencia de codificación más eficiente; una consulta de búsqueda escrita en ECL puede requerir menos de cien líneas de código, mientras que la misma consulta en Java podría requerir miles. Además, como ECL se utiliza en todo el entorno de HPCC Systems, generalmente se necesitan menos programadores para construir y mantener un data lake de HPCC Systems, ya que no es necesario contar con personal de TI con experiencia en diferentes lenguajes.

ECL suena interesante, pero es un lenguaje de programación nuevo y tiene menos usuarios que lenguajes como Python o SQL. ¿Qué está haciendo HPCC Systems para ayudar a abordar la curva de aprendizaje asociada con el uso de ECL?

Aunque es cierto que ECL tiene una comunidad de usuarios pequeña pero en rápido crecimiento (estimamos que hay 2,000 desarrolladores de ECL trabajando actualmente), no describiría el lenguaje como nuevo. Es un lenguaje de programación probado y confiable que se ha utilizado desde la creación de HPCC Systems a fines de los años noventa.

Hemos trabajado arduamente para garantizar que los clientes tengan acceso a una variedad de opciones de capacitación para ECL. Ofrecemos capacitación en diferentes formatos, desde tutoriales en línea hasta talleres prácticos de varios días en persona. La mayoría de la capacitación en línea está disponible bajo demanda y la mayoría de los cursos están disponibles de forma gratuita para las comunidades de código abierto y académicas. Y dado que HPCC Systems se lanzó bajo una licencia de código abierto, la comunidad global de usuarios de ECL y administradores de HPCC Systems puede ampliarse para abordar las solicitudes de capacitación y soporte que van más allá de las capacidades de las soluciones propietarias.

¿Y qué hay de los clústeres Thor y Roxie? ¿Qué valor aportan a la plataforma general de HPCC Systems?

Como servidor de base de datos en una solución de HPCC Systems, el trabajo de un clúster Thor es importar y procesar datos a gran escala. Para lograr esto, Thor admite el procesamiento paralelo y la partición de datos. Permíteme dar un ejemplo del mundo real de cómo estas características afectan el rendimiento de HPCC Systems. Supongamos que tienes un nuevo conjunto de datos que lista clientes por nombre y dirección, y tienes un conjunto de datos existente en tu data lake que tiene la fecha y el monto en dólares de su compra más reciente contigo. Puedes importar el nuevo conjunto de datos en Thor, escribir código para resolver los nombres y direcciones y luego vincularlo al conjunto de datos con el historial de compras para crear un archivo que contenga ambos conjuntos de datos (nombre y dirección e historial de compras). Incluso si estos conjuntos de datos incluyen miles de millones de entradas de datos, el procesamiento paralelo y la partición de datos de Thor entregarán el archivo fusionado en cuestión de minutos. Otras soluciones de big data podrían llevar horas para producir el mismo resultado.

Un clúster de servidores Roxie está optimizado para manejar consultas de datos en tiempo real. Si bien Thor funciona bien al manejar solicitudes de transformación de datos a granel, no está diseñado para proporcionar resultados en tiempo real. Y dado que los usuarios no quieren esperar horas para obtener los resultados de sus consultas, el flujo de trabajo de Roxie utiliza un diseño de servidor/agente para proporcionar tiempos de respuesta de sub-segundo para las consultas de datos de un usuario. Cuando Roxie recibe una consulta, primero identifica qué clúster o clústeres Thor pueden cumplir mejor con la solicitud. Luego, Roxie envía mensajes solicitando los datos de todos los clústeres involucrados. Roxie luego consolida esos datos y presenta los resultados.

Tanto Thor como Roxie se programan utilizando ECL, por lo que no importa en qué etapa del pipeline de datos esté trabajando un administrador de HPCC Systems, solo se necesita aprender un lenguaje. Un data lake que no utiliza una plataforma integral como HPCC Systems podría requerir potencialmente el soporte de más de dos lenguajes de programación, lo que haría más complicada la gestión del data lake.

Hemos cubierto los componentes y capacidades de HPCC Systems, pero ¿qué significa todo esto para un equipo de TI que considera usar la plataforma? ¿Qué beneficios prácticos proporciona HPCC Systems a los usuarios?

Creo que el gran valor de HPCC Systems más allá de sus características y rendimiento es su simplicidad. Es una solución completa. Los equipos de TI no necesitan evaluar y comprar las diferentes partes de un lago de datos de múltiples proveedores, y luego integrar esas soluciones dispares en una plataforma. Ese tipo de trabajo de integración podría llevar semanas para poner en funcionamiento un lago de datos activo, mientras que el mismo resultado se puede obtener con un lago de datos basado en HPCC Systems en solo unas pocas horas.

ECL también contribuye a la simplicidad de la experiencia del usuario de HCC. Los administradores en cualquier punto del flujo de datos solo necesitan saber cómo programar en ECL, y como el lenguaje fue desarrollado específicamente para la gestión de datos y aplicaciones de consulta, es un lenguaje mucho más eficiente en términos de longitud y complejidad del código.

Y como HPCC Systems es de código abierto, los usuarios obtienen el beneficio de una comunidad de desarrollo global que puede escalar para abordar casi cualquier necesidad. Si se necesita una aplicación o función en particular, no hay nada que impida que un usuario o usuarios la desarrollen. Las soluciones de lago de datos propietarias pueden dejar a los usuarios expuestos a costos más altos (pagar por licencias de asientos o acceso a bibliotecas de software, por ejemplo) o incluso peor, sin la capacidad de obtener una aplicación o solucionar un problema técnico si no es algo a lo que el propietario de la solución quiera destinar recursos para desarrollar o solucionar.

¿Qué tiene planeado HPCC Systems para el futuro de la plataforma?

Estamos desarrollando una implementación basada en la nube de HPCC Systems. Los centros de datos basados en la nube son muy populares entre las empresas, ya que permiten un control más granular sobre los recursos informáticos y de almacenamiento que una empresa está utilizando en un momento dado. Esto ayuda a los equipos de TI a evitar problemas de capex como la sobreaprovisionamiento de hardware y el exceso de personal. Dicho esto, los datos en tránsito naturalmente tienen más riesgo de ser pirateados o robados. Por lo tanto, estamos trabajando arduamente para garantizar que HPCC Systems para la nube admita seguridad reforzada, cifrado de extremo a extremo, autenticación, autorización y otras medidas de seguridad importantes. El objetivo es ofrecer características de seguridad de última generación que protejan los datos del cliente en la nube, al tiempo que brindamos el excelente rendimiento de gestión y análisis de datos que hemos visto en implementaciones locales de HPCC Systems.

¿Dónde deberían ir los lectores para obtener más información sobre HPCC Systems?

Visítenos en www.hpccsytems.com. El sitio contiene todo tipo de documentación sobre cómo funciona HPCC Systems y una variedad de otros recursos, incluyendo una wiki, estudios de caso, documentos técnicos y opciones de capacitación (en línea, video y presencial), así como nuestro portal comunitario donde las partes interesadas pueden conectarse con miembros de nuestra creciente comunidad en línea de usuarios y desarrolladores de HPCC Systems.

¡Reserva la fecha! Únete a nosotros del 2 al 5 de octubre de 2023 para la Cumbre de Tecnología de la Comunidad de Código Abierto de HPCC Systems anual.

¡Nos complace anunciar que la 10ª Cumbre Comunitaria de HPCC Systems se llevará a cabo nuevamente de forma virtual en octubre! El evento de este año es gratuito y está abierto a todos los usuarios de HPCC Systems en RELX y la comunidad de código abierto en general. Este evento mundial ofrecerá sesiones plenarias y de grupos de trabajo que cubrirán una amplia variedad de temas, un taller virtual de alta calidad, así como presentaciones y carteles técnicos de estudiantes que trabajan en proyectos relacionados con HPCC Systems. El propósito de la Cumbre es reunir a ingenieros, científicos de datos y profesionales de tecnología para compartir conocimientos y planes futuros para la plataforma de HPCC Systems. Este evento está dedicado a mostrar nuestra comunidad y permitir que la industria y la academia presenten sus casos de uso de HPCC Systems, proyectos de investigación y compartan su experiencia sobre cómo aprovechan la plataforma de HPCC Systems. https://hpccsystems.com/community/events/hpcc-systems-summit-2023/

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Meta presenta AudioCraft una herramienta de IA para convertir texto en audio y música

Meta, el gigante tecnológico detrás de plataformas de redes sociales como Facebook, Instagram y WhatsApp, ha lanzado ...

Inteligencia Artificial

Prediciendo Touchdowns de Futbol Americano con Aprendizaje Automático

Fútbol. Un pasatiempo estadounidense que une a los fans en toda la nación. Con un promedio de 16.7 millones de espect...

Inteligencia Artificial

Conoce a Baichuan-13B el modelo de lenguaje de código abierto de China para competir con OpenAI

Wang Xiaochuan, el fundador del motor de búsqueda chino Sogou, ha lanzado un nuevo modelo de lenguaje enorme llamado ...

Aprendizaje Automático

Eliminación y destilación arquitectural Un camino hacia la compresión eficiente en modelos de difusión texto-imagen en IA.

Los modelos de difusión de texto a imagen representan un enfoque innovador para generar imágenes a partir de indicaci...

Inteligencia Artificial

De harapos a riquezas

A medida que los modelos de lenguaje grandes (LLMs por sus siglas en inglés) se han apoderado del mundo, los motores ...