El camino hacia el éxito en Ciencia de Datos se trata de tu habilidad para aprender. Pero, ¿qué aprender?

El éxito en Ciencia de Datos depende de tu habilidad para aprender. ¿Pero qué debes aprender?

Las posibilidades de entregar exitosamente proyectos de ciencia de datos son mayores cuando sigues aprendiendo, pero no siempre está claro en qué enfocarse.

Foto de Tamara Menzi en Unsplash

Muchos avances importantes en ciencia de datos se han realizado en la última década, pero a pesar de estos logros, muchos proyectos nunca ven la luz del día. Como científicos de datos, no solo debemos mostrar sólidas habilidades técnicas, sino también comprender el contexto empresarial, comunicarnos eficazmente con los interesados y traducir sus preguntas en recomendaciones accionables que generen valor comercial. ¿Es esto razonable o la empresa busca nuevos “unicornios”? En este blog, describiré cómo ha cambiado el negocio a lo largo de los años, lo cual brindará una mejor perspectiva sobre lo que puedes necesitar aprender para entregar exitosamente proyectos de ciencia de datos.

Una breve introducción

Hace más de una década, las empresas reconocieron que la extracción de información de conjuntos de datos puede aumentar los ingresos, optimizar los procesos y reducir los costos de producción. Esto ha dado lugar a un nuevo campo con nuevos roles: el campo de la ciencia de datos con científicos de datos. Pero las necesidades del negocio siguen cambiando a lo largo de los años. Por lo tanto, es importante comprender las necesidades del negocio para saber lo que necesitas aprender como científico de datos. En la siguiente sección, primero ampliaremos la descripción de cómo ha evolucionado el campo de la ciencia de datos en la última década. Esto puede ayudarte a saber: 1. qué era importante aprender, 2. qué es importante aprender ahora y 3. qué puede ser importante aprender para futuros proyectos. Volvamos atrás en el tiempo en la siguiente sección.

Primero, estaban los programadores científicos.

La ciencia de datos tiene muchas disciplinas, cuyas bases se construyen sobre estadísticas y matemáticas que provienen de décadas de investigación y desarrollo (académico). Muchos de los algoritmos fundamentales originales forman los fundamentos en disciplinas como la minería de texto, el reconocimiento de imágenes, la sensorización y las series temporales. En los primeros días, estos métodos se publicaban sin el código correspondiente. Para aplicar el método, las empresas contrataban programadores científicos para realizar la tarea desafiante y que consume mucho tiempo de implementación del método. Pero antes de escribir una sola línea de código, generalmente había un proceso de reflexión sobre por qué se debía realizar el esfuerzo y qué tipo de resultados se podrían esperar. En la última década, esto ha cambiado drásticamente porque empresas como Google, Meta, etc. comenzaron a compartir sus bibliotecas de código abierto. Además, las comunidades comenzaron a desarrollar paquetes de código abierto como sklearn, scipy y muchos más. Ahora, la instalación es solo una línea de código.

El campo de la ciencia de datos está evolucionando rápidamente, pero ¿qué necesita el negocio?

Hoy en día, los “programadores científicos” se han convertido en “científicos de datos”. Sin embargo, algo ha cambiado. El negocio también necesita científicos de datos que puedan comunicarse eficazmente con los interesados, identificar oportunidades comerciales y traducir ideas técnicas en recomendaciones accionables que generen valor comercial. Esto ha dado lugar a un nuevo tipo de científico de datos: el científico de datos aplicado.

Los científicos de datos aplicados vs. fundamentales

El término “científico de datos” se utiliza a menudo como un nombre colectivo para diferentes roles en el campo de la ciencia de datos, como responsable de datos, ingeniero de aprendizaje automático, ingeniero de datos, estadístico y muchos más. Pero cuando hablamos del verdadero científico de datos, básicamente hay dos tipos: el científico de datos fundamental y el científico de datos aplicado.

El científico de datos fundamental tiene un sólido conocimiento en técnicas estadísticas y de aprendizaje automático para analizar conjuntos de datos complejos y obtener información. Esta persona puede decirte todo sobre las distribuciones de datos subyacentes y puede crear fácilmente algoritmos/métodos que resuelvan el problema. Estos individuos suelen destacar en entornos de investigación y desarrollo, así como en instituciones académicas.

El científico de datos aplicado se centra en aplicar técnicas y métodos existentes para resolver problemas comerciales específicos o desarrollar productos y/o servicios basados en datos. Por lo general, estos roles se especializan en un dominio, como la minería de texto, el reconocimiento de imágenes, la sensorización o las series temporales. La innovación generalmente se logra aplicando nuevos métodos a los datos relacionados con su dominio, y no creando nuevos algoritmos o métodos.

Ambos roles tienen sus propias fortalezas y debilidades, para las cuales tengo tres consejos que pueden ayudar a entregar con éxito proyectos de ciencia de datos.

Consejo 1: Aprende los fundamentos de la programación.

Gracias a plataformas como Coursera, Udemy, Youtube y Zepes, hay mucho material para aprender los fundamentos de la programación.

  • Escribe tu código en estilos conocidos, como PEP8.
  • Escribe comentarios en línea; qué/hace y por qué lo haces.
  • Escribe docstrings.
  • Utiliza nombres sensibles para las variables.
  • Reduce la complejidad de tu código (mucho).
  • Escribe pruebas unitarias.
  • Escribe documentación.
  • Manténlo limpio.

La programación es uno de los mayores desafíos en el campo de la ciencia de datos. Se subestima en gran medida pero es uno de los componentes clave que puede hacer o deshacer un proyecto de ciencia de datos para su implementación. Piensa en esto, ¿quieres mantener un modelo o código de programación sin documentación, pruebas unitarias y escrito de forma desorganizada? No creo que sí.

Cada proyecto de ciencia de datos requiere código reproducible y el paso hacia la implementación requiere código mantenible. Al final, cada proyecto es simplemente un montón de líneas de código que alguien necesita implementar. Mantenlo limpio. Mantenlo ordenado.

Consejo 2: El éxito de un proyecto es más que solamente una solución de machine learning

Los proyectos de ciencia de datos suelen comenzar con mucho entusiasmo, pero eso puede desvanecerse rápidamente porque los proyectos necesitan mucho más que solo una solución de machine learning. En un artículo publicado recientemente [1], se describe muy bien cuáles son los pasos técnicos más importantes en un proyecto de ciencia de datos. Sin embargo, para pasar de una idea a la implementación, necesitas más que solo habilidades técnicas. Un resumen de los pasos que pueden ayudar a aumentar el éxito de un proyecto es el siguiente:

  1. Comienza con el objetivo final en mente. Conoce dónde y cómo aterrizará tu proyecto en la organización o empresa al comienzo del proyecto. La gobernanza de datos, la ética y la privacidad son importantes para comenzar.
  2. Verifica en qué plataforma o infraestructura colaborar. Esto puede ser, por ejemplo, git con tuberías de CI/CD y plantillas de cookie-cutter.
  3. Comprende el dominio. Antes de realizar cualquier análisis, se requiere una comprensión básica del dominio en el que estás trabajando. Necesitas saber cómo manejar tus datos con respecto al campo y contexto en el que estás trabajando. No existe una solución de ciencia de datos única para todos.
  4. Realiza tu análisis de datos correctamente. Esto puede parecer trivial, pero saber cómo instalar un paquete no te convierte en un experto. Investiga por tu cuenta y lee artículos. Evita soluciones de machine learning (complejas) que no puedas explicar. Utiliza conjuntos de entrenamiento-prueba-validación. Compara tus resultados con líneas de base. Discute tus ideas y resultados con un científico experimentado y aquellos con conocimiento en el dominio.
  5. Informa tus resultados. Sé transparente. Cuenta la historia basada en hechos. No generalices la historia más allá de los datos. Describir el viaje es más importante que ese número único que salió del modelo.
  6. Escribe código reproducible y mantenible. Demuestra que los resultados son reproducibles y que el código es mantenible.
  7. Entrega los resultados. Si se han realizado todos los pasos, los resultados o el producto deben entregarse al cliente de manera que puedan trabajar con él. Entregar tu propia computadora portátil con el código funcional no es la solución.

Si observas detenidamente estos pasos, solo hay un paso (#4) donde se analizan los datos y se crean los modelos. Reflexiona sobre eso.

Consejo 3: Sé inteligente, aprende y repite.

La ciencia de datos es un campo altamente complicado y en constante evolución donde se unen diferentes especializaciones. Cada científico de datos tiene un trasfondo diferente y el aprendizaje continuo es parte del trato. Esto significa que un camino personalizado de aprendizaje y crecimiento puede ser de gran beneficio, lo cual depende de tu grado/punto de partida, experiencia, conocimiento en el dominio, antecedentes en matemáticas, estadísticas, programación, ingeniería, habilidades de comunicación y presentación. Discute con tus colegas en qué puedes mejorar y crea una hoja de ruta personal de qué aprender y cómo hacerlo. Ten en cuenta que tomar cursos aleatorios de ciencia de datos puede ser interesante pero puede no estar alineado con la misión de la empresa e incluso con tu propio camino de crecimiento personal.

La capacidad de aprender es un músculo que todos deberían seguir ejercitando, y ser un aprendiz de por vida es probablemente el mejor regalo que puedes darte a ti mismo.

Siempre hay más por aprender.

El camino hacia el éxito no se trata de un curso en particular en la web que necesitas hacer, sino que puede requerir años y probablemente décadas de dedicación, trabajo duro y luchas al mismo tiempo. Invierte en ti mismo, aprende los fundamentos, ve más allá del conocimiento superficial, especialízate y date cuenta de que el éxito es la acumulación de muchos pequeños pasos, de los cuales la modelización es solo un paso en todo el proceso.

Permíteme desglosarlo en subpartes. Primero, la comunicación es muy importante. Tal vez puedas crear el método más genial, pero necesitas articular de manera efectiva los conceptos técnicos complejos tanto a los interesados técnicos como no técnicos. La resolución de problemas: debes ser capaz de abordar problemas complejos con una mentalidad estructurada y sistemática. Piensa de manera crítica, analiza los problemas desde múltiples ángulos y propone soluciones efectivas. Puedes practicar fácilmente ayudando a la comunidad en sitios web como Stack Overflow. A medida que avanzas en tu carrera y senioridad, deberías poder mentorear y coachear a desarrolladores. Brinda orientación, comparte mejores prácticas y ayuda a mejorar sus habilidades técnicas. Sé adaptable. No te apegues a la técnica que conoces, sino que abraza nuevas tecnologías, metodologías y herramientas. Debes ser capaz de aprender rápidamente y adaptarte a los cambios en los requisitos del proyecto o las tendencias de la industria. Gestión del tiempo. Administra tu tiempo de manera efectiva. Prioriza tareas, cumple con los plazos y equilibra las demandas competitivas. Mantente enfocado en entregar un trabajo de calidad.

Cuida de ti. Mantente alerta.

Saludos, E.

Si encuentras este artículo útil, eres bienvenido/a a seguirme porque escribo más sobre aprendizaje causal bayesiano. Si estás pensando en ser miembro de Zepes, puedes apoyar un poco mi trabajo utilizando mi enlace de referencia. Tiene el mismo precio que un café, pero te permite leer artículos ilimitados mensualmente.

¡Conectemos!

  • Conéctate conmigo en LinkedIn
  • Sígueme en Github
  • Sígueme en Zepes

Referencias

  1. Michael A. Lones, Cómo evitar trampas en el aprendizaje automático: una guía para investigadores académicos, arXiv: 2108.02497
  2. Tessa Xie, Errores a evitar en la carrera de Ciencia de Datos, 2021,
  3. ¿Se está volviendo obsoleto el trabajo de científico de datos? Data Science Central

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Dentro de Code Llama La entrada de Meta AI en el espacio de Code LLM

La codificación se ha convertido rápidamente en uno de los escenarios de acción más activos para los grandes modelos ...

Aprendizaje Automático

Búsqueda de similitud, Parte 1 kNN e Índice de Archivo Invertido

La búsqueda de similitud es un problema en el que, dada una consulta, el objetivo es encontrar los documentos más sim...

Inteligencia Artificial

Escala el entrenamiento y la inferencia de miles de modelos de aprendizaje automático con Amazon SageMaker

Entrenar y servir miles de modelos requiere una infraestructura robusta y escalable, y ahí es donde Amazon SageMaker ...

Inteligencia Artificial

Revelando el poder del ajuste de sesgo mejorando la precisión predictiva en conjuntos de datos desequilibrados

En el ámbito de la ciencia de datos, el manejo efectivo de conjuntos de datos desequilibrados es crucial para predicc...

Inteligencia Artificial

Utilice los marcos de datos de Pandas de manera más efectiva con las 7 principales operaciones de columna

Cuando se trata de análisis de datos, Pandas es la biblioteca de Python más utilizada para manipular y preparar los d...

Inteligencia Artificial

30+ herramientas de inteligencia artificial para startups (diciembre 2023)

La creatividad, el análisis y la toma de decisiones en el lugar de trabajo están siendo revolucionados por la intelig...