¿Qué hace exactamente un Científico de Datos?

What does a Data Scientist do exactly?

Mis reflexiones honestas después de trabajar en 3 equipos diferentes de Ciencia de Datos (pista: hay mucho más PowerPoint de lo que piensas)

Imagen de Hermansyah en Unsplash

A los Científicos de Datos se les ha llamado de muchas formas:

  • “Un Científico de Datos es un estadístico que vive en San Francisco”
  • “Modeladores profesionales, pero no como ellos”
  • “Me pagan por buscar en Stack Overflow”
  • “Vendo magia a los ejecutivos”

O, mi favorita personal:

  • “La Ciencia de Datos es estadística en una Mac”

Como muestra este conjunto de descripciones de trabajo, puede ser muy difícil tener una imagen clara de lo que realmente implica el rol de un Científico de Datos en el día a día. Muchos de los artículos existentes por ahí -aunque son excelentes- datan de 2012-2020, y en un campo que evoluciona tan rápido como la Ciencia de Datos, estos pueden quedar rápidamente desactualizados.

En este artículo, mi objetivo es levantar el velo proverbial y dar una perspectiva personal de la vida como Científico de Datos en 2023.

Al aprovechar mis experiencias trabajando en 3 equipos diferentes de Ciencia de Datos, intentaré ayudar a tres tipos de personas:

  1. Aspirantes a Científicos de Datos: daré una perspectiva realista de lo que implica el trabajo, para que puedas tomar una decisión más informada sobre si es para ti y qué habilidades trabajar
  2. Científicos de Datos: generar nuevas ideas para probar en tu equipo y/o darte una forma de responder la pregunta “¿Qué es lo que realmente haces?”
  3. Personas que trabajan con (o quieren contratar) Científicos de Datos: conocer lo que realmente hacemos (y, quizás más importante, lo que no hacemos)

No todo son coches autónomos, ChatGPT y Deep Learning

El Jefe de IA en una gran compañía de tecnología me dijo una vez que el mayor error que encuentra sobre los Científicos de Datos es que siempre están construyendo modelos de Deep Learning y haciendo “cosas de IA elegantes”.

Ahora, no me malinterpretes – la Ciencia de Datos puede ser muy elegante, pero abarca mucho más que la Inteligencia Artificial y sus casos de uso llamativos. Equivaler la Ciencia de Datos con la IA es como asumir que los abogados pasan todos sus días gritando “¡Objeción!” en el tribunal; hay mucho más que ocurre detrás de cámaras.

Hay más que eso de “cosas de IA elegantes”

Una de mis descripciones favoritas de la Ciencia de Datos proviene de Jacqueline Nolis, una Científica de Datos Principal con sede en Seattle. Nolis divide la Ciencia de Datos en tres corrientes:

  1. Inteligencia Empresarial – “tomar los datos que la compañía tiene y ponerlos frente a las personas adecuadas”
  2. Ciencia de la Decisión – “tomar datos y usarlos para ayudar a una compañía a tomar una decisión”
  3. Aprendizaje Automático – que describe como “llevar modelos de Ciencia de Datos y ponerlos continuamente en producción”, aunque probablemente tomaría una visión más amplia e incluiría el desarrollo real de modelos de ML.

Diferentes compañías enfatizarán diferentes corrientes, e incluso dentro de estas corrientes, los métodos y objetivos variarán. Por ejemplo:

  • Si eres un Científico de Datos trabajando en Ciencia de la Decisión, tus tareas diarias podrían incluir cualquier cosa desde ejecutar pruebas A/B hasta resolver problemas de programación lineal.
  • Si eres un Científico de Datos que pasa la mayor parte de su tiempo construyendo modelos de ML, estos podrían ser enfocados en el producto (por ejemplo, construir un algoritmo de recomendación que se incorporará a una aplicación) o enfocados en las operaciones comerciales (por ejemplo, construir un modelo de fijación de precios o de pronóstico, utilizado para mejorar las operaciones comerciales en el backend de la compañía).

Personalmente, una de las cosas que encuentro más atractivas de la Ciencia de Datos es poder probar las tres áreas, y por lo tanto, en los roles de Ciencia de Datos que he tenido, siempre he tratado de asegurarme de que haya mucha variedad. Es una buena manera de intentar construir la mentalidad de “hombre de muchos oficios, maestro de uno” que he promovido anteriormente como una forma de enmarcar tu carrera como Científico de Datos.

Hay mucho más PowerPoint de lo que podrías pensar (o desear)

Imagen de Teemu Paananen en Unsplash

Ah, PowerPoint. Si pensabas que los científicos de datos estaban a salvo de él, estabas muy equivocado.

Hacer y presentar diapositivas es una parte clave de cualquier rol de científico de datos, porque tus modelos no llegarán a ningún lado si no puedes comunicar su valor. Como dice Andrew Young:

A lo largo de los años, he visto a muchos científicos de datos con doctorados pasar semanas o meses construyendo tuberías de aprendizaje automático altamente efectivas que (teóricamente) entregarán valor en el mundo real. Desafortunadamente, estos frutos del trabajo pueden morir en el intento si no logran comunicar de manera efectiva el valor de su trabajo.

En mi equipo, ponemos mucho énfasis en la comunicación con los interesados y, por lo tanto, PowerPoint tiende a ser una parte importante de nuestro trabajo diario.

Para cada proyecto, construimos una diapositiva maestra a la que diferentes miembros del equipo pueden agregar, y luego seleccionamos las diapositivas relevantes de esta presentación cuando llega el momento de presentar a los interesados. Si es necesario, intentamos crear varias versiones de las diapositivas clave para poder adaptar nuestros mensajes a diferentes audiencias, que tienen diferentes niveles de experiencia técnica.

Siendo honesto, en realidad no me importa pasar tiempo en PowerPoint (por favor, no me cancelen), ya que creo que hacer diapositivas es una excelente manera de destilar tus ideas clave. Honestamente, me ayuda a recordar preguntas de gran alcance como: (1) ¿qué problema estoy resolviendo, (2) cómo se compara mi solución con la solución base y (3) cuáles son las dependencias y los plazos.

Datos limpios? Agarra mi cerveza

Comúnmente se dice que la ciencia de datos es un 80% preparar datos…

… y un 20% quejarse de preparar datos.

Y no estoy hablando solo de empresas donde la ciencia de datos es “lo nuevo”.

Incluso en empresas establecidas con conjuntos de datos establecidos, la preparación y validación de datos puede llevar una cantidad sustancial de tiempo. Como mínimo, es probable que descubras que los conjuntos de datos están (1) almacenados en diferentes plataformas, (2) publicados en diferentes cadencias o (3) necesitan un procesamiento sustancial para obtener el formato correcto. Incluso una vez que tus modelos están en producción, debes estar continuamente verificando que tus conjuntos de datos no estén derivando, rompiéndose o faltando información.

Y ni siquiera me hables de los datos de entrada del usuario.

En uno de mis trabajos anteriores, teníamos un formulario en línea donde se requería que los usuarios ingresaran su dirección, y nuestros usuarios usaron 95 formas diferentes de escribir “Barcelona”: estoy hablando desde “barcalona” hasta “BARÇA” y “Barna”.

95 formas diferentes de escribir “Barcelona”

La moraleja de la historia: no tengas campos de texto libre a menos que quieras pasar las próximas semanas llorando por la documentación de expresiones regulares.

Siempre estás aprendiendo

Imagen de Christina @ wocintechchat.com en Unsplash

Una de las cosas que más me gusta de la ciencia de datos es el hecho de que implica un aprendizaje continuo.

Para mí, siempre he temido la idea de quedarme atrapado en un trabajo donde solo hago lo mismo todo el tiempo, y estoy agradecido de decir que la ciencia de datos no es una de esas carreras. Como científico de datos, descubrirás que no hay tal cosa como un proyecto “estándar”. Todos ellos requieren un enfoque ligeramente personalizado, por lo que siempre tendrás que adaptar tus conocimientos existentes y aprender cosas nuevas.

Y no estoy hablando solo de aprendizaje “formal” como asistir a conferencias o hacer cursos en línea.

Más probablemente, pasarás una cantidad sustancial de tus días haciendo “microaprendizaje” leyendo documentación de codificación, artículos de Towards Data Science y respuestas de Stack Overflow. Si estás interesado en cómo abordo la tarea de aprendizaje continuo y estar al día, es posible que te interese leer uno de mis artículos recientes donde hablo sobre esto con un poco más de profundidad:

No, no solo le pregunto a ChatGPT que me lo diga

towardsdatascience.com

Es un deporte de equipo

Imagen de Marvin Meyer en Unsplash

Los científicos de datos no existen en una burbuja.

Estamos integrados en equipos, y para trabajar de manera efectiva, debemos ser capaces de trabajar juntos. Me gusta mucho la forma en que Megan Lieu lo explica:

La mayor decepción que tuve cuando finalmente me convertí en un científico de datos fue descubrir que no es solo trabajo solitario todo el día.

“¡No puedo esperar para no hablar con nadie, construir modelos y simplemente hacer cosas técnicas de ciencia de datos por mi cuenta todo el tiempo!”

Para mi horror introvertido, me di cuenta de que no solo tenía que colaborar con los interesados comerciales y externos, sino que también tenía que hablar con ellos todos los días.

Aunque no me siento tan fuerte como Megan (soy más extrovertido por naturaleza), también me sorprendió inicialmente lo basado en equipos que puede ser el rol. En mi papel, “colaboración” significa cosas como: tener reuniones diarias para discutir tareas y obstáculos, hacer sesiones regulares de programación en pareja para depurar y optimizar el código y tener discusiones bien equilibradas (léase: discusiones) sobre los méritos de diferentes enfoques técnicos.

En general, creo que paso alrededor del 50-70% de mi tiempo trabajando solo y el resto del tiempo haciendo trabajo en pareja o en grupo, aunque la proporción exacta dependerá mucho de su empresa y nivel de antigüedad.

¡Y ahí lo tienes!

Gracias por leer esta pequeña visión de mi vida como científico de datos.

Espero que te haya sido útil y no dudes en contactarme si quieres charlar 🙂

Una cosa más: ¿podrías estar en mi 1%?

Menos del 1% de mis lectores en Zepes hacen clic en mi botón ‘Seguir’, así que realmente significa mucho cuando lo haces, ya sea aquí en Zepes, Twitter o LinkedIn.

Si desea obtener acceso ilimitado a todas mis historias (y al resto de Zepes.com), puede registrarse a través de mi enlace de referencia por $5 al mes. No agrega ningún costo adicional en comparación con registrarse a través de la página de registro general y ayuda a apoyar mi escritura ya que obtengo una pequeña comisión.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Una guía para principiantes sobre LLMOps para ingeniería de aprendizaje automático

Introducción El lanzamiento de ChatGPT de OpenAI ha generado mucho interés en los grandes modelos de lenguaje (LLMs, ...

Inteligencia Artificial

Conoce DenseDiffusion una técnica de IA sin entrenamiento para abordar subtítulos densos y manipulación de diseño en la generación de texto a imagen

Los avances recientes en los modelos de texto a imagen han llevado a sistemas sofisticados capaces de generar imágene...

Inteligencia Artificial

Explicación intuitiva de los multiplicadores de Lagrange, las condiciones KKT y la dualidad

En esta historia, exploraremos una comprensión clara e perspicaz de tres conceptos relacionados en la optimización ma...

Inteligencia Artificial

Inmersión profunda en Amazon EC2 Optimización de cargas de trabajo con información sobre hardware

Elegir el hardware subyacente adecuado para las necesidades de su aplicación mejora la eficiencia de los recursos en ...

Inteligencia Artificial

Los robots de IA podrían desempeñar un papel futuro como compañeros en hogares de cuidado

Los robots sociales impulsados por inteligencia artificial podrían ayudar a cuidar a los enfermos y ancianos en el fu...