¿Qué es los datos sintéticos?

Los datos sintéticos son información generada artificialmente.

Una guía de campo de las diversas especies de datos falsos: Parte 1

Los datos sintéticos son, siendo directos, datos falsos. Es decir, datos que no provienen realmente de la población en la que estás interesado. (Población es un término técnico en ciencia de datos, que explico aquí.) Son datos que planeas tratar como si provinieran del lugar/grupo del que deseas que provengan. (No lo hacen.)

Los datos sintéticos son, siendo directos, datos falsos.

Datos artificiales, datos sintéticos, datos falsos y datos simulados son sinónimos con connotaciones poéticas de diferentes épocas. Hoy en día, a los jóvenes les gusta más la palabra de moda “datos sintéticos”, quizás porque los inversores necesitan ser convencidos de que algo nuevo ha sido inventado, en lugar de redescubierto. Y hay algo ligeramente nuevo en juego aquí, pero (en mi opinión) no lo suficientemente nuevo como para que todas las ideas antiguas sean irrelevantes.

¡Vamos a sumergirnos!

Todos los derechos de imagen pertenecen al autor.

(Nota: los enlaces en esta publicación te llevan a explicaciones del mismo autor.)

Posibilidades infinitas

Si has sufrido un curso de posgrado sobre probabilidad avanzada y teoría de la medida como yo (mi terapeuta y yo todavía lo estamos superando más de una década después), estarás superflua mente consciente de que hay números reales infinitos . Entre otras cosas, infinito significa que si intentas enumerarlos todos, puedo llegar como un idiota y encontrarte uno nuevo, por ejemplo, sumando 1 a tu número más grande, tomando el promedio de tus dos números más cercanos o agregando un dígito al final del número con la serie más larga de dígitos después del punto decimal.

Esto también significa que si me das la lista de todos los números registrados por los humanos a lo largo de la historia de la humanidad, todavía puedo crear uno completamente nuevo. ¡Boom! El poder.

¿A dónde voy con esto, además de proporcionar material para tu próximo debate cervecero sobre si existe tal cosa como la verdadera originalidad (ugh)?

Números sintéticos

Supongamos que tienes un conjunto de datos lleno de alturas humanas. Entre cualquier par de mediciones (digamos 173 cm y 174 cm, el intervalo en el que encontrarás mi altura) hay infinitas posibilidades para un número que podrías anotar. Solo sigue alargando el decimal más allá de la capacidad razonable de nuestras herramientas de medición. Más allá de las partículas subatómicas. Más allá del sentido común. Todavía hay muchos números que podría inventar, como: 173.4335524095820398502639008342984598739874944444443842397593645873649572850263894458092843956389479592489586232342349832842849687394208287645545352525353353826482384724628732648732799999992323…

Las reglas que rigen la creación de este número estúpido están completamente fuera del ámbito de lo útil y práctico, así que cuando me pides que te dé un número que pueda representar una altura humana que puedas agregar a tu conjunto de datos, ¿cómo debo abordar tu solicitud?

Datos del mundo real

Una opción es darte datos reales de un ser humano real. Miro alrededor de la habitación, veo a mi mejor amiga Heather (historia real, ella saluda) y la mido para tu conjunto de datos. Si tu población de interés son todos los humanos, su altura sería un dato legítimo para tu conjunto de datos si (y eso es un gran si) la midiera de acuerdo con las reglas que estableciste para cómo se deben medir tu población.

Datos ruidosos

Si mido la altura de Heather en laptops (no traje una cinta métrica a nuestra escapada de fin de semana, lo siento) hasta las 13 pulgadas más cercanas mientras tú mides las alturas en milímetros usando una de esas reglas metálicas, tendremos problemas.

Cuando decimos datos ruidosos, nos referimos a que hay un error no determinista que oculta la respuesta verdadera. Y eso es exactamente lo que sucederá si se me ocurre medir a Heather en laptops. (O Smoots .)

Cualquier medición que obtengas de mí tendrá un error aleatorio incorporado que es de un perfil diferente al del resto de tus datos. Para lidiar con el problema que podríamos estar abriendo aquí, asegúrate de incluir un registro de la fuente de los datos. (¿Quién los recopiló, tú o yo?) Siempre puedes eliminar mis entradas después… siempre y cuando no se estén ocultando entre tus contribuciones legítimas.

Cuando se recopilan datos del mundo real, es sorprendentemente fácil cometer errores. Para obtener más información, echa un vistazo a mi serie sobre diseño y recopilación de datos:

El Arte Oscuro del Diseño de Datos

Luchando contra una nueva alquimia embarazosa para la era digital

towardsdatascience.com

Muestreo aleatorio simple: ¿es realmente simple?

Cómo crear un plan de muestreo para tu proyecto de datos

towardsdatascience.com

Datos hechos a mano

Supongamos que no hay nadie más para medir, pero de todos modos quieres otro punto de datos. (¿Por qué querrías hacer esto y cuáles son los pros y los contras? ¡Lee mi próximo artículo de blog!)

Entonces estás diciendo que estás de acuerdo con los datos sintéticos. (Si permites datos sintéticos en tu proyecto, ¡siempre lleva un registro de qué puntos de datos son sintéticos y cómo se crearon!)

También podría darte un punto de datos de altura inventando un número sin seguir ninguna regla en absoluto. Si soy especialmente perverso, incluso podría dar un número complejo como -5 + 60*sqrt(-1) solo para confundirte. ¿Dijiste que no podía hacerlo? Deberías haberlo dicho. Si me estás permitiendo inventar cosas, necesitas limitar mi creatividad.

¿Nada de números imaginarios? ¿De acuerdo, qué tal -100?

¿Oh, tiene que estar dentro del rango de alturas humanas reales? ¿Qué tal ese número 173.43355240… de antes?

¿Demasiados decimales porque los instrumentos de medición humanos no son tan sensibles? Bueno, ¿qué tal 173.5 cm?

Podríamos llamar a esto datos hechos a mano, ya que yo, un humano, los creé elaborando un ejemplo que me gusta.

Pero, ¿qué pasa si quisieras más de una nueva altura para tu conjunto de datos? ¿Y me dices que sea razonable y redondee mis elecciones al milímetro más cercano?

Bueno, podría dar: 173.5 cm, 182.4 cm, 175.1 cm, 190.2 cm, 180.1 cm

Todas estas son medidas humanas plausibles, pero están en el lado alto. Es probable que no representen bien tu población de interés. Están sesgados por mis ideas de cómo deberían ser las entradas en tu conjunto de datos. ¿Y qué sé yo sobre las alturas humanas de todos modos? Puedes hacerlo mejor.

Entonces hagámoslo mejor en la Parte 2, donde emprenderemos un viaje que abarcará:

  • datos duplicados
  • datos re-muestreados
  • datos bootstrap
  • datos aumentados
  • datos sobremuestreados
  • datos de casos límite
  • datos simulados
  • datos univariados
  • datos bivariados
  • datos multivariados
  • datos multimodales

O puedes echar un vistazo a una de mis otras guías de taxonomía de datos aquí:

¿Cuántos tipos de datos puedes nombrar?

Continuo, discreto, categórico, cardinal, secuencial… sigue adelante

towardsdatascience.com

Todo acerca de la procedencia de los datos

Datos obfuscados, datos heredados, datos exhaustivos y otros duendes

towardsdatascience.com

¡Gracias por leer! ¿Qué tal un curso en YouTube?

Si te has divertido aquí y estás buscando un curso de IA aplicada completo diseñado para ser divertido tanto para principiantes como para expertos, aquí tienes el que hice para tu entretenimiento:

Disfruta del curso en YouTube aquí .

P.D. ¿Alguna vez has intentado presionar el botón de aplauso aquí en Zepes más de una vez para ver qué sucede? ❤️

Todos los derechos de imagen pertenecen al autor.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Rendimiento de Apple M1 y M2 para entrenar modelos SSL

El número de referencias para entrenar modelos de ML utilizando los nuevos chips de Apple sigue siendo bajo. Además, ...

Inteligencia Artificial

Automatización de tareas de aprendizaje automático Cómo MLCopilot utiliza LLM para ayudar a los desarrolladores a optimizar los procesos de ML

Los modelos de aprendizaje automático se han demostrado como una herramienta poderosa para resolver tareas complejas,...

Inteligencia Artificial

Drones abordan la seguridad de los tiburones en las playas de Nueva York

Los funcionarios de seguridad en Jones Beach, Nueva York, están utilizando drones para monitorear posibles interaccio...

Inteligencia Artificial

Un lugar para el clustering de K-means

El Clustering K-Means es un algoritmo de aprendizaje no supervisado que nos ayuda a agrupar puntos de datos similares...

Inteligencia Artificial

Crea e implementa aplicaciones de inferencia de ML desde cero utilizando Amazon SageMaker

A medida que el aprendizaje automático (ML) se vuelve más popular y es cada vez más adoptado, las aplicaciones de inf...

Inteligencia Artificial

Dominar la migración a la nube Mejores prácticas para hacerla exitosa

No hay dos procesos de migración a la nube idénticos, ya que cada sistema tiene requisitos únicos. Para comenzar, ech...