Top Herramientas/Startups de Datos Sintéticos para Modelos de Aprendizaje Automático en 2023

Las mejores herramientas/startups de datos sintéticos para modelos de aprendizaje automático en 2023

La información creada intencionalmente en lugar de ser el resultado de eventos reales se conoce como datos sintéticos. Los datos sintéticos se generan algorítmicamente y se utilizan para entrenar modelos de aprendizaje automático, validar modelos matemáticos y actuar como sustitutos de datos de producción de prueba o datos operativos para conjuntos de datos de prueba.

Las ventajas de utilizar datos sintéticos incluyen facilitar las restricciones al utilizar datos privados o controlados, ajustar los requisitos de datos a circunstancias específicas que no se pueden cumplir con datos precisos y producir conjuntos de datos para que los equipos de DevOps los utilicen en pruebas de software y aseguramiento de calidad.

Las limitaciones al intentar duplicar la complejidad del conjunto de datos original pueden generar discrepancias. Es imposible sustituir por completo los datos precisos porque aún se necesitan datos precisos y exactos para generar ejemplos sintéticos prácticos de la información.

¿Qué tan importante es la data sintética?

Para entrenar redes neuronales, los desarrolladores requieren conjuntos de datos vastos y meticulosamente anotados. Los modelos de IA suelen ser más precisos cuando tienen datos de entrenamiento más variados.

El problema es que recopilar e identificar conjuntos de datos que podrían incluir desde unos pocos miles hasta decenas de millones de elementos requiere mucho esfuerzo y muchas veces es costoso.

Ahora entra en juego la data falsa. Paul Walborsky, cofundador de uno de los primeros servicios especializados en datos sintéticos, AI.Reverie, piensa que una sola imagen que podría costar $6 en un servicio de etiquetado puede generarse sintéticamente por seis centavos.

Ahorrar dinero es solo el comienzo. Al garantizar que tenga la diversidad de datos para reflejar con precisión el mundo real, los datos sintéticos son esenciales para abordar problemas de privacidad y disminuir el sesgo, continuó Walborsky.

Los conjuntos de datos sintéticos a veces son superiores a los datos del mundo real, ya que están etiquetados automáticamente y pueden incluir intencionalmente situaciones inusuales pero críticas.

Lista de startups y empresas de datos sintéticos

Datagen

La empresa israelí Datagen fue fundada en 2018 y ha recaudado $22 millones, incluyendo $18.5 millones en una ronda de financiación de la Serie A en febrero que sirvió como la presentación formal de la empresa. Al centrarse principalmente en simulaciones visuales fotorrealistas y recreaciones del mundo natural, con experiencia evidente en el movimiento humano, Datagen se refiere a su sabor particular de datos sintéticos como “datos simulados”. Datagen utiliza redes generativas adversarias, un método de IA que se está volviendo cada vez más común, al igual que muchas otras empresas que trabajan con datos sintéticos (GANs). Es similar a una partida de ajedrez de computadora entre dos sistemas, pero uno genera datos ficticios mientras que el otro evalúa la veracidad del resultado. En un simulador físico, la empresa combina GANs con algo llamado técnicas de movimiento humano por aprendizaje por refuerzo y algoritmos de superrenderización para producir

Datagen se enfoca en varias industrias, incluyendo el comercio minorista, la robótica, la realidad aumentada y virtual, el Internet de las Cosas y los automóviles autónomos. Piense en la automatización minorista en forma de una ubicación de Amazon Go, donde un sistema de visión por computadora monitorea a los compradores para asegurarse de que nadie se vaya con descuentos indebidos.

Parallel Domain

La simulación de entornos para vehículos autónomos es quizás uno de los casos de uso más comunes en la actualidad. Esa es la principal línea de negocio de Parallel Domain, una startup del Silicon Valley que se estableció en 2017 y que ya hemos perfilado anteriormente. Desde entonces, la empresa ha recaudado alrededor de $13.9 millones, incluyendo una ronda de financiación de la Serie A de $11 millones a finales del año pasado. Toyota es probablemente su inversor y cliente más importante (TM). Para educar a los autos autónomos sobre cómo evitar matar a las personas, la empresa se concentra en algunos de los casos de uso más desafiantes para su plataforma de datos sintéticos. Su desarrollo más reciente, realizado en colaboración con el Instituto de Investigación de Toyota, enseña a los sistemas autónomos sobre la permanencia de los objetos utilizando datos sintéticos. Aunque la IA ahora puede rastrear objetos incluso cuando desaparecen temporalmente en parte gracias a Parallel Domain, los sistemas de percepción actuales siguen siendo como bebés jugando al cucú. Además, la empresa ha puesto a disposición del público su visualizador de datos para conjuntos de datos sintéticos de cámaras y LiDAR completamente anotados. La empresa ofrece datos de entrenamiento artificial para entregas de drones autónomos y conducción autónoma.

Mindtech

La empresa británica Mindtech, fundada en 2017, ha recaudado aproximadamente $6.5 millones. Una ronda de financiación inicial de $3.25 millones se completó el mes pasado. Uno de los inversores destacados es In-Q-Tel, una organización gubernamental de Estados Unidos que financia innovaciones con el potencial de ayudar a organizaciones como la CIA algún día. Así que ahí lo tienes. La herramienta modular Chameleon, desarrollada por Mindtech, permite a los usuarios crear al instante un número infinito de configuraciones y escenarios utilizando modelos tridimensionales fotorrealistas. Según la empresa, Chameleon está especialmente diseñado para ayudar a sus clientes a desarrollar sistemas de IA que “entiendan y predigan las interacciones humanas”. Junto con ofrecer servicios a agencias de espionaje, Mindtech también ofrece productos y servicios a las industrias minorista, domótica, atención médica, transporte y robótica.

Síntesis de IA

La startup de 2019, Síntesis de IA, recaudó $4.5 millones en una ronda de financiación semilla con iRobot (IRBT) en abril, probablemente para avanzar en sus aspiradoras robóticas para hogares inteligentes. Al igual que Datagen, Síntesis utiliza GANs con tecnología de imágenes generadas por computadora (CGI), empleada en casi todas las películas modernas, para construir humanos sintéticos. FaceAPI, la primera oferta de la compañía, permite a las empresas crear modelos faciales de IA más potentes para asistentes inteligentes, teleconferencias, monitoreo de conductores y verificación facial en teléfonos inteligentes. Para mejorar la capacidad de los modelos de IA para representar una variedad de tipos faciales, Síntesis de IA lanzó 40,000 modelos faciales 3D originales de alta resolución en junio.

Oneview

OneView es una startup israelí fundada en 2019 y recaudó $3.5 millones. El objetivo principal de la empresa es proporcionar datos artificiales a algoritmos de IA que generan inteligencia geográfica a partir de fotos de satélite y aéreas. Grandes partes del planeta, incluyendo ciudades, aeropuertos, puertos y otras estructuras, se ven con frecuencia en estas vistas. OneView utiliza datos reales del servicio de mapeo de datos de código abierto OpenStreetMap para crear el modelo base del conjunto de datos sintético. La empresa simplemente convierte una imagen 2D en una imagen 3D renderizada múltiples veces para replicar diversas situaciones, incluyendo objetos, clima, iluminación, etc. Puedes leer más sobre el proceso aquí.

MOSTLY AI

Las empresas pueden acceder, compartir, corregir y simular datos gracias a la plataforma de Datos Sintéticos de MOSTLY AI, líder en el mercado y más precisa. Gracias a los avances en IA, los datos sintéticos de MOSTLY AI tienen la misma apariencia y sensación que los datos reales, pueden mantener información importante a nivel granular y siempre garantizan que nadie esté expuesto.

YData

Al mejorar la calidad de los conjuntos de datos de entrenamiento, YData ofrece una plataforma centrada en los datos que acelera la creación y aumenta el retorno de inversión de las soluciones de IA. Los científicos de datos ahora pueden mejorar los conjuntos de datos utilizando la generación de datos sintéticos de vanguardia y el perfilado automatizado de calidad de datos.

Hazy

Hazy se destaca de la competencia al proporcionar modelos que pueden ofrecer datos sintéticos de alta calidad con un mecanismo de privacidad diferencial. En una base de datos relacional, los datos pueden ser tabulares, secuenciales (incluyendo eventos dependientes del tiempo, como transacciones bancarias) o distribuidos en múltiples tablas.

CVEDIA

CVEDIA, proveedor de soluciones de IA, crea “algoritmos sintéticos”: algoritmos de visión por computadora listos para usar que utilizan datos falsos. CVEDIA ofrece más de 10 opciones de implementación en hardware, nube y redes para sus algoritmos. SynCity, la tecnología de CVEDIA, fue creada utilizando ciencia de datos y teoría de aprendizaje profundo basada en su propio motor de simulación. La organización trabaja en las industrias de fabricación, aeroespacial, ciudades inteligentes, servicios públicos, infraestructura y seguridad.

SKY ENGINE AI

Machine Learning y Computer Vision de pila completa con la Plataforma de Generación de Datos para Científicos de Datos que permite la Transformación Empresarial de IA a gran escala.

La Plataforma SKY ENGINE AI permite construir modelos de IA ideales y personalizados desde el principio y entrenarlos en realidad virtual. Antes de implementarlos en el mundo real, su sensor, dron o robot pueden ser entrenados y probados en un entorno virtual utilizando el software SKY ENGINE AI.

Al proporcionar conjuntos de datos perfectamente equilibrados para aplicaciones de Visión por Computadora como detección y reconocimiento de objetos, posicionamiento 3D, estimación de pose y otros casos complejos como el análisis de datos de múltiples sensores como radares, lidars, satélites, rayos X, y más, la Generación de Datos Sintéticos de SKY ENGINE AI facilita la vida de los Científicos de Datos.

Edgecase.ai

Edgecase.ai es una fábrica de datos que trabaja con startups y empresas Fortune 500 para generar fotos y videos de entrenamiento de IA y anotar datos. Para entrenar a los algoritmos de visión y reconocimiento de video de IA más sofisticados y a los agentes de IA en los sectores de seguridad, comercio minorista, salud, agricultura, industria 4.0 y similares, la etiquetación de datos a gran escala es una necesidad fundamental que Edgecase.ai ayuda a abordar.

Statice

La tecnología moderna de privacidad de datos creada por Statice permite a las empresas aumentar la innovación basada en datos al tiempo que preservan la privacidad individual. Las empresas pueden producir datos sintéticos que preservan la privacidad y son compatibles con cualquier tipo de integración, procesamiento y difusión de datos gracias a las garantías de privacidad del programa de anonimización de datos de Statice. Con Statice, las empresas en los sectores financiero, de seguros y de atención médica pueden aumentar la agilidad de los datos y permitir la generación de valor en todo el ciclo de vida de los datos. Utiliza Statice para entrenar modelos de aprendizaje automático de manera segura, procesar tus datos en la nube y compartirlos con socios.

ANYVERSE

Una empresa española llamada ANYVERSE utiliza LiDAR, procesamiento de imágenes y datos brutos de sensores para producir conjuntos de datos sintéticos para el sector automovilístico. La solución de esta startup especifica cuántos ciclos de variación, datos del mundo real y canales de salida se deben utilizar para crear datos sintéticos. Esto permite que el entrenamiento de aprendizaje profundo para modelos de percepción sofisticados sea más sencillo para los fabricantes de equipos originales (OEM) y proveedores de automóviles.

La modelación de datos sintéticos proporciona una síntesis exacta del sistema objetivo completo del cliente utilizando casos límite sofisticados. Además, esto produce conjuntos de datos que cumplen con el GDPR y tienen un ligero sesgo de imagen. Esto permite a las empresas reducir los costosos procedimientos de recolección de datos y el entrenamiento rápido de modelos. Algunas startups ofrecen plataformas que permiten a los clientes especificar el sistema objetivo que desean utilizar para generar datos, lo que hace que los datos específicos del caso de uso sean más precisos y fácilmente accesibles.

Rendered.ai

En comparación con el uso o adquisición de datos del mundo real, Rendered.ai es la Plataforma como Servicio (PaaS) para científicos de datos, ingenieros de datos y desarrolladores que necesitan crear e implementar generación de datos sintéticos personalizados e ilimitados para flujos de trabajo de aprendizaje automático e inteligencia artificial. Esto reduce costos, cierra brechas y elimina preocupaciones de sesgo, seguridad y privacidad.

Al proporcionar un entorno colaborativo, muestras y recursos en la nube para comenzar de inmediato a definir nuevos canales de generación de datos, crear conjuntos de datos en entornos de computación de alto rendimiento y proporcionar herramientas para caracterizar y catalogar conjuntos de datos existentes y sintéticos, Rendered.ai acerca el proceso de creación y utilización de datos sintéticos a la necesidad empresarial.

Datomize

Los científicos de datos pueden mejorar significativamente el rendimiento de sus modelos de aprendizaje automático con Datomize. Dado que la falta de datos de alta calidad y el proceso intensivo en recursos de ingeniería de características son los principales obstáculos para crear modelos de aprendizaje automático de alto rendimiento, Datomize proporciona a los científicos de datos un suministro ilimitado de datos de calidad excepcional y variedad, al mismo tiempo que crea automáticamente un conjunto completo de características de vanguardia. La plataforma Datomize mejora los datos originales con datos sintéticos de calidad excepcionalmente alta, desarrolla automáticamente características que mejoran el rendimiento de los modelos de aprendizaje automático, completa los vacíos en los datos, equilibra los datos con una representación adecuada de cada clase para evitar modelos sesgados y permite la simulación de escenarios novedosos mediante la generación de datos basada en reglas.

Facteus

Facteus es una fuente de valiosos conocimientos financieros. Facteus transforma de manera segura los datos de transacciones financieras en bruto de tecnologías heredadas en información accionable que se puede utilizar para el aprendizaje automático, la inteligencia artificial, la monetización de datos y otros casos de uso estratégicos sin comprometer la privacidad de los datos mediante su innovador y patentado proceso de datos sintéticos. Los ejecutivos de negocios e inversiones ahora tienen acceso a la “verdad” de las transacciones financieras reales de los consumidores, no solo a patrones generales, gracias a los productos de datos de la compañía, que se han recopilado directamente de más de 1,000 instituciones financieras, proveedores de pagos, fintech y programas de tarjetas de débito.

Gretel

Gretel ofrece a los desarrolladores, científicos de datos e investigadores de IA/ML acceso seguro, rápido y sencillo a los datos sin sacrificar la precisión o la privacidad, resolviendo así el problema del cuello de botella de datos. Las API de Gretel fueron creadas por desarrolladores para desarrolladores, lo que facilita la creación de datos sintéticos anónimos y seguros para proteger su privacidad e innovar más rápidamente.

Synthesized

Synthesized tiene como objetivo facilitar y agilizar la creación y recuperación de datos de alta calidad. Gracias a una API, la compañía inventó la primera plataforma que genera mejores datos que los datos de producción en minutos. Los datos se automatizan utilizando configuraciones YAML sencillas e se integran rápidamente en flujos de trabajo de CI/CD, por lo que no se requieren ingenieros de software o datos. Sin configuraciones manuales, los equipos de control de calidad y de aprendizaje automático ahora pueden crear, validar y compartir de manera segura datos de alta calidad para pruebas de software, entrenamiento de modelos y análisis de datos.

Syntheticus

Debido a la gran tensión entre la privacidad de los datos y la utilidad de los datos, las empresas públicas y privadas están expuestas a grandes peligros al manejar datos sensibles. Para garantizar que las organizaciones utilicen al máximo su potencial de datos y cumplan totalmente con las normativas, Syntheticus ofrece una solución que utiliza el aprendizaje profundo de vanguardia para generar datos sintéticos en varios formatos de archivo.

Datos artificiales, privacidad de datos, aprendizaje profundo, GDPR, software como servicio, aprendizaje automático, inteligencia artificial (IA), computación en la nube, tecnología de privacidad, HIPAA, análisis de datos y Privacy Shield

Syntho

Con sede en Ámsterdam, Países Bajos, Syntho es una empresa de tecnología de datos con una sólida experiencia en tecnologías de mejora de privacidad (PET). Se formó en 2020 para superar el dilema de la privacidad y permitir la economía de datos abierta, donde los datos se pueden utilizar y compartir libremente y garantizar la privacidad. Para acceder a sus datos y disipar preocupaciones válidas sobre la privacidad, Syntho ofrece datos sintéticos que preservan la privacidad.

Tonic

Tonic permite a las empresas producir réplicas sintéticas seguras de sus datos para su uso en desarrollo y pruebas de software, capacitando a los desarrolladores al mismo tiempo que protegen la privacidad del consumidor. La empresa, fundada en 2018 y con sede en Atlanta y San Francisco, es líder en tecnologías empresariales para subconjuntos de bases de datos, desidentificación y síntesis. Los datos de Tonic se utilizan a diario por miles de desarrolladores en campos tan diversos como la atención médica, los servicios financieros, la logística, la educación tecnológica y el comercio electrónico para construir soluciones más rápidamente. Tonic desarrolla soluciones de vanguardia en colaboración con clientes como eBay, Flexport y PwC para promover los derechos individuales de privacidad al mismo tiempo que capacita a las empresas para que alcancen su máximo rendimiento.

Clearbox AI

Clearbox AI ofrece un producto llamado Enterprise Solution, basado en tecnología propia y alimentado por una combinación única de modelos generativos de IA que producen datos sintéticos estructurados de alta calidad.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Vuelva a entrenar los modelos de aprendizaje automático y automatice las predicciones por lotes en Amazon SageMaker Canvas utilizando conjuntos de datos actualizados.

Ahora puedes re-entrenar modelos de aprendizaje automático (ML) y automatizar flujos de trabajo de predicción en lote...

Inteligencia Artificial

Un nuevo estudio de investigación de IA de Stanford explica el papel de las expresiones de exceso de confianza e incertidumbre en los modelos de lenguaje

A medida que los sistemas de lenguaje natural se vuelven cada vez más prevalentes en escenarios reales, estos sistema...

Inteligencia Artificial

Gafas de realidad virtual para ratones crean escenarios inmersivos para la investigación cerebral

Investigadores de la Universidad Northwestern desarrollaron gafas de realidad virtual para ratones.

Inteligencia Artificial

Stability AI presenta SDXL Turbo un modelo de generación de texto a imagen en tiempo real

Stability AI presenta SDXL Turbo, que representa un avance notable en la síntesis de texto a imagen, impulsado por un...

Inteligencia Artificial

Acelerando la llegada de la energía de fusión con IA y accesibilidad

El Centro de Ciencia del Plasma y Fusión del MIT recibirá apoyo del Departamento de Energía para mejorar el acceso a ...