OpenAI demandado por autores por utilizar sus libros para entrenar a ChatGPT sin consentimiento
OpenAI demandado por autores por usar libros para entrenar ChatGPT sin consentimiento
Dos autores han presentado una demanda contra OpenAI, alegando que la compañía utilizó su trabajo para entrenar a ChatGPT. El problema radica en que sus libros estaban protegidos por derechos de autor y los autores afirman que OpenAI no obtuvo su consentimiento para utilizar su trabajo en el entrenamiento del LLM.
Los autores Paul Tremblay y Mona Award afirman que ChatGPT puede generar “resúmenes muy precisos” de sus obras según la demanda. Además, afirman que estos resúmenes solo eran posibles si ChatGPT había sido entrenado con sus obras, lo cual consideran una violación de la ley de derechos de autor.
Los abogados tanto de OpenAI como de los autores que presentaron la demanda no respondieron a las preguntas de CNBC. El método de entrenamiento de LLMs como ChatGPT consiste en entrenar con grandes cantidades de datos de texto obtenidos normalmente de rastrear internet, lo que incluye sitios como Wikipedia y libros archivados.
- Planifique su itinerario de viaje con ChatGPT
- Congelación de capas de un modelo de aprendizaje profundo – la forma correcta
- Modelo Segment Anything Modelo base para la segmentación de imágenes
La demanda, presentada en San Francisco, alega que “gran parte” del material utilizado en los datos de entrenamiento de OpenAI se basa en materiales protegidos por derechos de autor. Esto incluye, por supuesto, los libros de los dos autores. Sin embargo, hay un problema importante en el caso, que consiste en demostrar exactamente cómo y dónde ChatGPT obtuvo los datos para entrenar.
Por lo tanto, podría ser difícil mostrar pruebas de daño sin esta información. Hasta el momento, la demanda hace referencia a ejemplos de los resúmenes que ChatGPT pudo generar. También señala que el LLM comete errores en la información. Pero los dos autores afirman que la mayoría de los resúmenes son precisos, lo que, según su afirmación, significa que “ChatGPT retiene conocimiento de obras específicas en los datos de entrenamiento”.
La demanda continúa diciendo: “En ningún momento ChatGPT reprodujo ninguna de la información de gestión de derechos de autor que los demandantes incluyeron en sus obras publicadas”. Esta queja es bastante similar a la de los artistas. El año pasado, hubo una gran presión por parte de artistas que afirmaban que herramientas de IA como Stable Diffusion, DALL-E 2 y otras se entrenaron con sus obras de arte sin su consentimiento.
Tomará algún tiempo antes de que la demanda avance. Y cómo se decida en el tribunal podría cambiar la forma en que se entrenan los LLM en el futuro.
Nota del editor: ¿Estás listo para aprender sobre las últimas novedades en IA generativa? Únete a nosotros en la cumbre de IA generativa de un día. Ve más allá del bombo publicitario y sumérgete en esta tecnología de vanguardia. Regístrate ahora de forma gratuita y desbloquea el poder de la IA generativa.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 50 principales preguntas de entrevista de Google para roles de Ciencia de Datos
- Guía de un científico de datos de Spotify para convertir tus ideas en acciones impactantes
- Cómo *no* obtener modelos de aprendizaje automático en producción
- Las Complejidades y Desafíos de Integrar LLMs en Aplicaciones
- 9 puntos clave de Cómo convertirse en un científico de datos por Adam Ross Nelson
- ¿Cómo afectará la IA al papel de los profesionales de datos?
- Nuevos investigadores de Microsoft presentan el modelo de lenguaje multimodal de gran tamaño KOSMOS-2