Aprendizaje automático con efectos mixtos para datos longitudinales y de panel con GPBoost (Parte III)

Aprendizaje automático con GPBoost para datos longitudinales y de panel (Parte III)

Una demostración de GPBoost en Python y R utilizando datos del mundo real

Ilustración de datos longitudinales: gráficos de series temporales para diferentes sujetos (idcode) - Imagen del autor

En la Parte I y Parte II de esta serie, mostramos cómo se pueden utilizar efectos aleatorios para modelar variables categóricas de alta cardinalidad en modelos de aprendizaje automático, y dimos una introducción a la biblioteca GPBoost que implementa el algoritmo GPBoost que combina el impulso de árbol con efectos aleatorios. En este artículo, demostramos cómo se pueden utilizar los paquetes de Python y R de la biblioteca GPBoost para datos longitudinales (también conocidos como medidas repetidas o datos de panel). Puede ser útil leer primero la Parte II de esta serie, ya que brinda una primera introducción a la biblioteca GPBoost. En esta demostración se utiliza la versión 1.2.1 de GPBoost.

Tabla de contenidos

∘ 1 Datos: descripción, carga y división de muestra∘ 2 Opciones de modelado para datos longitudinales en GPBoost · · 2.1 Efectos aleatorios agrupados por sujeto · · 2.2 Solo efectos fijos · · 2.3 Efectos aleatorios agrupados por sujeto y tiempo · · 2.4 Efectos aleatorios por sujeto con pendientes aleatorias temporales · · 2.5 Modelos AR(1) / de proceso gaussiano específicos por sujeto · · 2.6 Efectos aleatorios agrupados por sujeto y modelo AR(1) conjunto∘ 3 Entrenamiento de un modelo GPBoost∘ 4 Selección de parámetros de ajuste∘ 5 Predicción∘ 6 Conclusión y referencias

1 Datos: descripción, carga y división de muestra

Los datos utilizados en esta demostración son los datos salariales que ya se utilizaron en la Parte II. Se pueden descargar desde aquí. El conjunto de datos contiene un total de 28,013 muestras para 4,711 personas para las cuales se midieron los datos durante varios años. Estos datos se llaman datos longitudinales o datos de panel, ya que para cada sujeto (ID de persona = idcode), se recopilaron datos repetidamente a lo largo del tiempo (años = t). En otras palabras, las muestras para cada nivel de la variable categórica idcode son mediciones repetidas a lo largo del tiempo. La variable de respuesta es el salario real logarítmico (ln_wage), y los datos incluyen varias variables predictoras como edad, trabajo total…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Sam Altman despedido como CEO de OpenAI

En un giro sorprendente de los acontecimientos, OpenAI, el principal laboratorio de investigación en inteligencia art...

Inteligencia Artificial

Investigadores de Stanford proponen 'EquivAct' Un avance en el aprendizaje de robots para generalizar tareas en diferentes escalas y orientaciones

Los seres humanos pueden extrapolar y aprender a resolver variaciones de una tarea de manipulación si los objetos inv...

Aprendizaje Automático

Conoce Video-ControlNet Un nuevo modelo de difusión de texto a video que cambiará el juego y dará forma al futuro de la generación de video controlable.

En los últimos años, ha habido un rápido desarrollo en la generación de contenido visual basado en texto. Entrenados ...

Inteligencia Artificial

La IA podría introducir mensajes secretos en memes

Los científicos de la computación afirman haber creado el primer algoritmo para ocultar mensajes de manera invisible ...

Inteligencia Artificial

El Bucle de Retroalimentación de la IA Manteniendo la Calidad de Producción del Modelo en la Era del Contenido Generado por IA

Explora cómo el bucle de retroalimentación de IA puede ayudar a mantener la calidad del modelo, mejorar la eficiencia...