El ataque del LLM a los modelos de regresión lineal
2026-06-10
El ataque del LLM a los modelos de regresión lineal
Durante la tutela de un Trabajo Fin de Grado de una alumna del grado de Gestión y Administración Pública, le sugerí que introdujera su tabla de datos en su LLM preferido, en este caso, ChatGPT, para que la ayudara con el análisis estadístico. Mi intención era sencilla: que la orientara hacia una estadística descriptiva básica.
¡Cuál fue mi sorpresa cuando la alumna me presentó dos páginas repletas de fórmulas, gráficos e interpretaciones de un modelo de regresión lineal múltiple! La tabla constaba de cinco filas (\(n = 5\)) y cinco columnas: la variable respuesta Y junto a otras cuatro magnitudes dicotómicas. El LLM había estimado e interpretado con todo lujo de detalle los coeficientes del modelo \(Y= b_{0} + b_{1} X_{1} + b_{2} X_{2} + b_{3} X_{3} + b_{4} X_{4}\) con apenas \(n = 5\), acompañándolo de preciosos gráficos que reflejaban la importancia de cada coeficiente.
La alumna estaba muy orgullosa de su análisis, y yo no pude más que felicitarla por su afán de ir más allá del cálculo de porcentajes y medias.
Cinco datos, cinco parámetros, un ajuste perfecto del 100\%: era un modelo saturado. Tuvimos que retirarlo todo.
El LLM respondió. La alumna copió. Y a mí me tocó resolver este desaguisado.