El ataque del LLM a los modelos de regresión lineal

2026-06-10

El ataque del LLM a los modelos de regresión lineal

Durante la tutela de un Trabajo Fin de Grado de una alumna del grado de Gestión y Administración Pública, le sugerí que introdujera su tabla de datos en su LLM preferido, en este caso, ChatGPT, para que la ayudara con el análisis estadístico. Mi intención era sencilla: que la orientara hacia una estadística descriptiva básica.

¡Cuál fue mi sorpresa cuando la alumna me presentó dos páginas repletas de fórmulas, gráficos e interpretaciones de un modelo de regresión lineal múltiple! La tabla constaba de cinco filas (\(n = 5\)) y cinco columnas: la variable respuesta Y junto a otras cuatro magnitudes dicotómicas. El LLM había estimado e interpretado con todo lujo de detalle los coeficientes del modelo \(Y= b_{0} + b_{1} X_{1} + b_{2} X_{2} + b_{3} X_{3} + b_{4} X_{4}\) con apenas \(n = 5\), acompañándolo de preciosos gráficos que reflejaban la importancia de cada coeficiente.

La alumna estaba muy orgullosa de su análisis, y yo no pude más que felicitarla por su afán de ir más allá del cálculo de porcentajes y medias.

Cinco datos, cinco parámetros, un ajuste perfecto del 100\%: era un modelo saturado. Tuvimos que retirarlo todo.

El LLM respondió. La alumna copió. Y a mí me tocó resolver este desaguisado.