La profundidad de los métodos del gradiente extremo
2025-08-16
La profundidad de los métodos del gradiente extremo
El muy sensato José Luis Cañadas nos brinda últimamente con sabias reflexiones sobre cómo modelar datos que los adanistas científicos de datos desconocen. En una de ellas, Sin sentidos, incide en la importancia de conocer el concepto de interacción entre factores.
Por ejemplo, se desea determinar el efecto de un nuevo tipo de fertilizante y diferentes niveles de riego en el rendimiento de un cultivo de maíz: se puede estudiar cada factor (fertilizante, riego) por separado, pero también resulta interesante si la combinación de ambos produce un efecto sinérgico o antagónico. Se podrían considerar más factores: acidez del suelo, temperatura, densidad de cultivo, horas de luz, fungicidas, etc.
José Luis Cañadas finaliza esa entrada indicando que «[el científico de datos] no sabe qué es una interacción (aunque usen constantemente xgboost, que es una glorificación de la interacción)».
He tirado de https://lmarena.ai/ para desarrollar cómo aplica la interacción el método del gradiente extremo. Como se basa en árboles de decisión, en cada división se emplea distinta variable, lo que conlleva una natural interacción en los sucesivos niveles del árbol. La profundidad máxima de los árboles determina el nivel de interacción. Si se opta por una profundidad elevada, resulta un sobreajuste y ese modelo no sirve.
A mí me gusta comprender el significado a la interacción. ¿Tiene sentido o explicabilidad interacciones de orden elevado? Normalmente con una interacción de orden dos o tres ya resulta más que de sobra para detectar las principales causas de variabilidad.