Capitulo 7 Métodos basados en árboles (Jhan)

Las decisiones basadas en árboles se usan para problemas de regresión y de clasificación. Las decisiones basadas en árboles utilizan series de reglas de si y entonces para hacer predicciones y tomar decisiones basadas en uno o mas árboles. El objetivo de este procedimiento es estratificar, dividir, ramificar o segmentar los predictores en diferentes regiones simples. En resumen, podemoes tomar decisiones basadas en árboles utilziando reglas de remificación para segmentar los predictores simplificandoles en forma de árboles. Normalmente, estas decisiones son mucho mas sencillas de interpretar que otros métodos que hemos hablado anteriormente. En este capítulo, vamos hablar sobre tres métodos diferentes: bagging, bosques aleatorios y impulso o boosting en inglés.

7.1 Árboles de regresión

Cuando se ajustan los árboles de regresión, se usan una serie de reglas de ramificaciones comenzando dos la parte de arriba del árbol. Usualmente, para realizar este tipo de análisis, los árboles se dividen en regiones \(R_{1}\), \(R_{2}\),…,\(R_{j}\), estas áreas son conocidas como nodos terminales o hojas del árbol. Este tipo de árboles, se dibujan de arriba hacia abajo, esto quiere decir que las hojas del árbol están hacia abajo. Los puntos del árbol en donde los predictores se difurcan se conocen como nodos internos. Y los estos segmentos del árbol que conectan a los nodos por medio de ramas.

Para construir un árbol de regresión se hacen los siguientes dos pasos:

Se dividen los predictores en conjuntos de valores posibles para \(X_{1}\), \(X_{2}\),…,\(X_{p}\), en J regiones distintas que no se sobrelapan, \(R_{1}\), \(R_{2}\),…,\(R_{j}\).
Para cada observación que cae en la \(R_{j}\), hacemos la misma predicción, la cual es la media de la respuesta para las observaciones de entrenamiento en \(R_{j}\).

Del mismo modo, para contruir estos árboles, en teoría, las regiones pueden tomar cualquier forma. Sin embargo, podemos dividir los predictores en en cajas de altas dimensiones, esto para simplificar la interpretabilidad de los resultados del modelo. El objetivo de esto es encontrar las cajas \(R_{1}\),…,\(R_{j}\) que minimicen el RSS, esto está dado por

\[\sum_{j=1}^{J}\sum_{i\epsilon R_{j}}(y_{i}-\hat{y}_{R_{j}})^2\] Donde \(\hat{y}_{R_{j}}\) es la media de la respuesta para las observaciones de entrenamiento dentro de la jésima caja.

Desafortunadamente, es computacionalmente difícil considerar cada partición para cada una de las características de las J cajas. Por ello, se usa un enfoque de arriba hacia abaja y avaro, el cual se conoce como ramificación binaria recursiva. Se dice que es tiene un enfoque de arriba hacia abajo, porque comienza desde arriba del árbol raminifcando cada uno de los predictores, cada una de estas ramificación da origen a nuevas ramas más abajo en el árbol. Del mismo modo, se dice que es avaro, porque cada paso de la contrucción del árbol la mejor ramificación se hace en esa ramificación en lugar de mirar hacia adelante y elegir una ramificación que podría resultan en un mejor árbol en el futuro.

Introducción al uso de machine learning en biología

Capitulo 7 Métodos basados en árboles (Jhan)

7.1 Árboles de regresión

7.2 Decision trees

7.3 Boosting and bagging

7.3.1 lightGBM (Cristian)

7.3.2 XGboost (Cristian)