Capitulo 5 Métodos de remuestreo
Los métodos de remuestreo son de las herramientas más valiosas en la estadística moderna, dado que esta elije muestras del set de prueba y reajustando el modelo de interés de cada muestra con el fin de obtener información adicional sonre el modelo que ajustamos que de otro modo no estaría disponible con solo ajustar el modelo una vez usando las datos de entrenamiento. En este capítulo hablaremos sobre dos de los métodos de remuestreo más usados, validación cruzada y arranque/bootstrap. Normalmente usamos validación cruzada para estimar el erros de prueba asociado a un método de aprendizaje estadístico particular o para elegirr el nivel apropiado de flexibilidad. Mientras que bootstrap ayuda obtener una medida de precisión de los parámetros estimados o de un método de aprendizaje estadístico particular. Estos dos métodos estiman predicciones de error par los set de prueba, para la desviación estándar y el sesgo de los estimados de nuestros parámetros.
5.1 Validación cruzada
Antes de comenzar, recordemos un par de conceptos que vamos usar exhaustivamente a lo largo de este capítulo. El error de prueba es el error promedio que resulta de usar uno de los métodos de aprendizaje estadístico para predecir la respuesta en una nueva observación, uno que no fue usada en el método de entrenamiento. Por otro lado, el error de entrenamiento se puede calcular aplicando el método de aprendizaje estadístico sobre las observaciones usadas en su entrenamiento. Nota: el error de entrenamiento usualmente sobreestima el error de prueba.
5.1.1 Conjunto de validación
Al momento de estimar nuestro error de prueba asociado con el ajuste de nuestro método estadístico de interés en un conjuntos de observaciones, podemos separar nuestras observaciones en un un conjunto de entrenamiento y un conjunto de validación. En donde el modelo se ajusta utilizando el set de entrenamiento, y el modelo ajustado se usa para predecir la respuesta para las observaciones del conjunto de validación. El resultado de error del conjunto de validación nos da un estimado del error de prueba. Normalmente, esto se evalúa utilizando MSE en el caso de una respuesta cuantitativa y una tasa de clasificación errónea en el caso de una respuesta cualitativa (discreta). Aunque este método es ampliamente utilizado, hay algunas debilidades que tenemos que tener en cuenta:
- El estimado de validación del error de prubea puede ser altamente variable, lo cual depende de qué observaciones son incluídas en el set de entrenamiento y cuales son incluídas en el conjunto de validación.
- En este método solo se incluye un subconjunto de las observaciones, las cuales se utilizan para ajustar el modelo.
- El error del set de validación usualmente tiende a sobreestimar el error de prueba para el modelo que se ajusta para todo el set de datos.
5.1.2 Validación cruzada dejando un elemento fuera (LOOCV)
La validación cruzada dejando un elemento fuera (LOOCV por sus siglas en inglés, leave-one-out cross-validation) es muy similar al conjunto de validación, pero trata de resolver la resolver las debilidades que este tiene. Este tipo de validación cruzada solo usamos una sola observación \((x_{1}, y_{1})\) para el set de validación, y el resto de observaciones \({(x_{2}, y_{2}),...,(x_{n}, y_{n})}\) se usan para el set de entrenamiento. Dado que \((x_{1}, y_{1})\) no fue usada para ajustar el proceso, \(MSE_{1} = (y_{1} - \hat{y_{1}})^{2}\) provee una aproximación del estimado no sesgado para el error de prueba. No obstante, \(MSE_{1}\) es un estimado muy variable, dado que estimado apartir de una sola observación \((x_{1}, y_{1})\). El estimado de LOOCV para el MSE de prueba es el promedio de los n estimados del error de prueba
\[CV_{n} = \frac{1}{n}\sum_{i=1}^{n}(\frac{y_{i} - \hat{y_{i}}}{1 - h_{i}})^{2}\] En donde, \(\hat{y_{i}}\) es el ith valor ajustado usando el justo original de mínimos cuadrados, y hth es el apalancamiento (leverage). Nota: esto es como un MSE ordinario, excepto que contiene el residual ith dividido por \(1-h_{i}\). Aunque LOOCV ha demostrado ser un método muy útil para hacer remuestreo, pero cada interación está correlacionada, lo cual hace que media tenga una varianza muy alta. No obstante, existe otro método que podemos usar para evitar esto, validación cruzada de K-iteraciones.
5.1.3 Validación cruzada de K-iteraciones (k-fold CV)
La validación cruzada de K-iteraciones es un método alternativo al LOOCV. En el k-fold CV se hacen divisiones aleatorias del set de observaciones para formar k grupos, o iteraciones, que son casi del mismo tamaño. La primera iteración es tomada como el set de validación, y el método se ajusta usando el resto de iteraciones \(k - 1\). Dado que este proceso requiere varias iteraciones, cada que se corre una iteració, k estima el error de prueba, \(MSE_{1}, MSE_{2},...,MSE_{k}\). Para computar el k-fold CV utilizamos la siguiente formula.
\[CV_{k} = \frac{1}{k}\sum_{i=1}^{k}MSE_{i}\] Cuando vamos a correr este método usalmente utilizamos un \(k = 5\) o \(k = 10\), esto hace que sea muy sencillo de correr en cualquier método de aprendizaje estadístico, dado que la validación cruzada solo va a correr 5 o 10 veces.
5.1.4 Sesgo y varianza para validación cruzada de K-interaciones
Una de las principales ventajas del k-fold CV es que puede estimar con mayor precisión el error de prueba que el LOOCV, esto se debe a la relación de costo y beneficio con respecto al sesgo y la varianza. Dado que el k-fold CV utiliza un \(k = 5\) o un \(k = 10\), el valor del sesgo es usualmente intermadio, debido a que cada set de entrenamiento contiene \((k-1)n/k\) observaciones. No obstante, esto causa que el estimado de predicción del error tenga un sesgo así arriba -tiende a aumentar-, pero el sesgo disminuye cuando \(K = n\) (LOOCV), sin embargo, este estimado tiene una alta varianza. Por esto, utilizar un \(k = 5\) o un \(k = 10\) provee un buen compromiso para la relación costo-beneficio de sesgo y varianza, dado que los estimaddos para la tasa de error de prueba no sufren de sesgo ni de varianza alta.
5.1.5 Validación cruzada en problemas de clasificación
La validación cruzada también puede ser usada en problemas de clasifición, cuando Y es cualitativa en lugar de cuantitativa. A diferencia de como vimos antes, el error de prueba en este caso es el número de clasificaciones erróneas. Para el caso de LOOCV, la tasa de error se denota como
\[CV_{k} = \frac{1}{n}\sum_{i=1}^{n}Err_{i}\] Donde \(Err_{i} = I(y_{i} \neq \hat{y_{i}})\). El error para k-fold CV y el error para el set de validación son definidos análogamente.
5.2 Boopstrap (o arranque)
Bootstrap o arranque es uno de los métodos de remuestreo mas aplicados, dado que puede usarse para cuantificar la incertidumbre que está asociada a uno estimado en particular o a un método de aprendizaje estadístico. Este método es especialmente útil cuando se necesita medir la variabilidad de un estimado cuando este es muy difícil de obtener usando otro método o no cuando el resultado no se estima por defecto en el programa estadístico que estamos usando. Usualmente, boopstrap se usa para minimizar \(Var(\alpha X + (1 - \alpha) Y)\), donde \(\alpha\) se estima como,
\[\alpha = \frac{\alpha_{Y}^{2} - \alpha_{XY}}{\alpha_{X}^{2} + \alpha_{Y}^{2} - 2\alpha_{XY}}\],
Donde, \(\alpha_{X}^{2} = Var(X)\), \(\alpha_{Y}^{2} = Var(Y)\), y \(\alpha_{XY} = Cov(X, Y)\).
Como hemos visto antes, usualmente las cantidades \(\alpha_{X}^{2}\), \(\alpha_{Y}^{2}\), y \(\alpha_{XY}\) son desconocidas, por tanto debemos cuantificar los estimados, los cuales se representan como, \(\hat{\alpha}_{X}^{2}\), \(\hat{\alpha}_{Y}^{2}\), y \(\hat{\alpha}_{XY}\), por lo tanto, nuestra ecuación se representaría como,
\[\hat{\alpha} = \frac{\hat{\alpha}_{Y}^{2} - \hat{\alpha}_{XY}}{\hat{\alpha}_{X}^{2} + \hat{\alpha}_{Y}^{2} – 2\hat{\alpha}_{XY}}\].
Una de las ventajas de usar bootstrap es que podemos computar -emular- el proceso que estamos corriendo para obtener nuestras muestra que podemos utilizar para estimar la variabilidad de \(\hat{\alpha}\) sin necesidad de general muestras adicionales. En otras palabras, lo que se hace es que, en lugar de obtener muestras independientes de la población, obtenemos conjuntos de datos diferentes por medio de repetir las observaciones que ya se tienen para el grupo de datos original con un reemplazo. Cada uno de estos grupos de Bootstrap es creado por medio del muestreo con reemplazos, el cual es del mismo tamaño del conjunto de datos original. Como resultado, algunas de las observaciones aparecen mas de una vez en un conjunto de datos de bootstrap o puede que no aparezcan en ninguno.
Para estimar el error estándar en estos conjuntos de Bootstrap, tenemos que cada conjunto se denota como \(Z^{*1}\), por lo tanto, \(\alpha\) se denotaría como \(\hat{\alpha^{*1}}\). Igualmente, este procedimiento puede ser repetido \(B\) veces. Si tenemos \(B\) conjuntos de bootstrap, entonces cada conjunto se denotaría como, \(Z^{*1}\), \(Z^{*2}\),…\(Z^{*B}\), y \(B\), y los estimados de \(\alpha\) serían \(\hat{\alpha}^{*1}\), \(\hat{\alpha}^{*2}\),…, \(\hat{\alpha}^{*B}\). Con esto, podemos estimar el error estándar de este boopstrap usando la siguiente formula
\[SE_{B}(\hat{\alpha}) = \sqrt{\frac{1}{B - 1}\sum_{r=1}^{B}(\hat{\alpha}^{*r} - \overline{\hat{\alpha}}^{*})^2}\].
A su vez, esta ecuación sirve para estimar el error estándar de \(\hat{\alpha}\) estimado del conjunto de datos original.
5.2.1 Otros usos del bootstrap
En algunas ocasiones utilizar Bootstrap requiere pensar un poco, este es el caso para series de tiempo. Cuando se tienen series de tiempo no podemos muestrear las observaciones con reemplazos, por eso lo que se hace es crear bloques consecutivos de observaciones y muestrear esos reemplazos. Luego de esto, se pegan juntos esto bloque de muestras para obtener el conjunto de datos de Bootstrap.
Como discutimos previamente, podemos usar bootstrap para calcular el error estándar de un estimado. Igualmente, podemos calcular el intérvalo de confianza del porcentil del boostrap para un estimado/parámetro.
5.2.2 Pre-validación
El proceso de pre-validación puede ser usada para comparar dos conjuntos de predictores. La pre-validación se diseñó para comparar predictores derivados adaptativamente con predictores fijos y predefinidos. Esto, con el fin de formar una versió pre-validada de los predictores adaptativos. Paricularmente, una versión más fiel que no se ha visto en la respuesta \(y\).
Creo que acá podemos hacer algo parecido a lo que hacen en las diapositvas mostrando el proceso de como se hace la prevalidacion y poner un ejemplo
5.2.3 Bootstrap versus permutaciones
Muchas personas tienden a confundir bootstrap con pruebas de permutación, sin embargo, estas tienen ciertas diferencias. Las muestras del bootstrap son estimados apartir de la población y usa los resultados para estimar el error estándar y el intérvalo de confianza. Mientras que el método de permutación muestrea de un estimado de distribución nulo de kis datos, y se usa para estimar el valor-p y Tasas de descubrimiento falso para pruebas de hipótesis.
Igualmente, podemos usar bootstrap para probar hipótesis nulas en situaciones simples, por ejemplo, si \(\theta = 0\) es la hipótesis nula, podemos verificar si el intérvalo de confianza de \(\theta\) contiene cero. A la vez, podemos adaptar bootstrap para una distribución nula simple, pero no hay una ventaja significativa sobre el método de permutación en este caso.