Capitulo 4 Clasificaciones

En muchas situaciones de la vida real, la variable respuesta es cualitativa en lugar de cuantitativa, también llamadas variables categóricas. Las clasificaciones son la manera por la cual se pueden predecir la respuesta de las variables cualitativas. Hay que tener un par de cosas en cuenta con respecto a la clasificación. La primera es que clasificar se refiere a predecir la respuesta de una variable cuantitativa para una observación, es decir, estamos clasificando esa observación a la cual se le asigna una categoría o clase, y la segunda, los métodos de clasificación predicen la probabilidad de cada categoría de una variable cualitativa. En este capitulo vamos a discutir tres métodos de clasificación: regresión logística, análisis discriminante lineal y el k-vecinos más cercanos.

Independientemente de cuál de estos tres métodos utilicemos, para las clasificaciones también tenemos un set de observaciones de entrenamientos \((x_{1}, y_{1})\),…,\((x_{n}, y_{n})\), las cuales se usan para construir el clasificador. Lo que buscamos es que nuestro clasificador sea bueno para clasificar los datos de entrenamiento, al igual que en las observaciones de prueba que no fueron usadas para entrenar el clasificador.

4.1 Regresión logística

Los modelos de regresión logística modelas la probabilidad de que Y pertenezca a una categoría en particular. Pero cómo se modela la relación entre \(p(X) = Pr(Y = 1|X)\) y Y. Para encontrar estas probabilidades podemos usar un modelo de regresión lineal.

\[p(X) = β_{0} + β_{1}X\]

No obstante, al utilizar esta ecuación, podemos obtener resultados mayores que 1 y menores que 0, por la tanto, las probabilidades deben de caer entre 0 y 1. Para evitar que \(P(X) < 0\) para algunos valores de X y \(P(X) < 1\) para otros valores X, debemos modelar nuestra ecuación para que nuestros resultados caigan entre 0 y 1 para todos los valores de X. En regresiones logísticas, utilizamos la función logística, la cual está dada por

\[P(X) = \frac{e^{ β_{0} + β_{1}X }}{1 + e^{ β_{0} + β_{1}X }}\]

Para poder ajustar el modelo, utilizamos algo llamado método de máxima verosimilitud. Cuando graficamos la función logística en un plano, vamos a encontrar que va a dar una curva en forma de S.

La ecuación puede ser simplificada de la siguiente manera

\[\frac{P(X)}{1 – P(X)} = e^{ β_{0} + β_{1}X }\]

La cantidad dada por \(p(X)/[1 – p(X)]\) es conocida como posibilidades, y puede tomar valores entre \(0\) e \(\infty\). Valores de posibilidades hacer de \(0\) e \(\infty\) indica muy bajas o muy altas probabilidades, respectivamente. Si aplicamos logaritmo a ambos lados de la ecuación tendremos que

\[log(\frac{P(X)}{1 – p(X)} = β_{0} + β_{1}X)\]

La parte de la izquierda esta ecuación es conocida como función logit, log-odds o logit, que es básicamente la transformación de \(p(X)\). En los modelos de regresión logística, el incremento de una unidad de X cambia los log-odds por \(β_{1}\), esto también se puede ver como la multiplicación de las posibilidades por \(e^{β_{1}}\). Note: dado que la relación entre \(p(X)\) y \(X\) no es una línea recta, \(β_{1}\) no corresponde al cambio de \(p(X)\) asociado con el incremento en una unidad en \(X\).

4.1.1 Estimación de coeficiente en regresiones logísticas

Para el caso de las regesiones logísticas, los coeficientes \(β_{0}\) y \(β_{1}\) son desconocidos, así que los tenemos que estimar utilizando el set de datos de entrenamiento. Para esto utilizamos un método conocido como máxima verosimilitud. Este método busca encontrar un \(\hat{β_{0}}\) y un \(\hat{β_{1}}\) que al ser momento de ser incluidos en el modelo para \(p(X)\) de como resultado números entre 0 y 1. La ecuación de la función de la verosimilitud está dada por

\[l(β_{0}, β_{1}) = \prod_{i:y_{1} = 1}p(X) \prod_{i’:y_{i’=0}}(1-p(x_{i’}))\]

En donde los \(β_{0}\) y \(β_{1}\) que se van a elegir son aquellos que maximicen la función de la verosimilitud de los datos observados. La ecuación anterior, nos da la probabilidad de observador 0 y 1 en nuestros datos.

Al igual como ya lo hemos visto en los otros modelos, para el caso de la regresión logística, podemos medir que tan precisa fue la estimación de los coeficientes por medio del error estándar. Para ello, utilizamos el estadístico z. Para el caso del estadístico z, tenemos que está asociado con \(β_{1}\) lo cual es igual a \(\hat{β_{1}}/SE(\hat{β_{1}})\). Con esto, podemos decir que un valor grande de z es evidencia en contra de la hipótesis nula \(H_{0}: β_{1}=0\), esto implicaría que la hipótesis nula es \(p(X)=\frac{e^{β_{0}}}{1+ e^{β_{0}}}\).

4.1.2 Regresiones logísticas múltiples y para >2 clases de respuestas

Para el caso de las regresiones logísticas, estas se pueden utilizar para predecir problemas de variables binarias usan múltiples predictores. Para ello, usamos la siguiente ecuación

\[log(\frac{p(X)}{1-p(X)}) = β_{0} + β_{1}X_{1} +…+ β_{p}X_{p}\]

Donde \(X = (X_{1},…,X_{p})\) indican una cantidad p de predictores. Esta ecuación se puede reescribir como

\[p(X) = \frac{e^{ β_{0} + β_{1}X_{1}+…++ β_{p}X_{p}}}{1+ e^{β_{0} + β_{1}X_{1}+…++ β_{p}X_{p}}}\]

En este caso, utilizamos el método de máxima verosimilitud para estimar \(β_{0}\), \(β_{1}\),…, \(β_{p}\).

Para poder explicar más a detalle esta sección, nos toca utilizar ejemplos, en especial para explicar lo de variables de confusión (confounding variables).

Por otro lado, a veces necesitamos clasificar una variable respuesta que tiene mas de dos clases. Para esto usualmente usamos el análisis discriminante lineal.

4.2 Análisis discriminante lineal

El análisis discriminante lineal (LDA por sus siglas en inglés, Linear Discriminant Analysis) es un método que busca determinar a qué grupo pertenece un individuo. Es decir, nosotros modelamos la distribución de los predictores X separadamente en cada una de las clases respuesta (Y), y luego usamos el teorema de Bayes para encontrar lo estimados para \(Pr(Y = k|X=x)\). Cuando se asume una distribución normal, este modelo se comparta de una manera similar a la regresión logística.

4.2.1 Teorema de Bayes para las clasificaciones

Cuando queremos clasificar una observación en una de las K clases, donde \(K \ge 2\). Es decir, la respuesta categórica de la variable Y puede tomar K valores distintos.

La función de densidad de X nos ayuda a encontrar cuando una observación es de la clase kth, esta se denota como \(f_{k}(X) ≡ Pr(X = x|Y = k)\). Esto quiere decir que si \(f_{k}(x)\) es relativamente grande, la probabilidad de que uno observación pertenezca a clase kth es \(X ≈ x\), es decir, es alta. Por otro lado, si \(f_{k}(x)\) es bajo, la probabilidad de que kth sea \(X ≈ x\) es baja también. Por esto, el Teorema de Bayes dice que

\[Pr(Y = k|X = x) = \frac{\pi_{k}f_{k}(x)}{\sum_{l=1}^{K}f_{l}(x)}\]

En donde \({\pi_{k}}\) representa la probabilidad a priori de observar una observación elegida al azar que provenga de kth. \({\pi_{k}}\) puede estimarse fácilmente si tenemos una muestra aleatoria de Ys de la población.

Nota: Nos referimos a \(p_{k}(x)\) como la probabilidad posterior de una observación de \(X = x\) de pertenecer a la clase \(k\)th. Esto quiere decir la probabilidad de que la observación pertenezca a la clase \(k\)th \(dada\) el valor del predictor para esa observación

4.2.2 Análisis discriminante lineal para \(p = 1\)

Asumamos que solo tenemos un predictor, es decir, \(p = 1\). Para obtener un estimado de \(f_{k}(x)\) usamos la ecuación anterior para poder estimar \(p_{k}(x)\). Lo que buscamos es clasificar una observación a la clase en la cual \(p_{k}(x)\) es mas alto. Asumamos de nuevo \(f_{k}(x)\) es normal o Gausiana. Con un solo estimador, la densidad normal toma la forma de

\[f_{k}(x) = \frac{1}{\sqrt{2\pi}\delta_{k}}exp(-\frac{1}{2\delta_{k}^{2}}(x-\mu_{k})^2)\] Donde \(\mu_{k}\) y \(\delta_{k}^{2}\) son la media y la varianza de los parámetros para las kth clases. Asumamos que la varianza esta compartida entre todas las K clases, es decir, \(\delta_{1}^{2} = …=\delta_{1}^{K}\), lo cual se puede denotar como \(\delta^{2}\), ahora reemplacemos algunos términos de las dos ecuaciones anteriores

\[p_{k}(x) = \frac{\pi_{k}\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{1}{2\delta^{2}}(x-\mu_{k})^2)}{\sum_{l=1}^{K}\pi_{l}\frac{1}{\sqrt{2\pi}\delta}exp(-\frac{1}{2\delta^{2}}(x-\mu_{l})^2)}\] Esta ecuación puede ser simplificada y cancelaciones, pero primero debemos tener en cuenta que para clasificar el valor de \(X = x\), neces itamos encontrar la clases donde la función \(p_{k}(X)\) sea mayor. Ahora, apliquemos logaritmos, simplifiquemos y cancelemos algunos términos que no depende de k de la ecuación anterior. Con esto podemos ver que es equivalente a asignar x a la clase con el puntaje discrimante más alto

\[\delta_{k}(x) = x ⋅ \frac{\mu_{k}}{\delta^{2}} - \frac{\mu_{k}^{2}}{2\delta^{2}} + log(\pi_{k})\] Aquí podemos notar que \(\delta_{k}(x)\) es una función linear de x. Además, si hay \(K = 2\) clases y \(\pi_{1} = \pi_{2} = 0.5\), podemos decir que el límite de decisión es

\[x = \frac{\mu_{1} + \mu_{2}}{2}\] En la práctica, no sabemos cual es el valor de algunos parámetros, (\(\mu_{K}\), \(\pi_{k}\), \(\delta^{2}\)), pero tenemos los datos de entrenamiento, los cuales podemos usar para estimar esos parametros. Las ecuaciones para estimar esos parámetros estas dadas por las siguiente escuaciones, comenzando con la media

\[\hat\mu_{k} = \frac{1}{n_{k}} \sum_{i:y_{i} = k}x_{i}\] \(\hat\pi_{k}\), la cual es la probabilidad a priori de que una observación pertenezca a la kth clase, está dada por

\[\hat\pi_{k} = \frac{n_{k}}{n}\] La varianza está dada por

\[\hat\delta_{k} = \sum_{k=1}^{K}\frac{n_{k} - 1}{n - K} ⋅ \hat\delta_{k}^{2}\] Para estas tres ecuaciones, n denota el número total de observaciones de entrenamiento y \(n_{k}\) el número de observaciones de entrenamiento en la clase kth.

4.2.3 Análisis discriminante lineal para \(p > 1\)

Ahora, asumamos que nuestro clasificador LDA tiene multiples predictores. Para esto tendríamos que asumir que \(X = (X_{1}, X_{2},...,X_{p})\) tiene una distribución Gausiana multiple, con una media vectorial para una clase específica y una matriz de covarianza común. Nota: la distribució Gausiana multivariada asume que cada predictor individual tiene una distribución normal unidimensional con algún grado de correlación entre pares de predictores. La densidad Gausiana mulvariada se define como

\[f(x) = \frac{1}{(2\pi)^{p/2}|\sum|^{1/2}}exp(-\frac{1}{2}(x - \mu)^{T}\sum^{-1}(x - \mu))\] Para esto caso, se asume que el clasificador LDA escoje una observación de la clase kth de una distribució Gausiana multivariada \(N(\mu_{k}, \sum)\), donde \(\mu_{k}\) es el vector de una media clase específica, y \(\sum\) es una matriz de covarianza que es común para todas las clases K. La función discriminante cuando \(p > 1\) se denota como

\[\delta_{k}(X) = x^{T}\sum^{-1}\mu_{k}-\frac{1}{2}\mu_{k}^{T}\sum^{-1}\mu_{k} + log\pi_{k}\] Al igual que en otros clasificadores, tenemos que estimar los parámetrros que son desconocidos \(\mu_{1},...,\mu_{k}\), \(\pi_{1},...,\pi_{k}\), \(\sum\)), las formulas para hallar estos parámetros son parecidas a las que vimos anteriormente para LDA de un solo predictor. Asimismo, para el caso de LDA buscamos que el modelo tengo una tasa de error baja al momento de clasificar, sin embargo, hay un par de salvedades

  • Los erros de entrenamiento usualmente van a ser más bajo que los erros de prueba. En otras palabras, entre más alta seta se la relación de los parámetros p con el número de muestras n, más posibilidad hay de que el sobreajuste tenga un rol en el error.
  • El clasifcador nulo va a tener una tasa de error que solo es un poquito más alta que la tasa de error del set de entrenamiento de LDA.

Cuando estamos corriendo nuestro LDA nos podemos encontrar con dos tipos de error:

  • Falso positivo: que son la fracción de ejemplos negativos que fueron clasificados como positivos.
  • Falso negativo: que son la fracción de ejemplos positivos que fueron clasificados como negativos.

Durante nuestro análisis de LDA lo que queremos es reducir la tasa del error lo más posible, para esto buscamos encontrar el punto en el cual el error general, el de falsos negativos y el de falsos positivos sea el más bajo.

Una de las gráficas más populares para visualizar dos tipos de errores al mismo tiempo en la curva ROC (por sus siglas en inglés, receiver operating characterictics). Con esta podemos ver qué efectivo ha isdo nuestor clasificador, el cual resume todos los posibles umbrales, en una parte de la curva conocida como area bajo la curva o AUC (por sus siglas en inglésl area under the curve); entre más alto el AUC mejor.

4.2.4 Análisis discrimimante cuadrático

Usualmente usamos el análisis discrimimante cuadrático o QDA (por sus siglas en inglés; quadratic disminant analysis) cuando las observaciones dentro de clase son elegidas de una distribución Gausiana multivariada con una media clase-específica y una matriz de covarianza común para todas las clases K. QDA asume que cada calse tiene su propia matriz de covarianza. Es decir, cada observación de de la clase kth está por la forma \(X \sim {\sf N}(\mu_{k}, \sum_{k})\), donde \(\sum_{k}\) es una matriz de covarianza para la clase kth. Bajo estas asunciones, el clasificador de Bayes asigna para una observación \(X = x\) a una clase donde \(\delta_{k}(x)\) sea más alto, esto está dado por

\[\delta_{k}(x) = -\frac{1}{2}(x-\mu_{k}^{T})\sum_{k}^{-1}(x-\mu_{k}^{T})+log\pi_{k}-\frac{1}{2}log|\sum_{k}|\] QDA estima una matriz de varianza separada para cada clase, para un total de \(Kp(p+1)/2\) parámetros. Esto hace que QDA sea un clasificador más flexible que LDA. Usualmente se recomienda utilizar QDA si el set de entrenaminto es grande, para que a así la varianza del clasificador no sea un problema o por si la asunción de tener una matriz de covarianza común para las cada clase K no se puede obtener.

4.3 Clasificador bayesiano ingenuo

El clasificador bayesiano ingueno o naive Bayes asume que todas las características son independientes en cda clase. Este es particularmente útil cuando p es muy grande y otros métodos como LDA y QDA no son capaces de manejar tantos datos.

El naive Bayes gausiana sume que \(\sum_{k}\) es diagonal, es decir

\[\delta_{k}(x) = \frac{1}{2}\sum_{j=1}^{p}[\frac{(x_{j} - \mu_{kj})^{2}}{\delta_{kj}^{2}}] + log\pi_{k}\] Asimismo, el naive Bayes se puede usar para vectores con caracteríticas mixtas (cualitativas y cuantitativas). Si \(X_{j}\) es cualitativa se puede reemplezar \(f_{kj}(x_{j})\) con la función de masa de probabilida (histograma) sobre categorías discretas. Nota: a pesar de las asunciones, el naive Bayes usualmente produce bueno resultados de clasificación.

4.4 K-vecinos más cercanos

En capítulos anteriores hablamos brevemente sobre K-vecinos más cercanos o KNN (por sus siglas en inglés, k-nearest neighbors). Para hacer predicciones para un observación de \(X = x\), las observaciones K de entrenamiento que son cercanas a x son identificadas. Luego, X es asignada a una de las clases cuya plurarlidad corresponda a una de las observaciones a las que pertenece. Es decir que KNN es una método completamente no paramétrico. Este método requiere la selección de K, los vecinos más cercanos, es decir, realizamos el KNN con dos valores de \(K: K = 1\) y un valor de K que es escogido automaticamente usando un método llamado validación cruzada, del cual hablaremos de manera más intensiva en el próximo capítulo.

Nota: KNN no hace asunsiones somre la forma de la límite de decisión, además de no decirnos cual(es) de los predictores son los más importantes. Igualmente, este método es mucho más flexible que QDA.

4.5 Comparación de métodos de clasificación

Anteriormente vimos como se pueden utilizar cada uno de los métodos de clasificación, al igual de los parámetros y las asunciones que tienen en cuenta. Sin embargo, cada uno de estos se puede utilizar dependiendo de lo que estemos buscando. Aquí vamos a dar en resumen de que implicada cada uno de estos métodos.

  • La regresión logística es ampliamente usada como la clasificación, pero en particular cuando se tiene que \(k = 2\).
  • LDA es útil cuando n es pequeño o cuando las calses están bien separadas, y las asuncions gausianas son razonables. Además, cuando \(k > 2\).
  • Naive Bayes es particularmente útil cuando p es muy grande.