Estadística en Microcomputadores/Análisis Discriminante
7.3 ANALISIS DISCRIMINANTE
Esta técnica, una de las más poderosas dentro de las incluídas en el Análisis Multivariado, permite predecir a qué grupo específico, de un conjunto prefijado, corresponde una cierta observación experimental. Es decir, la técnica pretende "discriminar" a qué grupo se asigna una cierta observación constituyendo así un método de clasificación de observaciones. A diferencia de otras técnicas de clasificación, en el AD dichos grupos deben estar predefinidos. Son ejemplos de este tipo de clasificación los siguientes:
- Dado un conjunto de enfermedades posibles, establecer cual es la que presenta una cierta persona, en base a valores de un conjunto de síntomas medidos sobre ella.
- Dado un conjunto de formas posibles, definir a cuál de ellas corresponde una cierta figura, considerando para ello mediciones efectuadas sobre ésta.
Para establecer los criterios con los que se clasifica una nueva observación el Análisis Discriminante (AD) utiliza un conjunto de observaciones experimentales para las cuales se conoce el grupo real al que corresponde cada una. Dicho grupo se define mediante una variable de tipo nominal.
De acuerdo a ello el AD puede considerarse un caso particular de regresión, en el que la variable dependiente es de tipo nominal. El problema de clasificación de una cierta observación es entonces similar al de predicción en regresión, esto es, obtener el valor de la variable que define su grupo, sobre la base de los valores de otras variables para la observación analizada.
El AD considera, en general, que las variables involucradas son de tipo cuantitativo, excepto aquella que establece el grupo al que corresponde cada observación. No obstante, existen modelos específicos de la técnica apropiados para variables cualitativas y, en particular, aquellas que pueden tomar valores 0-1.
La aplicación de la técnica de AD involucra: a) La identificación del modelo de discriminación aprpiado a los datos en estudio; b) La estimación de los coeficientes de dicho modelo; c) La verificación del grado de adecuación del modelo a los datos experimentales considerados y d) La clasificacion de nuevas observaciones mediante el modelo de discriminación establecido.
7.3.1 Definición del modelo de discriminación
El enfoque más directo para definir un modelo de
discriminación es el que se basa en asignar una cierta
observación al grupo que se encuentra más cercano, en términos
de distancia. En los modelos de AD más usuales se utiliza este
enfoque, considerando no la distancia euclidea sino la de
Mahalonobis, ya mencionada.
El uso de la distancia de Mahalonobis hace que no resulte necesaria la realización de un proceso previo de normalización de los datos cuando presentan una gran diferencia en sus magnitudes, ya que, como dijimos, ella es invariante ante cambios de escala de las variables.
El criterio de clasificación de cada observación en función de su distancia a cada grupo se instrumenta en un modelo de discriminación, compuesto por un conjunto de funciones, una para cada grupo de clasificación. La estructura de estas funciones varía según qué características se asuman para los datos considerados.
El caso más directo es el que presupone que las observaciones conocidas de los diversos grupos pertenecen a la misma población, con una matriz de covariancias única. En este caso las funciones que se obtienen son lineales con respecto a las k variables involucradas (modelo lineal de discriminación):
k
Fg = ag0 + agjxji , para cada grupo g
j=1
en la que los ag0,..., agk son coeficientes que se definen
para cada grupo g y xji el valor de la variable Xj en una cierta
observación i.
Por el contrario, si se presupone que las observaciones de cada grupo corresponden a poblaciones distintas, cada una con una matriz de covariancias propia, las funciones tienen una estructura cuadrática con respecto a los valores de las variables, (modelo cuadrático de discriminación).
La estimación de los coeficientes de las funciones que constituyen el modelo de clasificación (o discriminación) se efectúa en cada caso a partir de disponer de un conjunto de observaciones multivariadas para cada una de las cuales se conoce el grupo al que corresponde (ver capítulo 17 para el caso del modelo lineal).
Tanto en el caso lineal como en el cuadrático, para predecir mediante el modelo de discriminación el grupo correspondiente a una cierta observación, se calculan con ella los valores de las funciones para todos los grupos. El grupo buscado será el vinculado a la función que toma mayor valor.
Hasta aquí hemos considerado el criterio de clasificación más aplicado en el AD, el de distancia entre las observaciones y los diferentes grupos. Además de él existen otros criterios, como el de máxima verosimilitud, concepto que ya vimos en el tema de distribuciones de probabilidad y que intenta asignar una observación al grupo para el cual la probabilidad de correspondencia es máxima. Este criterio presenta una mayor generalidad de aplicación que los anteriores, aunque sus resultados coinciden con éstos cuando las matrices de covariancia de los datos cumplen las condiciones enunciadas anteriormente.
Un proceso particular en el AD considera la posibilidad de ir entrando o sacando variables en la definición del modelo de discriminación, estableciendo el subconjunto de variables que permite lograr una mayor capacidad de clasificación, de manera similar al proceso denominado Paso a Paso ("step-wise") en regresión.
Finalmente, el AD considera en general que las variables en el conjunto de observaciones bajo análisis son todas de tipo cuantitativo, excepto la que indica el grupo conrrespondiente a cada observación. No obstante, existen algunos modelos particulares que permiten considerar variables de tipo cualitativo.
7.3.2 Evaluación del modelo de discriminación
Una vez definido el modelo de discriminación y estimados sus coeficientes para un conjunto de datos multivariados, podemos utilizarlo para predecir el grupo correspondiente a cada una de las observaciones que forman dicho conjunto. Ello permite efectuar una evaluación directa de la calidad de la clasificación lograda mediante el modelo discriminante, estableciendo así su grado de adecuación para la clasificación de nuevas observaciones.
La evaluación se efectúa a través de la comparación entre el grupo estimado por el modelo y el verdadero conocido de cada observación. Esta comparación se puede resumir en la tabla siguiente, donde en cada uno de sus casilleros se consigna el número de observaciones nst que corresponde a la combinación grupo asignado s - grupo real t:
Grupo Real
1 2 .... t ...... m
1
2
Grupo .
Estimado s nst
.
.
m
A partir de la tabla podemos calcular la probabilidad de
clasificación errónea pS para cada grupo estimado, mediante la
expresión:
m
pS = 1 - nSS / nSt
t=1
Dichas probabilidades de clasificación errónea constituyen
estimaciones, en general sesgadas, de las verdaderas
probabilidades. No obstante, son de utilidad práctica ya que la
obtención de mejores estimaciones es compleja, salvo que se
tengan únicamente dos grupos de clasificación.