Estadística en Microcomputadores/Presentación Análisis Multivariado
7.1 PRESENTACION
En un sentido amplio, una técnica de Análisis Multivariado involucra el estudio estadístico de datos que comprenden varias variables relacionadas. Ejemplo de ello sería la Regresión o el Análisis de Variancia, vistos en capítulos anteriores. Con un alcance más específico, se consideran usualmente dentro del tema Análisis Multivariado un conjunto de técnicas de desarrollo relativamente reciente, que, además de considerar datos de tipo multivariado, involucran en su ejecución procesos de cierta complejidad. La utilización de un computador para realizar dichos procesos ha hecho que el desarrollo teórico y la aplicación de estas técnicas creciera notablemente durante las últimas décadas. De las diversas técnicas existentes, las más conocidas y que se consideran en general en los implementaciones computacionales son las siguientes, agrupadas según su aplicación principal:
- Reducción del número de variables
. Análisis de Componentes Principales
. Análisis Factorial
- Análisis y Representación de datos multivariados
. Análisis de Proximidades ("Multidimensional Scaling")
. (También Análisis de Componentes Principales)
. Análisis de Correspondencia
- Clasificación de observaciones en grupos
. Análisis Discriminante
. Agrupamiento ("Clustering")
- Análisis de relaciones entre subgrupos de variables
. Correlación Canónica
- Explicación de valores de variables
. Análisis Multivariado de Variancia
. Regresión Multivariada
En las secciones siguientes describimos sintéticamente estas
técnicas, dando énfasis a aquellas de mayor relevancia en las
aplicaciones usuales. En el capítulo 17 se incluyen
procedimientos computacionales de algunas de ellas.
Previamente se presenta un concepto importante en buena parte de las técnicas de Análisis Multivariado, el de distancia entre observaciones y/o grupos de ellas. Este concepto implica la evaluación, mediante algún criterio, de la separación entre dos observaciones, entre una observación y un grupo de ellas, o entre dos grupos de observaciones.
Por ejemplo, considerando el criterio de la distancia euclídea, uno de los utilizados en el Análisis Multivariado, se obtienen las siguientes expresiones de distancia, en términos cuadráticos:
- Entre dos observaciones p y q:
k
dpq2 = (xjp - xjq)2
j=1
- Entre una observación p y un grupo
de observaciones g:
k
dpg2 = (xjp - xjg)2
j=1
- Entre dos grupos de observaciones
g y h:
k
dgh2 = (xjg - xjh)2
j=1
siendo:
xjp, xjq valores que toma la variable Xj en las observaciones p y q, respectivamente.
xjg, xjh promedios de la variable Xj en el grupo g y en el h, respectivamente.
En la figura siguiente se indican ejemplos de distancia euclídea en los tres casos anteriores, considerando dos variables X1 y X2.
Existen diversos criterios además del euclídeo para el cálculo de distancias que se consideran en las técnicas de Análisis Multivariado. Entre ellos uno de los más relevantes es el de la distancia de Mahalonobis, que se deriva de la euclidea pero tiene como ventaja sobre ésta que es invariante ante cambios de escala en los valores de las variables consideradas (ello contiene, en particular, a la normalización).