Estadística en Microcomputadores/Técnicas de Agrupamiento
7.4 TECNICAS DE AGRUPAMIENTO
Dado un conjunto de observaciones multivariadas, las técnicas de agrupamiento ("clustering") tienen como objetivo formar con ellas grupos, tratando de que en cada uno de ellos se concentren las observaciones que presentan mayor similaridad entre sí. A diferencia del Análisis Discriminante, que también constituye una técnica de clasificación, dichos grupos no están definidos a priori, sino que se establecen durante el proceso de agrupamiento.
Existen numerosas técnicas específicas de agrupamiento y practicamente todas ellas consideran como criterio básico de agrupamiento el tratar de lograr que la distancia media entre las observaciones que forman un grupo sea lo más baja posible, mientras que la distancia entre grupos sea lo más alta posible. En las técnicas de agrupamiento es usual considerar para la determinación de las distancias el criterio de la distancia euclídea, enunciado en 7.1, debiendo en ese caso las observaciones involucrar variables cuantitativas. Su aplicación a variables cualitativas es posible mediante la adopción de otros criterios de distancia o, en forma indirecta, recurriendo a procesamientos previos como la aplicación del Análisis de Proximidades (Ver sección 7.5).
En la utilización de una cierta técnica de Agrupamiento y dado el criterio usual de considerar la distancia euclidea puede resultar conveniente efectuar un proceso previo de normalización de las observaciones en estudio, variable por variable, si las escalas de éstas presentan diferencias marcadas en sus niveles. Asimismo, en muchos casos se aplica previamente el Análisis de Componentes Principales al conjunto de observaciones originales, obteniendo un nuevo conjunto de datos con un número menor de componentes, no correlacionadas, lo que evita las distorsiones que en el cálculo de la distancia pueden producir variables experimentales altamente correlacionadas entre sí.
A diferencia de otras técnicas que hemos presentado anteriormente, en las de agrupamiento no se plantea ningún modelo estadístico que deba ser identificado, estimados sus coeficientes y verificado su ajuste. Debido a ello no se requiere asumir hipótesis sobre la o las poblaciones a las que pertenecen las observaciones en estudio.
Los métodos utilizados en todas las técnicas de agrupamiento usuales son de tipo heurístico, es decir, los criterios que se consideran en el agrupamiento de las observaciones no aseguran que la distancia dentro de cada grupo sea mínima y entre grupos máxima, sino que producen agrupamientos que se acercan en mayor o menor medida a ese objetivo.
Respondiendo a esta característica las diversas técnicas de agrupamiento pueden ubicarse en dos grandes grupos diferenciados según que que impliquen o no criterios jerárquicos en el agrupamiento, como veremos seguidamente.
7.4.1 Agrupamiento jerárquico
Este enfoque permite agrupar las observaciones de un cierto conjunto de datos multivariados en niveles crecientes de agregación. Partiendo del criterio que, al comienzo, cada observación constituye un grupo en sí mismo, el agrupamiento jerárquico va construyendo grupos con cada vez más observaciones, definiendo para ello en cada etapa un nuevo grupo como unión de los dos grupos que tengan entre sí la menor distancia. Los pasos de agrupamiento de a pares pueden repetirse hasta obtener el número de grupos deseado, o, en el caso extremo, hasta que todas las observaciones constituyan un único grupo.
El proceso jerárquico de agrupamiento se representa visualmente mediante un gráfico denominado Dendograma, en el que se indican en forma ordenada los grupos que se van formando y qué observaciones o grupos anteriores los constituyen:
Observaciones
1 2 3 4 5 6 7
Un aspecto central en el proceso de agrupamiento está constituido por el criterio utilizado para definir la distancia entre un grupo y cada uno de los restantes. Inicialmente, cuando los grupos definidos son las observaciones del conjunto de datos bajo análisis, las distancias entre grupos son directamente las distancias entre observaciones, calculadas a partir de los valores de las variables involucradas en cada observación. En cambio, en pasos subsiguientes del proceso los grupos que se van definiendo están formados por más de una observación. Existen diversas variantes a las generales presentadas en 7.1 para definir las distancias entre grupos en este caso, obteniéndose en general agrupamientos diferentes en la aplicación de cada uno de ellos:
a) Método de la Distancia Mínima
La distancia entre dos grupos se obtiene como la distancia entre el par de observaciones, una en cada grupo, que se encuentran más próximas entre sí(distancia dij' en la figura siguiente).
b) Método de la Distancia Máxima
Es similar al anterior, pero considerando ahora la distancia entre las dos observaciones más alejadas, una en cada grupo (distancia dij" en la figura siguiente).
c) Método de la Distancia Promedio
La distancia entre dos grupos se obtiene como promedio de las distancias entre sus respectivas observaciones (distancia dij en la figura siguiente).
Una propiedad general del proceso es que, en cada paso de agrupamiento, aumenta la distancia de los grupos que se unen, lo que equivale a expresar que cada vez se van uniendo grupos que se encuentran más separados. De acuerdo a ello se cumple la siguiente relación:
7.4.2 Agrupamiento no jerárquico
Existen diversos criterios de tipo no jerárquico definidos para realizar el agrupamiento de observaciones. Uno de ellos involucra la selección inicial de algunas observaciones como "semilla", a partir de las cuales se van consolidando grupos, por incorporación paulatina de nuevas observaciones en función de su cercanía a ellas. En este método el número de observaciones "semilla" es también el número de grupos que se obtendrán a la finalización del proceso.
Otro enfoque no jerárquico, denominado de las k-medias, organiza a las observaciones involucradas en el número de grupos deseado mediante algún criterio de aplicación sencilla y después va reasignando las observaciones entre grupos, tratando de ir mejorando algún criterio vinculado a las distancias dentro de cada grupo y a las correspondientes entre grupos.