Estadística en Microcomputadores/Análisis Exploratorio
2.4 ANALISIS EXPLORATORIO
Dentro de esta denominación se agrupan diversos métodos de tipo descriptivo que se han desarrollado en las últimas décadas y que tienen como características principales su generalidad de aplicación y el hecho de que presentan una robustez significativa frente a posibles valores anómalos en los datos analizados.
Estrictamente, dichos métodos pueden incluirse dentro de los diferentes grupos de técnicas de análisis descriptivo de datos vistas anteriormente, pero desde su desarrollo se las presenta normalmente constituyendo un grupo particular de técnicas estadísticas.
Existen numerosos métodos de Analisis Exploratorio, de los cuales veremos sólo algunos que, además de ser los más conocidos y utilizados, son los que en general se incluyen en los programas estadísticos para microcomputadores.
2.4.1 Gráfico "Box-Whisker"
Es, en esencia, un método de graficación de algunas estadísticas descriptivas para un dado juego de datos. Las estadísticas consideradas en la graficación son: la Mediana, el primer y tercer Cuartil y los valores Mínimo y Máximo, cada una representada según una convención que se muestra en la figura siguiente:
El gráfico "Box-Whisker" resulta útil para apreciar visualmente, en forma gruesa, la distribución de valores de cada variable, así como para comparar entre sí las distribuciones de varias variables. Se identifican claramente en el gráfico cuatro sectores con igual número de observaciones, definidos por los límites: valor mínimo - primer cuartil - mediana - tercer cuartil - valor máximo. En la representación se pueden agregar otros elementos adicionales de información sobre el conjunto de datos analizado, así como indicarse valores individuales de observaciones extremas, muy alejadas de la zona central de los datos.
2.4.2 Clasificación "Stem & Leaf"
Este método consiste básicamente en un histograma resultado de una clasificación de datos de una variable, pero en el cual, en lugar de representar las frecuencias mediante barras, se utilizan los últimos dígitos de las observaciones individuales analizadas. El siguiente es un ejemplo de una clasificación "Stem & Leaf" considerando que los intervalos de clasificación están compuestos por decenas. En cada intervalo se consignan los últimos dígitos de las observaciones que caen en él, ordenados en forma creciente:
Decena Dígitos
30 11245557889
40 146679
50 002333344566677789
60 015778
70 2233344667
80 00113346677888999
90 133445779
Este caso particular de clasificación presenta ventajas en
algunas aplicaciones, ya que no se pierden, como en las
clasificaciones usuales, los valores originales de las
observaciones. Además de ello, se puede analizar la
distribución de valores individuales dentro de cada
intervalo de clasificación.
2.4.3 "Median Polish"
Este procedimiento se aplica a tablas en las que se han obtenido las medianas correspondientes a una tercera variable para grupos de observaciones definidos según dos variables de clasificación.
Mediante un proceso iterativo se obtienen los efectos (aditivos) que sobre cada uno de los valores de mediana tienen los diversos valores de cada variable de clasificación. De acuerdo a ello el método es similar al Análisis de Variancia para dos factores (Capítulo 5), excepto que no se supone el cumplimiento de un dado modelo estadístico.
2.4.4 Regresión Robusta
Este procedimiento permite encontrar una función lineal entre dos variables relacionadas, a partir de un conjunto de observaciones de ellas, sin recurrir a los modelos de regresión considerados en el capítulo 6. El resultado así obtenido es robusto frente a la presencia de un número significativo de observaciones con valores atípicos. El procedimiento, de tipo iterativo, parte de dividir las observaciones en tres grupos, de acuerdo a los valores que toma la variable independiente. A partir de ello la línea robusta es la que obtiene una mediana de los residuos en el primer grupo igual a la correspondiente al tercer grupo. Como en el procedimiento anterior no se presupone en éste que los datos satisfacen algún modelo estadístico.
2.4.5 Otros Procesos
Dentro del Análisis Exploratorio se consideran otros procesos además de los vistos, entre los que podemos mencionar los siguientes:
- "Rootogram": es en esencia un histograma de clasificación, pero graficando no las frecuencias experimentales sino las diferencias entre éstas y las equivalentes esperables de una distribución normal ajustada a las observaciones consideradas.
- Obtención de valores suavizados ("Smoothed") a partir de series de tiempo, procesos que se incluyen en el capítulo 8, donde se analizan los procedimientos específicos para este tipo de datos.