Estadística en Microcomputadores/Cálculo de Estadísticas Descriptivas
2.1 CALCULO DE ESTADISTICAS DESCRIPTIVAS
Dado un cierto juego de datos de una variable (o varias) una estadística descriptiva es un indicador que se calcula en base a ellos y que sintetiza o describe de alguna manera el comportamiento global de dicha variable. Además de esta utilidad general de las estadísticas descriptivas ellas sirven de base en practicamente todos los restantes procesos estadísticos, como veremos en los capítulos siguientes.
Un aspecto importante sobre las estadísticas descriptivas es que, aunque ellas se calculan en general para juegos de datos conocidos, pueden tambien definirse y evaluarse para poblaciones, como veremos en el Capítulo 3. Cuando un dado juego de datos se supone que constituye una muestra de una cierta población las estadísticas que se calculan para ella son, en general, estimadores de las correspondientes a dicha población. Puede definirse un conjunto amplio de estadísticas, cada una con un procedimiento de cálculo determinado y resumiendo determinado tipo de comportamiento de los datos considerados. A continuación enunciamos las estadísticas descriptivas que constituyen practicamente la totalidad de las que calculan los programas para microcomputador, agrupadas según el tipo principal de comportamiento que explican. En el capítulo 12 se incluyen expresiones específicas de cálculo de la mayor parte de las estadísticas aquí presentadas.
a) Estadísticas de Posición para una Variable Abarcan aquellas estadísticas que suministran algún tipo de información sobre la ubicación de los valores analizados dentro del conjunto de valores posibles de la variable.
- Media Aritmética o Valor Medio x: Se obtiene como promedio del conjunto de observaciones involucrado. - Mediana: Corresponde a la observación del juego de datos que se encuentra en el medio del total de observaciones, cuando ellas se ordenan de menor a mayor.
- Modo: Se corresponde con el valor (o intervalo de valores) en el cual se concentra la mayor proporción de observaciones, del total analizado.
- Otras Medias: Se pueden definir otras medias más específicas, como la geométrica,la armónica o la cuadrática.
- Valores Mínimo y Máximo: Estas estadísticas constituyen puntos singulares, que acotan los valores que toma la variable en estudio en el juego de datos considerado.
- Cuantiles (o Percentiles): Dado un cierto porcentaje, el cuantil correspondiente es un valor de la variable considerada tal que existe un porcentaje similar de observaciones menores o iguales a él. Los cuantiles más utilizados son los cuartiles, correspondientes a porcentajes 25%, 50% (que coincide con la mediana) y 75% .
b) Estadísticas de Dispersion para una Variable Abarcan las estadísticas que sintetizan información sobre el grado de separación que presentan entre sí los valores analizados de la variable.
- Variancia s2: Se obtiene como promedio de las diferencias cuadráticas entre cada observación y el valor medio x. Si el conjunto de datos constituye una muestra de una cierta población la división por n-1 para el promedio en lugar de n hace que el valor de variancia resultante estime mejor el correspondiente a dicha población.
- Desvío Estándar s: Se obtiene como raíz cuadrada de la variancia.
- Error estándar de la media: Constituye una estimación del desvío estándar de los valores medios x considerando muestras de tamaño n.
- Desvío absoluto medio: Se obtiene como promedio de los valores absolutos de los desvíos entre cada observación y el valor medio x.
- Rango: Mide la diferencia entre algún par de estadísticas que representen cotas hacia un extremo y otro de los valores de las observaciones, como el máximo y el mínimo, o el tercer y primer cuartil (rango intercuartil).
- Coeficiente de Variación: Se calcula como cociente entre el desvío estandar y el valor medio x.
c) Otras Estadísticas para una Variable
- Rango sobre Desvío: Se obtiene como cociente entre el rango y el desvío estándar.
- Coeficiente de Asimetría: Evalua el grado de simetría en la ubicación de los valores dentro del rango.
- Coeficiente de Curtosis: Evalua el grado de concentración de los valores analizados alrededor del valor medio, en términos relativos a una distribución normal (ver Capítulo 3).
d) Estadísticas para dos Variables Relacionadas
- Covariancia: Con un concepto similar al de la variancia evalua el grado conjunto de dispersión de las observaciones de dos variables relacionadas X e Y con respecto a sus correspondientes valores medios. Se obtiene como promedio de los productos entre las diferencias para cada observación de los valores de cada una de las variables y los correspondientes valores medios. Si ambas variables tienden a encontrarse arriba o abajo de sus medias en las mismas observaciones la covariancia es positiva, y negativa en caso contrario. Al igual que la variancia la covariancia puede calcularse para la muestra de observaciones o para la población de la que se supone éstas forman parte.
- Coeficiente de Correlación: Se obtiene dividiendo a la covariancia por el producto de los desvíos estándar de las dos variables consideradas. Este coeficiente, con un concepto similar al de la variancia es una medida libre de escala del grado de relación lineal entre dos variables, tomando valores entre -1 y +1.
- Coeficiente de correlación parcial: tiene un significado similar al anterior, pero considerando removida de las dos variables involucradas la relación lineal con otras variables.
Las estadísticas definidas se aplican, en general, a variables de tipo cuantitativo. No obstante, algunas de ellas, como la Mediana, los valores Mínimo y Máximo, los cuartiles, o el Rango, se pueden utilizar para variables de tipo ordinal. En cambio, el Modo es la única estadística cuya aplicación tiene sentido en el caso de variables de tipo nominal.
Además de los procedimientos de cálculo usuales existen variantes de ellos que permiten obtener lo que se denomina usualmente estadísticas robustas. Dichas estadísticas reciben ese nombre debido a que sus valores no se ven tan influidos por valores extremos de la variable. Un ejemplo de ello es el cálculo robusto ("trimmed") del valor medio, mediante el cual se eliminan para el promedio un porcentaje definido de observaciones que se encuentran en los extremos inferior y superior del conjunto de datos considerado. Otra posibilidad de cálculo de estadísticas robustas es la que utiliza los valores de los rangos de un conjunto de observaciones, en lugar de los valores experimentales correspondientes (concepto visto en el capítulo 1). Un ejemplo de ello es el cálculo del coeficiente de correlación de Spearman, definido en el Capítulo 4. Las estadísticas que se calculan utilizando los rangos pueden aplicarse a variables por lo menos de tipo ordinal.