Estadística en Microcomputadores/Ajuste de Distribuciones
3.3. AJUSTE DE DISTRIBUCIONES
Este proceso involucra encontrar una distribución teórica que se corresponda con un conjunto de valores experimentales de una o más variables, es decir, aquella distribución (población) de la que se acepta los datos experimentales constituyen una muestra.
El ajuste de distribuciones es también un proceso cuya ejecución se ve facilitada por la utilización del computador, permitiendo ello además una mayor variedad de análisis de diversas distribuciones para un mismo juego de datos. El proceso de ajuste constituye un caso típico del trabajo con modelos estadísticos en relación con datos experimentales. En general, cuando se efectúa dicho trabajo, se desarrollan las actividades que se describen en los puntos siguientes, adecuadas a las características propias del tipo de modelo constituido por las distribuciones de probabilidad, para la identificación, la estimación y la evaluación de una distribución teórica a un conjunto de datos experimentales.
3.3.1 Identificación
En esta etapa tratamos de definir a priori qué distribución, o grupo de distribuciones, parece en principio ser representativa de los datos experimentales en análisis. Para ello los instrumentos más útiles son los diversos procesos vistos dentro del Análisis Descriptivo de Datos, principalmente los de cálculo de estadísticas descriptivas y los de clasificación. Los histogramas de frecuencias que se obtienen en este último caso dan en general una buena apreciación de la repartición de los datos a lo largo del intervalo de valores posibles de la variable analizada, que puede ser comparada con la forma de la función f(x) para diversas distribuciones teóricas alternativas.
Además de la posibilidad que brinda el Análisis Descriptivo, existen algunos procedimientos específicos de tipo gráfico que son útiles para la tarea de identificación y cuya ejecución, engorrosa manualmente, es sencilla mediante un computador. De llos los más conocidos y útiles son los gráficos de probabilidad, o gráficos Q-Q, que describimos en la sección 3.3.3 .
3.3.2 Estimación
Una vez preseleccionada una cierta distribución de probabilidad específica, en la actividad anterior, se deben estimar los valores numéricos de sus parámetros, en función de los datos experimentales en análisis. Para efectuar dicha estimación existen diversos métodos, entre los cuales se destacan los denominados de Máxima Verosimilitud y de Momentos. El método de Máxima Verosimilitud es, de todos los existentes, el que ha tenido mayor estudio y desarrollo teórico, siendo sus estimaciones las que presentan mejores propiedades estadísticas. Ello determina que sea el método de estimación adoptado en la mayor parte de los programas estadísticos, particularmente aquellos más complejos.
Dada una muestra de observaciones, el enfoque básico que utiliza el método consiste en que los valores estimados a obtener de los parámetros definan una distribución tal que haga máxima la probabilidad de que la muestra considerada pertenezca a ella (máxima "verosimilitud" de la muestra).
Este criterio se convierte en la práctica en encontrar los valores del o de los parámetros p de la distribución considerada que hagan máxima la siguiente funcion L de verosimilitud: L = f(x1,p) f(x2, p) ... p(xi,p) ... f(xn, p) siendo x1, x2, ...., xn los valores de la muestra de observaciones y f(xi,p) la función de densidad de probabilidad de la distribución considerada para el valor xi.
Salvo algunas distribuciones para las que se puede resolver el problema de maximización de manera genérica, obteniéndose expresiones que dan las estimaciones buscadas en función de estadísticas descriptivas de la muestra, se debe efectuar en cada aplicación un proceso de maximización numérica, para lo cual resulta casi indispensable el uso de un computador.
En cuanto al método de Momentos, su principal característica es la sencillez de aplicación, resuelta siempre mediante expresiones que, para la distribución preseleccionada, dan los valores estimados de sus parámetros como función de estadísticas descriptivas de la muestra de observaciones considerada.
El método se basa en la propiedad ya comentada por la cual las estadísticas de una cierta distribución se definen mediante expresiones que son función de los parámetros de aquella.
Aplicando dichas expresiones en sentido inverso y considerando en lugar de las estadísticas de la población a las correspondientes para la muestra considerada, podemos obtener estimadores de los parámetros de la distribución.
Por ejemplo, para la distribución exponencial, cuyo parámetro es directamente el valor esperado de la distribución, la expresión de estimación de dicho parámetro en función de un conjunto de valores experimentales resulta:
= x
siendo x el valor medio de los valores involucrados. Las estimaciones que provee el método tienen propiedades estadísticas razonablemente satisfactorias en las aplicaciones usuales, aunque pueden obtenerse resultados no adecuados en algunos casos, principalmente cuando los datos experimentales considerados presentan anomalías.
3.3.3 Evaluación del grado de ajuste
La actividad final en el ajuste de una distribución de probabilidad teórica a un conjunto de observaciones experimentales de una variable consiste en la evaluación del grado de correspondencia logrado, y si él es satisfactorio para el uso posterior de la distribución obtenida.
Como ayuda principal para efectuar dicha evaluación se dispone de procedimientos, del tipo prueba estadística (ver capítulo 4), mediante los cuales podemos obtener la significación del grado de ajuste que se produce entre la distribución obtenida en las etapas anteriores y los datos experimentales. Las pruebas específicas de mayor aplicación son las siguientes, ambas de tipo no paramétrico:
a) Prueba Chi cuadrado (Chi2)
Esta prueba se basa en la comparación entre las frecuencias que surgen de un proceso de clasificación de las observaciones experimentales y las correspondientes teóricas para la distribución ajustada:
Como función de las diferencias mencionadas se calcula el valor de la estadística chi2, con el que se obtiene el nivel de significación del ajuste (ver capítulo 4).
La prueba Chi2 es de aplicación general a cualquier tipo de distribución, tanto discreta como continua, siendo la más conocida y utilizada para evaluar la bondad del ajuste de una distribución.
b) Prueba de Kolmogorov - Smirnov
Esta prueba utiliza como estadística de prueba la máxima diferencia d que se produce entre la función de probabilidad acumulada empírica F(x) de la muestra de observaciones, que definimos en la sección 3.1, y la correspondiente a la distribución teórica, F'(x):
De acuerdo al valor d resultante se obtiene, mediante funciones aproximantes, el correspondiente nivel de significación del ajuste.
Esta prueba requiere en principio que la distribución definida sea continua. En ese caso y si la muestra considerada es pequeña, esta prueba puede ser más potente que la de chi2. Además de las pruebas anteriores existen diversos procedimientos de tipo gráfico que pueden ser últiles para evaluar de manera no rigurosa el grado de ajuste de una cierta distribución a un conjunto de datos experimentales. Ellos son principalmente los siguientes:
a) Gráfico comparativo de las funciones de probabilidad acumulada experimental y teórica, similar al expuesto en la figura anterior.
b) Gráfico P-P. Es un gráfico de dos dimensiones en el que cada punto corresponde a una observación del juego de datos involucrado y se representa en función de sus funciones de probabilidad acumuladas, experimental y teórica: A medida que el grado de ajuste entre los datos experimentales y la distribución teórica obtenida con ellos es mayor los puntos del gráfico tienden a ubicarse sobre una recta.
c) Gráfico Q-Q. Igual que en el anterior en este gráfico cada punto representa una de las observaciones del juego de datos considerado. Para la ubicación de una observación se utiliza ahora su valor (habiendo ordenado las observaciones de menor a mayor) yel cuantil correspondiente la la distribución teórica ajustada:
El acercamiento de los puntos a una recta permite determinar visualmente el grado de ajuste de los datos experimentales a la distribución teórica considerada.
Como ya dijimos, este tipo de gráfico puede utilizarse también en la etapa de identificación, caso en el que los cuantiles de la distribución teórica se calculan considerando valores de referencia de sus parámetros.