Estadística en Microcomputadores/Presentación Distribuciones
3.1 PRESENTACION
El concepto de Distribución de Probabilidad es el primer caso que veremos de modelo estadístico. Este, en términos generales, es una cierta descripción matemática del comportamiento de una o más variables estadísticas y, por ende, de la población que se asocia a ellas.
El modelo, en el caso de una distribución de probabilidad, está definido por las probabilidades de ocurrencia de cada uno de los posibles valores de la variable, a lo largo del proceso en el que ellos se generan.
La forma más directa de definición de una distribución de probabilidad es la que involucra a una variable discreta, esto es, aquella cuyos valores posibles son sólo algunos dentro del intervalo de validez de la variable. En este caso, la distribución de probabilidad se establece mediante probabilidades p(x) de que en una cierta ocurrencia la variable X tome el valor x, siendo x cada uno de sus posibles valores:
p(x) = Probabilidad de (X = x)
El comportamiento de una variable queda así totalmente definido mediante la p(x) para cada uno de sus posibles valores, dentro de un intervalo a,b.
Asociado al concepto de distribución o función de probabilidad p(x) se puede definir el de Probabilidad acumulada F(x), la que, para un valor posible x de la variable, da la probabilidad de que ésta tome valores iguales o menores a él:
x
F(x) = p(x)
x=a
Lo enunciado para variables discretas se puede extender al
caso de variables continuas, adaptado a las características de
dichas variables. En este caso no resulta posible definir una
probabilidad asociada a cada valor de la variable. En cambio, lo
que sí puede definirse es un concepto relacionado, el de
densidad de probabilidad f(x). Esta densidad puede variar de
manera continua a lo largo del conjunto de valores posibles de
la variable y su integración nos permite obtener la probabilidad
de que la variable X tome valores dentro de un cierto intervalo
x1,x2:
p(x1 > X > x2) = f(x) dx
En particular, la integración entre el valor mínimo de la
variable y otro genérico x permite definir el concepto de
función de Probabilidad acumulada F(x):
F(x) = f(x) dx
Igual que en el caso discreto, esta función nos da la probabilidad de que la variable tome valores iguales o menores a x. Se pueden definir valores experimentales de las probabilidades p(x), en el caso discreto, o de las densidades f(x), en el caso continuo, llevando a fracciones las frecuencias obtenidas en un proceso de clasificación de un conjunto de observaciones, constituyendo así las denominadas distribuciones empíricas.
Cuando se consideran variables continuas es posible también definir una función F(x) empírica para un conjunto de datos experimentales, sin tener que efectuar un proceso previo de clasificación. Considerando n valores experimentales x1, x2, ...,xi, ..., xn, ordenados de menor a mayor, la F() correspondiente a un valor xi es directamente i/n: En este caso un valor xi es el cuantil correspondiente a un valor de F(x) igual a i/n.
Un caso distinto al de las distribuciones empíricas es aquel en el que los valores de p(x) o de f(x) surgen de funciones que se definen sobre la base de algún concepto teórico, constituyendo así las denominadas distribuciones teóricas. Los siguientes son dos ejemplos típicos de esta clase de distribuciones:
. Distribución Poisson (discreta)
p(x)=exp(- ) x/x¡ , x = 0,1,2,...
. Distribución Exponencial (continua)
f(x)=(1/ )exp(-x/ ) , x >= 0
En el caso de distribuciones de probabilidad teóricas aparece, como vemos en estos ejemplos (coeficientes ), un concepto importante, el de los parámetros de la distribución. Estos son coeficientes que se incluyen en las funciones matemáticas con las que se definen las probabilidades p(x), densidades f(x), o probabilidades acumuladas F(x). Cada valor numérico asignado a dichos coeficientes permite establecer una cierta distribución específica.
Un concepto asociado directamente al anterior es el de estadística de una distribución. Dicho concepto es similar al visto en el capítulo 2 para un conjunto de valores experimentales (o muestra) de una variable, con la diferencia de que ahora la estadística corresponde a la distribución en su conjunto y, por ende, a la población asociada a ella.
Sobre esa base resulta posible definir y calcular, para una cierta distribución, todas las estadísticas descriptivas vistas para el caso de datos experimentales. De ellas, las más importantes son:
- Valor esperado (media aritmética)
- Desvío estándar
- Coeficiente de correlación (para dos variables
relacionadas).
Existe una relación estrecha entre los parámetros de una distribución y las estadísticas que pueden definirse para ésta. Así, siempre pueden obtenerse relaciones que, para una cierta distribución, dan los valores de las estadísticas principales en función de los correspondientes parámetros. Por ejemplo, para las distribuciones mostradas anteriormente, el único parámetro es directamente el valor esperado de la distribución, en ambos casos.
Los conceptos vistos sobre las distribuciones de probabilidad de una variable pueden extenderse al caso de dos o más variables relacionadas, constituyendo en este caso modelos del comportamiento de las variables en su conjunto, y por ende, de la población que puede asociarse a ellas.
Por ejemplo, en el caso de una distribución de dos variables X e Y se definen funciones p(x,y), f(x,y) y F(x,y) con un concepto similar a las equivalentes para una variable. En cambio aparecen nuevas funciones como p(x) y f(x), en este caso la probabilidad o la densidad de probabilidad marginal de X (independientemente de los valores de Y). Otras funciones que surgen en el caso de dos variables son p(x,y1) y f(x,y1), ídem a las anteriores pero condicionales, esto es, considerando un valor fijo y1 de Y.
Existen numerosas distribuciones teóricas de probabilidad utilizadas en las aplicaciones estadísticas. De ellas enumeramos seguidamente las más conocidas y que se consideran en general en las herramientas computacionales. En el capítulo 13 se incluyen definiciones específicas para la mayor parte de ellas.
- Una variable
a) Continuas b) Discretas
.Uniforme .Uniforme
.Normal .Binomial
.Exponencial .Binomial Negativa
.Gamma .Pascal
.Erlang .Geométrica
.Beta
.Weibull
.Log-normal
.Chi2
."t"
."F"
.Triangular
.Cauchy
.Laplace
- Varias variables
a) Continuas b) Discretas
.Normal .Hipergeométrica
Multidimensional
El uso de un computador en el trabajo con distribuciones de probabilidad resulta de gran utilidad, dada la complejidad de manejo que en general aquellas poseen. Dicho trabajo puede agruparse en los siguientes procesos, que se describen en las restantes secciones del capítulo:
a) Cálculos con funciones de probabilidad;
b) Ajuste de distribuciones teóricas a datos experimentales;
c) Generación de valores aleatorios de distribuciones de probabilidad.