Estadística en Microcomputadores/Muestreo
4.4 MUESTREO
4.4.1 Presentación
El concepto de prueba estadística, y dentro de éste el de intervalo de confianza, constituye la base de las técnicas de Muestreo, uno de los temas de mayor aplicación en Estadística. El objeto de estas técnicas es obtener una o más características de una cierta población, mediante la selección por muestreo de algunos de sus individuos y la medición de dichas características sobre ellos.
El no evaluar la totalidad de los individuos de la población reduce notablemente el esfuerzo de estimación, en los casos en que esa evaluación resulta posible y constituye la unica alternativa cuando no es factible evaluar todos los individuos de una dada población.
Como contraparte de ello mediante el muestreo sólo es posible lograr una aproximación al valor exacto de la característica buscada para la población, aproximación que se encontrará más o menos cercana a éste según cómo se realice el muestreo.
Las características que se determinan usualmente mediante técnicas de muestreo para una cierta población en estudio son en general alguna estadística, o combinación de ellas, entre las que podemos mencionar:
- El valor medio para la población de una variable medida sobre cada individuo.
- El total para la población de una variable medida sobre cada individuo.
- La fracción de dos valores medios (o de dos totales) para la población de dos variables medidas sobre cada individuo.
- La fracción de individuos de la población que caen en una determinada categoría.
Los procedimientos de muestreo más utilizados para establecer estas estadísticas sobre una dada población son los siguientes:
- Muestreo Aleatorio Simple: en él se define la muestra mediante la selección aleatoria con igual probabilidad de cada individuo de la población.
- Muestreo Sistemático: es similar al anterior excepto que los individuos a incluir en la muestra se seleccionan a intervalos regulares dentro de la población.
- Muestreo Aleatorio Estratificado: en él la población total se divide en estratos (o grupos) mediante ciertas características diferentes para cada uno de ellos. A partir de esta división se efectúa un muestreo aleatorio simple en cada uno de los estratos definidos.
- Muestreo por Conglomerados ("Clusters"): en este caso cada unidad de muestreo puede contener más de un individuo de la población.
- Muestreo en Etapas: Se define una primera muestra sobre grupos de individuos y despues se realiza un muestreo de éstos en cada grupo seleccionado en la primera etapa de muestreo.
La utilización del computador como apoyo en el diseño de un proceso de muestreo involucra pricipalmente: a) La determinación de la cantidad de individuos a muestrear (tamaño de muestra) y b) La selección de los individuos dentro del total de la población.
En la segunda de estas actividades se utilizan usualmente procesos de generación de valores aleatorios de distribuciones vistos en el capítulo 3, por lo que no profundizaremos aquí sobre ellas, viendo seguidamente los conceptos genéricos referidos al proceso de definición de los tamaños de muestra.
4.4.2 Determinación del tamaño de muestra
Dicho tamaño se define basicamente en función del tipo de procedimiento de muestreo considerado, de la estadística (o estadísticas) que se desea estimar, y del nivel de precisión buscado en dicha estimación.
La base para ello es el concepto de intervalo de confianza, visto en la sección 4.2 . En términos genéricos un intervalo de confianza se puede definir, dada una cierta estdística, como el intervalo en más y en menos respecto al valor estimado para la muestra involucrada, dentro del cual se encontrará el valor correspondiente para la población a la que corresponde la muestra:
Estadistica (población) = Estadística (Muestra) + Int.Conf. donde el intervalo de confianza es función del tamaño de la muestra, del nivel de significación adoptado y de alguna otra estadística obtenida para la muestra.
Considerando en sentido inverso como equivalente del intervalo de confianza un cierto valor de tolerancia que se establece como diferencia máxima admisible entre el valor de la estadística para la población y el que se obtiene para la muestra, resulta posible obtener, transformando en sentido inverso la expresión anterior, el número n de observaciones (de individuos) requerido:
n = Función de (Tolerancia d, Nivel Signif. , Valor de otra estadística para la Muestra).
Las expresiones concretas para n dependen del tipo de procedimiento de muestreo adoptado y de la estadística a estimar. En todos los casos usuales se utiliza para definir dichas expresiones la propiedad que surge del teorema del Límite Central, por el cual el valor medio o la suma de una variable que responde a cualquier diastribución se aproxima en mayor o menor medida a una distribución normal.
En el capítulo 14 se incluyen criterios específicos de cálculo para los casos de muestreo más usuales.