Estadística en Microcomputadores/Pruebas no Paramétricas
4.3. PRUEBAS NO PARAMETRICAS
Las condiciones enunciadas para las pruebas de tipo paramétrico, esto es, que las poblaciones son normales y que los datos deben ser cuantitativos, hacen que no puedan utilizarse en todas las aplicaciones donde sería útil efectuar una verificación estadística. Debido a ello se han desarrollado pruebas alternativas, denominadas por contraposición "no paramétricas", que reducen significativamente las condiciones de aplicabilidad requeridas.
En primer lugar, las pruebas no paramétricas no presuponen una distribución definida para las poblaciones consideradas, por lo que no involucran la verificación de ningún parámetro, sino en cambio, solamente las distribuciones de las poblaciones estudiadas. Así, son ejemplos típicos de pruebas no paramétricas:
- Si una variable responde a una cierta distribución, que se establece arbitrariamente.
- Si dos variables responden a la misma población, sin definir su distribución.
- Si existe relación entre dos variables, sin definir las posibles distribuciones de éstas.
Una característica distintiva de estas pruebas es que todas pueden utilizarse con variables de tipo ordinal, además de las de tipo cuantitativo. Algunas pruebas específicas pueden además utilizarse con variables de tipo nominal.
Su ejecución mediante un computador ha facilitado significativamente las posibilidades de aplicación de las pruebas no paramétricas, debido a que muchas de ellas presentan cierta complejidad de cálculo.
Como contrapartida de la mayor aplicabilidad de las pruebas no paramétricas, ellas son, en términos generales, menos potentes que sus equivalentes paramétricas, cuando se dan las condiciones para que éstas se puedan aplicar. Ello significa que en esos casos las primeras requieren muestras mayores para obtener niveles de significación semejantes.
Esta característica se da porque aquellas pruebas no utilizan en general toda la información contenida en las observaciones analizadas, ya que no consideran los valores experimentales sino que éstos son previamente transformados o agrupados. La transformación más usual es la que involucra el concepto de rango de un conjunto de observaciones, que vimos en el capítulo 1.
Por el contrario, la limitación mencionada hace que las pruebas no paramétricas sean más robustas, ya que sus conclusiones se ven menos influídas por observaciones extremas, muy alejadas del resto.
Las pruebas no paramétricas consideran todos los elementos que definimos con carácter general en la sección 4.1: hipótesis básica y alternativa, estadística de prueba, riesgos y , regiones de aceptación y rechazo. Dentro de ello los riesgos en el caso de aceptación de una prueba no son de cálculo directo como en las pruebas paramétricas, debido a que las posibles hipótesis alternativas están mucho menos definidas. Sí se aplica, en la mayor parte de las pruebas no paramétricas, la posibilidad de realizar pruebas de uno o de dos extremos, según cómo se defina la hipótesis alternativa a considerar.
Existe un conjunto numeroso de pruebas no paramétricas. De ellas enunciamos a continuación las más conocidas y que se incluyen más frecuentemente en los programas estadísticos para microcomputadores. Detalles de cálculo de algunas de ellas se encuentran en el capítulo 14.
4.3.1 Pruebas sobre una variable
Este grupo de pruebas no paramétricas considera una muestra de observaciones de una variable, verificando a partir de ella el cumplimiento de ciertas condiciones prefijadas.
a) Prueba de Chi2
Esta prueba permite verificar si una variable en estudio responde a una cierta distribución arbitraria. Es la de mayor generalidad y aplicación dentro de las no paramétricas y puede ser utilizada con variables de cualquier tipo, tanto cuantitativas como ordinales o nominales.
La hipótesis básica a probar es si la variable involucrada responde a una cierta distribución que se establece, la que puede ser tanto continua o discreta, como empírica o teórica. La hipótesis alternativa es la complementaria de la anterior, es decir, que la variable no responde a la distribución establecida.
En capítulos anteriores hemos visto dos casos de aplicación específica de esta prueba. El primero de ellos (Capítulo 2) correspondía a la verificación de la igualdad de frecuencias de clasificación de una variable. El segundo, en cambio, se refería a la verificación de la bondad de ajuste de una distribución teórica a una muestra de observaciones experimentales (Capítulo 3).
b) Prueba de Kolmogorov-Smirnov para una variable Esta prueba es similar a la de Chi2, ya que evalúa el grado de correspondencia entre una variable y una distribución prefijada. La prueba es de aplicabilidad menos general que la de Chi2, ya que requiere que la distribución establecida como hipótesis sea continua.
Se utiliza ahora como estadística de prueba el valor d, máxima diferencia en valor absoluto entre la función de probabilidad acumulada F(x) obtenida de la muestra y la F'(x), teórica, obtenida en base a la distribución adoptada en la hipótesis básica, como vimos en el punto 3.4.
c) Prueba de Wilcoxon
Esta prueba permite verificar si la mediana de una cierta variable se corresponde o no con un cierto valor que se establece. En la prueba se calculan los valores de una nueva variable, definida por la diferencia entre cada observación de la variable involucrada y el valor postulado de mediana. La estadística de prueba correspondiente se calcula a partir de los valores de los rangos de dichas diferencias.
d) Otras pruebas
- Signos: se aplica a variables con sólo dos valores posibles y se verifica en ella si el número de observaciones de cada valor en la variable se distribuye equiprobablemente.
- Rachas ("Runs"): se utiliza en el mismo tipo de variables que la prueba anterior y permite verificar si la secuencia de los dos valores de una variable se distribuye aleatoriamente.
- Mediana: se aplica a variables por lo menos de tipo ordinal y verifica la equiprobabilidad de los valores de la variable arriba o abajo de la mediana de la muestra o de otra prestablecida.
4.3.2 Pruebas sobre dos variables independientes Estas pruebas consideran hipótesis sobre dos variables independientes cuando se conocen sendas muestras de ellas.
a) Prueba Chi2
Esta prueba es una extensión a dos variables de la del mismo nombre presentada anteriormente para una variable. Ahora, la prueba permite verificar si dos variables independientes corresponden a la misma población (o distribución). Para ello se obtienen las frecuencias de clasificación de ambas muestras, a partir de cuyas diferencias se calcula la estadística de prueba x2.
b) Prueba de Mann - Whitney
Mediante esta prueba se puede verificar si dos variables X e Y independientes corresponden a la misma población o distribución. La prueba es aplicable tanto para variables de tipo cuantitativo como ordinal, ya que no utiliza directamente los valores de las observaciones, sino sus rangos. Dichos rangos se obtienen para las dos muestras en conjunto y la prueba evalúa de manera global la relación entre los rangos de ambas variables.
c) Prueba de Kolmogorov-Smirnov
Esta prueba es una extensión de la del mismo nombre, para una variable, al caso de dos variables independientes. Ahora la hipótesis que prueba es si las distribuciones no conocidas de dos variables independientes son similares. La prueba es similar a la correspondiente para una variable, utilizando ahora como estadística de verificación a la máxima diferencia d, en valor absoluto, entre las funciones experimentales de probabilidad acumulada obtenidas para cada muestra siguiendo el procedimiento descripto en 3.1: La prueba de Kolmogorov-Smirnov es, en general, menos potente que la de Mann-Whitney, excepto cuando las muestras consideradas son muy pequeñas.
4.3.3. Pruebas sobre dos variables relacionadas
Dentro de este grupo incluímos las pruebas no paramétricas que permiten evaluar el grado de correspondencia entre dos variables relacionadas, considerando una muestra de ellas.
a) Prueba de Wilcoxon
Esta prueba verifica si en base a observaciones relacionadas de dos variables X e Y puede establecerse o no que éstas siguen una misma distribución. La prueba se aplica tanto a variables cuantitativas como a aquéllas de tipo ordinal, en el caso de éstas últimas en la medida que la magnitud de las diferencias entre valores tenga cierto sentido físico.
La hipótesis básica en esta prueba considera que las dos variables siguen la misma distribución, sin necesitar definir ésta. Las hipótesis alternativas que se pueden plantear dependen que se establezca o no un sentido para la diferencia entre ambas distribuciones.
En la prueba se calculan los valores de una nueva variable, la diferencia entre cada par de observaciones de las variables X e Y la estadística de prueba correspondiente se calcula en base a los valores de los rangos de dichas diferencias.
b) Prueba de correlación de Spearman
En la sección 4.2 vimos una prueba de tipo paramétrico sobre el grado de relación entre dos variables X e Y, que involucraba el coeficiente de correlación r, calculado mediante una muestra de observaciones de dichas variables.
La prueba de Spearman es un equivalente no paramétrico de la anterior que considera al denominado coeficiente de correlación de Spearman rS. Este coeficiente de correlación se calcula de manera similar al coeficiente r, pero utilizando los rangos de las observaciones, en lugar de sus valores originales.
La prueba considera como hipótesis básica que no existe relación entre ambas variables, es decir rS=0. Las hipótesis alternativas pueden ser tanto en un sentido, como rS>0 ó rS<0, o en ambos sentidos, es decir, rS=0.
c) Prueba de correlación de rango de Kendall
Esta prueba es similar a la anterior, considerando ahora, en lugar del coeficiente de correlación rS el coeficiente de Kendall, con una interpretación equivalente al coeficiente de Spearman.