Estadística en Microcomputadores/El proceso de Análisis de Variancia
5.2 EL PROCESO DE ANALISIS DE VARIANCIA
Como toda técnica que involucra el concepto de modelo estadístico el proceso del Análisis de variancia incluye etapas de identificación del modelo, estimación de sus coeficientes y verificación de la significación, adaptadas a las características específicas del tipo de modelo considerado por la técnica.
5.2.1 Identificación del modelo
El Análisis de Variancia se inicia con una etapa de identificación, donde se especifica el modelo Y = f() que se considera en principio más adecuado para explicar la influencia de los factores sobre la variable respuesta. En general, la estructura de los experimentos de los cuales provienen los datos y la correspondiente organización de éstos, orienta sobre el tipo de modelo a establecer.
Describimos seguidamente los modelos más usuales del Análisis de variancia, que consideran que la variable respuesta sigue una distribución normal con variancia constante, independiente de los valores de los factores (casos paramétricos).
Como dijimos, la aplicación más frecuente del Análisis de Variancia es a resultados de un conjunto de experimentos. En ese caso la formulación de un dado modelo de Análisis de Variancia está asociada al tipo de diseño experimental utilizado para obtener los datos a los que dicho modelo se aplica. Un cierto diseño experimental establece la manera en que se definen los valores de los factores a considerar en cada experimento a realizar para obtener un valor de la variable respuesta.
Todos los posibles modelos presentan variantes de una estructura aditiva, en la cual un cierto valor de la variable dependiente se explica como suma de un valor medio general y un conjunto de efectos diferenciales debidos a cada factor en forma independiente y/o a combinaciones de ellos. A continuación describiremos los tipos de modelos parámetricos más usuales, particularmente el denominado Modelo Factorial.
El Modelo factorial
De todos los modelos posibles dentro del Análisis de Variancia el más general es el denominado Modelo Factorial. Este modelo surge del diseño experimental del mismo nombre, el que considera que existe una o más observaciones de la variable Y para cada combinación de valores de los factores involucrados. Por ejemplo, el siguiente es un conjunto de datos resultante de experimentos con dos factores, X (con valores posibles 1 y 2) y Z (con valores 10, 50 y 100), experimentos definidos mediante un diseño factorial que involucra dos experimentos por cada combinación de factores (las observaciones faltantes en el diseño se supone que corresponden a experimentos fallidos):
X Z Y
1 10 y1
1 10 y2
1 50 y3
1 100 y4
1 100 y5
2 10 y6
2 50 y7
2 50 y8
2 100 y9
2 100 y10
El modelo factorial prtende explicar cada valor de la
variable Y mediante una función que incluye en principio los
efectos aditivos de cada factor y los de cada posible
interrelación entre ellos. Por ejemplo, para el caso anterior,
de dos factores X y Z, el modelo factorial que se puede plantear
para cada observación de la variable dependiente Y es el
siguiente:
yi(jk) = + j + k + jk + ei
siendo:
yi(jk) Observación i de la variable Y, con valores j y k de los factores X y Z.
Valor medio general de la variable Y.
j Efecto diferencial que sobre la variable Y produce el valor j del factor X.
k Idem, factor Z.
jk Efecto diferencial que sobre la variable Y produce la combinación o interacción de los valores j,k de los factores. ei Error o residuo que contiene la parte del valor yi no explicada por los coeficientes anteriores.
En el caso de involucrar tres factores el modelo podría incluir, siempre de manera aditiva, los efectos de cada factor considerado en forma independiente, los tres efectos de las combinaciones de los factores de a pares y el efecto de la combinación de los tres factores en conjunto.
En un modelo factorial no es necesario incorporar todos los términos posibles, definiéndose ello según la comprobación que se quiera establecer con su aplicación, o el grado de significación a priori que se presuponga para ciertos efectos. Por otra parte, los efectos de interrelaciones entre los factores pueden incluirse en el modelo si en los grupos formados por dichos factores se dispone de más de una observación. Por ejemplo, en el caso de dos factores, resulta posible incluir en el modelo dicho efecto si se tiene más de una observación para cada combinación de valores de ambos factores.
Otros modelos
Dentro de los criterios para establecer los experimentos a efectuar en una dada aplicación han surgido diversos diseños alternativos al caso factorial, con la finalidad básica de reducir la cantidad de experimentos a realizar o, asociado a ello, la variabilidad de la variable respuesta. Dichos criterios de diseño experimental pueden dar lugar a modelos específicos de Análisis de Variancia, con los que resulta posible evaluar los resultados de los experimentos obtenidos.
Cada uno de estos modelos tiene un tratamiento específico en lo que respecta a la etapa de evaluación. No obstante, para su realización es siempre posible utilizar los criterios del modelo factorial, reduciendo así la necesidad de disponer de procedimientos para cada modelo. Esto justifica que la mayor parte de los programas estadísticos sólo consideran el modelo factorial, incluyendo sólo algunos de ellos procesamientos directos de otros modelos de Análisis de Variancia.
a) Modelos jerárquicos o anidados ("nested")
Este tipo de modelos provienen de diseños experimentales en los cuales la ocurrencia de los valores de uno de los factores está supeditada a los valores de otro (u otros) factor, lo que permite reducir el número de experimentos a realizar. Por ejemplo, en el caso de tres factores X, W y Z, el factor Z está anidado dentro del factor W si cada uno de sus valores posibles se presenta con a lo sumo un valor de W.
El modelo de Análisis de Variancia que se deriva de este tipo de diseño experimental puede contemplar efectos diferenciales de cada factor en forma independiente, pero no puede incluir efectos de interacciones entre factores.
b) Cuadrados Latinos
Los denominados Cuadrados Latinos constituyen un caso particular de diseño experimental con tres factores en el que todos ellos tienen un número igual de valores posibles. Estos se combinan de manera tal que cada valor del primer factor se presenta una sola vez con cada valor del segundo y con cada valor del tercer factor.
Con este diseño se reduce el número de observaciones a obtener, con respecto al caso factorial, pero en el modelo resultante no es posible evaluar efectos de interacciones entre factores.
c) Modelo "Split-plot"
El modelo "split-plot" proviene del diseño experimental del mismo nombre e intenta reducir la variabilidad de los resultados en algunas situaciones experimentales específicas. Por ejemplo, en el caso de tener tres factores X,W y Z, el diseño "splitplot" asigna valores al azar del factor W a cada valor del Z y, a su vez, valores al azar del factor X a cada valor de W. 5.2.2 Estimación de los coeficientes del modelo En la aplicación del Análisis de Variancia a un conjunto de datos experimentales, una vez especificado el modelo concreto a considerar, se efectúa la estimación de los coeficientes de éste, vale decir, los efectos diferenciales j, k, jk (en el caso de dos factores), para cada valor posible de los factores sólos o de sus interacciones.
Dicha estimación se realiza siguiendo el criterio de lograr los errores cuadráticos mínimos, es decir, obtener los valores de los coeficientes que minimicen la suma de los ei2 para el conjunto de observaciones considerado. La estimación según este criterio es directa, sobre la base de obtener los promedios de la variable respuesta para los diferentes grupos de observaciones definidos por los valores de los factores. 5.2.3 Verificación de la significación del modelo Cuando la variable Y sigue una distribución normal, con variancia constante entre las diversas subpoblaciones de ella definidas por los diferentes valores de los factores, podemos realizar pruebas del grado de significación de los efectos establecidos en el modelo.
Mediante la evaluación, la etapa más relevante en el caso de los modelos de Análisis de Variancia, se verifica el grado de adecuación del modelo a los datos experimentales y, lo que es más importante, se establece el nivel de significación de la influencia global de los diferentes valores de los factores sobre la variable respuesta, objetivo principal de la técnica. Por ejemplo, para el modelo factorial planteado anteriormente, con dos factores, resulta posible verificar si los efectos j, k, o jk, son significativos, es decir, si pueden estadísticamente considerarse distintos de cero. Esto equivale a que los diferentes valores del factor X, del Z, o de ambos combinados, respectivamente, tienen un efecto significativo sobre los valores de la variable Y. En la verificación aparecen los conceptos vistos en el capítulo 4 para las pruebas estadísticas: definición de una hipótesis básica a comprobar y su alternativa, cálculo de una estadística de prueba y determinación a partir de ella del nivel de significación resultante.
La hipótesis básica que se plantea en la verificación de un dado modelo de Análisis de Variancia considera que los efectos diferenciales definidos en él son nulos para todos los valores posibles de los factores.
En el caso de que se establezca un sólo factor, o cuando en el caso de dos o más factores se tenga igual número de observaciones por cada combinación de valores de quellos (diseños balanceados), la ejecución de la verificación es relativamente directa y se basa en la determinación de la variación de la variable Y (suma de desvíos cuadráticos con respecto a la media) en las observaciones consideradas y cómo ella se reparte entre las diversas causas que la constituyen. Dichas causas dependen de la estructura planteada para el modelo de Análisis de variancia y pueden ser: cada uno de los factores considerado en forma independiente, las interacciones entre ellos, los términos de error, etc.
Cada una de las causas definidas contribuye, de manera aditiva, a la variación total de la variable Y. Sobre la base de estas variaciones parciales se calcula una estadística de prueba para cada causa posible de variación de la variable Y. Las estadísticas de prueba así calculadas siguen una distribución "F" en el caso de que para la correspondiente causa se cumpla la hipótesis básica, es decir, que sus efectos diferenciales sean nulos para todos los valores del factor considerado. Esta propiedad permite obtener los niveles de significación de la hipótesis, como vimos en el capítulo 4. En el caso de que en el conjunto de datos experimentales considerado no se cumpla la igualdad de observaciones entre los diferentes subgrupos (diseños no balanceados) no resulta posible efectuar la verificación de la manera directa presentada, salvo que las diferencias en el número de observaciones entre los diferentes grupos sean relativamente pequeñas y aleatorias con respecto a los valores de los factores, caso en que los resultados del cálculo directo tienen en general una aproximación razonable.
La aplicación del Análisis de Variancia a juegos de datos con diferencias en el número de observaciones en los diversos grupos de observaciones requiere estrictamente la utilización del denominado Modelo Lineal General. Este modelo es una generalización del caso lineal que veremos en Regresión (Capítulo 6) y constituye la base teórica de diversas técnicas, además de ésta y del Análisis de Variancia (como el Análisis Discriminante y otras).
La verificación que se efectua en el Análisis de Variancia es global, estableciendo si un cierto factor o una interrelación entre ellos tiene efecto significativo sobre la variable respuesta, sin precisar cuáles de los valores del factor son los que determinan dicho efecto y cuáles no. Establecer posibles diferencias en la variable respuesta según los diversos valores de un factor requiere efectuar comparaciones específicas, también denominadas contrastes. Por ejemplo, para dos valores j y m de un factor, su comparación involucra verificar la significación de la diferencia:
yj - ym
donde yj e ym son los valores medios de la variable Y en las observaciones que tienen valores j y m del factor, respectivamente.
Generalizando este tipo de comparaciones o contrastes resulta posible evaluar la significación de relaciones entre medias, tales como:
cjyj + cmym + ... + cpyp cm = 0
Para cada relación entre medias cuya significación se quiera verificar se puede establecer una estadística de prueba específica, que responde también a una distribución "F", en caso de que el contraste definido no sea significativo.