Estadística en Microcomputadores/Regresión Lineal
16.1 REGRESION LINEAL
Dentro de esta opción resulta posible efectuar procesos de regresión básicamente sobre modelos o funciones de tipo lineal, entre una variable dependiente Y y un conjunto de variables independientes X1 a Xk, todas ellas relacionadas entre sí, para lo cual se utilizan los procedimientos específicos presentados en el Cuadro 16.1 .
Dentro de la opción de regresión lineal el sistema ESTAD incluye también la posibilidad de analizar un conjunto predefinido de modelos no lineales, pero que pueden ser llevados al caso lineal mediante transformaciones apropiadas, en cada caso. Otras transformaciones se pueden manejar indirectamente, efectuando previamente las transformaciones de variables correspondientes.
En el Cuadro 16.2 se presentan las funciones específicas contempladas en el sistema, así como las transformaciones por las cuales se las lleva al modelo lineal. El sistema efectúa de manera automática las transformaciones de los datos específicas de cada función, sin modificar los valores originales contenidos en la memoria de trabajo, aplicando a partir de ello los procedimientos considerados para el modelo lineal.
La ejecución de un proceso de regresión lineal, una vez seleccionada la opción correspondiente en el menú general del tema, requiere efectuar los pasos que se describen a continuación:
a) Selección del tipo de función a considerar, del siguiente menú:
FUNCION DE REGRESION
1 - LINEAL Y = a0 + a1*X1 + ... + ak*Xk
2 - Potencial Y = a0 * (X1^a1) * ... * (Xk^ak)
3 - Exponencial Y = a0 * exp(a1*X1 + ... + ak*Xk)
4 - Expon.Gral Y = a0 * (a1^X1) * ... * (ak^Xk)
5 - Semilogaritm. Y = a0 + a1*Ln(X1) + ... + ak*Ln(Xk)
6 - Hiperbolica Y = ao + a1/X1 + ... + ak/Xk
7 - Logistica Y = exp(a0 + a1/X)
8 - Polinomica Y = ao + a1*X^1 + ... + ak^X^k
b) En el caso de haber seleccionado una función polinómica, se ingresa el grado k del polinomio.
c) Interrogación sobre si se considera o no el coeficiente independiente a0 en la función de regresión. En caso de no considerarse se asume que a0 toma el valor 0 en las funciones lineal, semilogarítmica, hiperbólica, logística y polinómica, y 1 en las restantes.
d) Selección de las variables a considerar en el proceso, de acuerdo al procedimiento definido en . Se definen en primer lugar las variables independientes y, por último, la variable dependiente. El proceso de regresión permite considerar datos de tipo agrupado.
En el caso de haber seleccionado la función polinómica se debe definir una sola variable independiente.
e) Ejecución del proceso por el computador y presentación en pantalla de los siguientes resultados:
- Función de regresión considerada.
- Variable dependiente Y involucrada.
- Para cada variable independiente Xj (se incluye dentro de ello al coeficiente independiente a0):
. Descripción de la variable
. Coeficiente aj de la función de regresión
. Desvío sj del coeficiente aj
. Estadística de prueba t para la evaluación de la significación de aj
. Nivel de significación del coeficiente aj
- Coeficiente de determinación R2 de la regresión y el mismo corregido.
- Desvío de los residuos ei entre los valores exprimentales de Y y los estimados por el modelo.
f) Se pueden efectuar diversos procesos complementarios, seleccionando las opciones correspondientes del siguiente menú:
PROCESOS COMPLEMENTARIOS
1 - Cálculo de Coeficientes de Correlación
2 - Análisis de Variancia
3 - Prueba de Durbin-Watson
4 - Cálculo de valores estimados y Residuos
5 - Predicción de Valores de Y
6 - Graficación
g) Si en el menú anterior se elige la opción 1, Cálculo de Coeficientes de Correlación, el computador realiza el proceso correspondiente y presenta en pantalla dichos coeficientes entre cada par de variables definidas en el paso a), de manera similar a la opción incluida dentro del proceso de Cálculo de Estadísticas Descriptivas (sección ).
h) Si se elige la opción 2 el computador efectúa el proceso de Análisis de variancia, presentando en pantalla la tabla de varificación correspondiente, similar a la vista en el capítulo 15.
i) Mediante la opción 3 se efectúa la prueba de Durbin- Watson para la verificación de la significación de la autocorrelación en los valores de los residuos de la regresión para el conjunto de datos analizados. Una vez elegida la opción el computador efectúa el proceso correspondiente y presenta en pantalla la estadística de prueba correspondiente.
j) En el caso de elección de la opción 4, cálculo de valores estimados y residuos, se definen optativamente las posiciones de la memoria de trabajo donde ellos se almacenarán. El computador calcula para cada observación el valor estimado de la variable dependiente y el correspondiente residuo, presentándolos en pantalla y almacenándolos en las posiciones de la memoria de trabajo definidas anteriormente. En la misma salida se grafica, en correspondencia con cada observación, el valor del residuo, normalizado mediante el desvío estándar del conjunto de ellos.
k) Si se eligió la opción 5 del menú de procesos complementarios resulta posible predecir valores de la variable dependiente para nuevas observaciones de las variables X1 a Xk. Para cada una de ellas se ingresan los valores de dichas variables.
El computador efectúa el cálculo y presenta en pantalla el valor estimado resultante de la variable Y, así como los intervalos de confianza correspondientes a dicho valor (considerado éste como promedio de las observaciones con los valores definidos de las variables independientes, o correspondiente a una observación individual con los mismos valores de dichas variables).
l) Mediante la opción 6 resulta posible obtener gráficos de las observaciones contenidas en la memoria de trabajo, de manera similar a la opción equivalente incluida dentro del tema Análisis Descriptivo de datos (Sección ).
Como ejemplos del proceso descripto se considera seguidamente la ejecución de dos regresiones sobre el conjunto de datos referidos a los países de América Latina (AMERLAT), previamente cargados en la memoria de trabajo.
En la primera de ellas se obtiene la relación lineal entre la esperanza de vida de cada país y las siguientes variables:
PBN/Cápita, Calorías/Cápita y médicos por mil habitantes, de acuerdo al siguiente modelo:
EspVida = a0 + a1*PBN/cap + a2*Cal/cap + a3*Med/hab
Los cálculos principales involucrados en la aplicación son:
Suma de valores de las observaciones para cada variable y
suma de productos de valores de pares de variables:
Variable Suma de Suma de Productos de Observ.
Observac. PBN/Cap Cal/cap Med/hab EspVida
PBN/Cap 32320 6.7561E7 3560050 91871.8
2150030
Cal/cap 2143 232667 5147.02 139012
Med/hab 46.79 157.27 2143
EspVida 1288 83764
Coeficientes conocidos del sistema de ecuaciones lineales:
20 32320 2143 46.79
32320 6.7561E7 3560050 91871.8
W = 2143 3560050 232667 5147.02
46.79 91871.8 5147.02 157.27
1288
2150030
B = 139012
3156.17
Resolviendo el sistema de ecuaciones lineales se obtienen los valores estimados de los coeficientes aj y los valores wjj-1 de la diagonal de la matriz inversa W-1:
a0 = 35.734 7.256E-2
a1 = 0.0009 wjj-1 = 1.1355E-7
a2 = 0.2077 4.1656E-4
a3 = 2.0864 3.3142E-2
Promedio de la variable Y:
y = (70 +...+68)/20 = 64.4
Suma de desvíos cuadraticos:
. Variable Y: SDY=(70-64.4)2+...+(68-64.4)2 = 816.8
. Residuos e: SDe=(-3.244)2+...+(-1.709)2 = 260.58 Variancias:
. Variable Y: s2Y = 816.8/(20-1) = 42.99
. Residuos e: s2e = 260.58/(20-3) = 15.33
Coeficientes de Determinación:
R2 = 1 - 260.58/816.8 = 0.7
R2 = 1 - 15.33/42.99 = 0.643 (corregido)
Desvío de errores:
se = 15.33 = 3.915
Verificación de la significación de los coeficientes aj
Para a1:
s1 = 3.915 * 1.1355E-7 = 0.0013
t1 = 0.00095 / 0.0013 = 0.72
= 100*2*( 1 - Ft(0.72) ) = 48.75 %
b) En este segundo ejemplo se resuelve un modelo potencial con las mismas variables que en el caso anterior: EspVida = a0 * PBN/cap a1 * Cal/cap a2 * Med/hab a3 Las sumas de valores de las variables transformadas y de sus correspondientes productos son ahora:
Variable Suma de Suma de Productos de Observ.
Observac. PBN/Cap' Cal/cap' Med/hab' EspVida'
PBN/Cap' 1051.97 675.52 98.56 602.23
Cal/cap' 436.03 60.85 388.53
Med/hab' 16.85 54.68
EspVida' 346.33
A partir de estos valores los cálculos son similares al caso lineal.
CUADRO 16.1 - PROCEDIMIENTO DE REGRESION LINEAL
Modelo
yi= a0+ a1x1i+ ...+ ajxji+ ...+ akxki+ ei siendo:
yi Valor de la variable Y en la observación i. x1i,..., xji,..., xki
Valores de la variables independientes X1,..., Xj,..., Xk en la observación i.
a0,a1,...,aj,...ak
Coeficientes o parámetros del modelo.
ei Error o Residuo del modelo en la observación i
Estimación de los coeficientes del modelo
Los valores de los coeficientes a1,...,ak para una dado conjunto de observaciones de las variables anteriores se estiman resolviendo el siguiente sistema de ecuaciones lineales:
w00a0 + w10a1 +...+ wj0aj + wk0ak = b0
w01a0 + w11a1 +...+ wj1aj + wk1ak = b1
...........................................
..................+ wjmaj+................
...........................................
w0ka0 + w1ka1 +...+ wjkaj + wkkak = bk siendo:
wjm = xjixmi bm = xjiyi
El sistema de ecuaciones, expresado en forma matricial, resulta:
W A = B
Para el cálculo de los valores wj0, w0m y b0 se define una variable ficticia X0, asociada al coeficiente a0, que toma valor 1 en todas las observaciones. En el caso de que se adopte a priori que a0=0 (modelo sin término independiente) dicha variable no se define y desaparece en el sistema de ecuaciones la fila y la columna de a0.
A partir del sistema de ecuaciones se obtienen los valores estimados de los coeficientes, haciendo:
A = W-1 B
siendo W-1 la inversa de la matriz W.
Evaluación del Modelo
a) Indicadores Globales
.Desvío de los residuos ei: sE = ( (yi-y)2)/(n-k-1)
.Coeficiente de Determinación: R2 = 1 - SDe/SDy
.Idem, corregido: R2 = 1 - (sE/sy)2 siendo:
SDe: Suma de residuos cuadráticos ei2
SDy: Suma de desvíos cuadrát. de Y (yi-y)2
sy: Desvío Estándar de Y.
b) Significación de los coeficientes del modelo La hipótesis básica que se verifica para cada coeficiente aj es:
aj = 0
siendo la alternativa:
aj = 0
La estadística de prueba resulta:
tj = aj / sj
siendo sj el desvío del coeficiente aj:
sj = sE wjj-1
donde wjj-1 es el elemento ubicado en la posición jj
(diagonal principal) de la matriz inversa W-1.
El nivel de significación j resultante es:
j = 2*(1 - FT( tj )
FT(): Función de probabilidad acum. distrib "t" con parámetro k=nc)
Análisis de variancia
La verificación que se realiza en el Análisis de Variancia se aplica en la Regresión para evaluar globalmente la significación del modelo para explicar la variación de la variable Y.
En este caso la verificación es similar a la que se efectúa en el Análisis de Variancia considerando un factor, tomando ahora al modelo como causa de variación de la variable Y. Las sumas de desvíos cuadráticos y grados de libertad correspondientes resultan:
SDMODELO = (yi - y)2
Grados de libertad = k+1
SDERROR = (yi - y)2
Grados de libertad = n-k-1
A partir de estos indicadores la verificación es similar a la vista para el Análisis de Variancia con un factor.
d) Prueba de Durbin-Watson
Mediante esta prueba se verifica si existe autocorrelación positiva (ver capítulo 9) significativa entre valores consecutivos de los residuos que se obtienen al aplicar el modelo de regresión al conjunto de datos experimentales involucrado.
La hipótesis básica a probar es que el coeficiente de autocorrelación entre valores consecutivos de los residuos es nulo, mientras que la alternativa es que sea positivo. La estadística de prueba d se obtiene mediante la expresión:
d = (ei - ei-1)2 / ei2
Para un dado un nivel de significación se obtienen de tablas dos valores límite dL y dU, con los que se puiede rechazar o no la hipótesis planteada.
Cuando no resulta posible obtener los residuos de todas las observaciones, debido a la presencia de valores faltantes en algunas de ellas se consideran para el cálculo de la estadística d los pares de observaciones consecutivas para los que se obtienen valores de residuos.
Predicción
El valor estimado y de la variable Y, para valores x1 a xk de las variables independientes, resulta:
y = a0 + a1x1 + ... + akxk
Los intervalos de confianza del valor y son:
. Considerando que y es el promedio de las diversas estimaciones para los mismos valores de las variables independientes:
y + t1- /2 sE hi
. Considerando que y es un valor individual:
y + t1- /2 sE 1 + hi
siendo:
t1- /2 Valor de la distribución "t" para F(t)=1- /2,
con parámetro k =
hi = xj ( wjmxj)
CUADRO 16.2 - TRANSFORMACIONES AL MODELO LINEAL DE REGRESION
FUNCION GRAFICO TRANSFORMACION
Potencial
15 - 262
Y=a0(X1)a1...(Xk)ak Y'=a0'+a1X1'+...+
+akXk'
Exponencial
Y=exp(a0+a1X1+...+ Y'=a0'+a1X1+...+
+akXk) +akXk
Exponenc.Gral.
Y=a0a1X1...akXk Y'=a0'+a1'X1+...+
+ak'Xk
Semilogarítmica
Y=a0+a1Ln(X1)+ Y=a0+a1X1'+...+
+...+akLn(Xk) +akXk'
Hiperbólica
Y=a0+a1/X1+ Y=a0+a1X1"+...+
+...+ak/Xk +akXk"
Logística
Y=exp(a0+a1/X) Y'=a0+a1/X
Polinómica
Y=a0+a1X+a2X2+ Y=a0+a1X1+
+...+akXk +a2X2+..+akXk
Y'=Ln(Y) X'=Ln(X) X"=1/X Xj=Xj aj'=Ln(aj)
En los casos en que los coeficientes se transforman la prueba de aj'=0 en la función transformada equivale a aj=1 en la función original.