Estadística en Microcomputadores/Análisis Descriptivo de Series de Tiempo
8.2 ANALISIS DESCRIPTIVO DE SERIES DE TIEMPO
Las técnicas comprendidas dentro de este tema ayudan, por un lado, a entender el comportamiento global de una serie y a conocer las componentes que pueden estar contenidas en ella. Son útiles, además, cuando se trabaja con modelos, durante la etapa de identificación, para encontrar la estructura del modelo adecuada en principio a la serie de tiempo considerada. Los procedimientos de mayor aplicación para efectuar un análisis inicial de tipo descriptivo (o exploratorio) de una dada serie de tiempo, además de los genéricos vistos en el capítulo 2, son: la graficación de sus valores, el cálculo de coeficientes de autocorrelación y la obtención de valores suavizados ("smoothed"), que describimos en los puntos siguientes.
8.2.1 Graficación
Este procedimiento permite obtener una síntesis visual global del comportamiento de una o más series de tiempo, tanto formadas por valores experimentales como por transformaciones de ellas o residuos de un dado proceso.
Es usual realizar la graficación de series en un sistema de dos dimensiones, en el que el eje horizontal es el tiempo y el vertical el valor de la serie (o series) considerada. Dentro de ello existen diversas variantes de representación, mediante las cuales pueden destacarse visualmente ciertos comportamientos que interesa apreciar.
La posibilidad de graficación más directa es aquella en la que se indica la secuencia de valores de la variable considerada a lo largo del tiempo:
Otra forma típica de graficación de series de tiempo involucra el indicar cada valor no mediante un punto sino en forma relativa a uno o más valores de referencia que se establecen en cada caso. Por ejemplo, en la primera de las figuras siguientes se define un valor de referencia único, promedio del conjunto de observaciones, y los valores de la serie se grafican a lo largo del tiempo como barras relativas a aquel. En la segunda figura se establecen valores de referencia para periodos representativos consecutivos (semanas, años, etc) como promedio de los valores en cada uno de ellos.
8.2.2 Correlación en Series
En el capítulo 2 presentamos una estadística específica, el coeficiente de correlación, que medía el grado de relación lineal entre dos variables, y que tomaba valores entre -1 y 1. Este mismo concepto lo podemos trasladar al caso de una serie de tiempo, surgiendo los coeficientes de autocorrelación, de autocorrelación parcial y de correlación cruzada.
a) Coeficientes de Autocorrelación
El cálculo de este coeficiente es similar al caso de dos variables relacionadas, pero ahora evaluado entre pares de valores de la misma serie.
Para una misma serie, podemos obtener varios coeficientes de autocorrelación, según como consideremos en ella los pares de valores para el cálculo. Así, un primer coeficiente r1 resulta de considerar los n-1 pares que se forman con cada observación de la serie y la anterior. Generalizando, el coeficiente rk se obtiene considerando los n-k pares que se forman entre un valor de la serie y el que se encuentra k posiciones más atrás.
El conjunto r1 a rk de coeficientes de autocorrelación de una serie suministra una información útil sobre su comportamiento y el tipo de compnentes presentes en ella, así como sirve de ayuda en la etapa de identificación del modelo que se considera explica más adecuadamente la serie en estudio. En el cálculo computacional de los coeficientes es usual obtener representaciones visuales de un conjunto de ellos para una dada serie (correlogramas):
En dichas graficaciones se suelen incluir también intervalos de confianza de sus valores, para un nivel de significación dado (usualmente 5%), como se definieron en el capítulo 4. Si un dado rk se encuentra dentro de ellos podemos presuponer que su valor no es significativamente diferente de cero.
Otra prueba disponible involucra obtener la significación global de un conjunto de m coeficientes de autocorrelación correspondientes a una dada serie (prueba de Box-Pierce). En función de la suma cuadrática de estos coeficientes se obtiene una estadística de prueba, que sigue una distribución "Chi2" en el caso de que los coeficientes en conjunto no sean significativos.
b) Coeficientes de Autocorrelación Parcial
Estos coeficientes tienen un significado similar a los de autocorrelación vistos, ya que evalúan el grado de relación entre pares de valores de una serie separados un cierto número de posiciones (una o más), pero ahora considerando que se mantiene constante el efecto de otras separaciones. Su utilidad principal es como ayuda en la etapa de identificación ligada a algunos tipos específicos de modelos de serie de tiempo, como veremos más adelante.
Los coeficientes de autocorrelación parcial se vinculan con los coeficientes de autocorrelación rk mediante un sistema de ecuaciones lineales, cuya resolución permite obtener los valores de aquellos. Sus valores varían también entre -1 y +1 y para ellos pueden también definirse intervalos de confianza en torno al valor 0.
c) Coeficientes de Correlación Cruzada
Estos coeficientes se calculan de manera similar a los de autocorrelación, pero considerando valores de dos series relacionadas, en lugar de una. Así, por ejemplo, un coeficiente rk corresponde a la correlación entre cada valor de una serie y el de otra serie ubicado k posiciones adelante en el tiempo. De la misma manera un coeficiente r-k evalúa la correlación entre cada valor de una serie y el valor de otra serie ubicado k posiciones más atrás:
8.2.3 Suavizamiento ("smoothing")
Los procesos de suavizamiento o filtrado permiten obtener una apreciación del comportamiento general de una serie, para lo cual obtienen, a partir de ésta, una nueva serie en cuyos valores se reducen significativamente componentes no deseables de variación de los valores experimentales (aleatoriedad y, en algunos casos, estacionalidad). De esta manera la nueva serie obtenida resulta mucho más "inteligible" que la serie original, en cuanto a apreciar su comportamiento global.
Los criterios más conocidos y aplicados para el suavizado de una serie son los siguientes:
a) Promedios Móviles
De acuerdo a este criterio, cada valor de la serie suavizada se obtiene como promedio de un número definido de valores de la serie original y se ubica en una posición centrada con respecto a éstos. Por ejemplo, si consideramos cinco valores para el promedio, un valor genérico yt suavizado resulta, a partir de los valores de la serie experimental X:
yt = (xt-2+ xt-1+ xt+ xt+1+ xt+2)/5
El proceso de promedio móvil puede aplicarse varias veces consecutivas a los valores de una serie, lo que permite obtener diferentes grados de suavizamiento. Asimismo, resulta posible aplicar ponderadores diferentes a cada uno de los valores que forman cada promedio, con lo que se generaliza el proceso de suavizado ("Hanning"). Un posible ejemplo de ello sería el siguiente, considerando tres valores para el promedio:
yt = 0.25 x-1 + 0.5 xt + 0.25 xt+1
b) Métodos robustos de suavizamiento
Estos métodos, que en general se agrupan dentro del Análisis Exploratorio de Datos (ver capítulo 2), permiten obtener series suavizadas que se ven menos afectadas por valores experimentales extraordinarios que los métodos de promedio móvil.
Los métodos robustos se basan en un concepto similar al de promedios móviles, pero considerando ahora las medianas, en lugar de las medias aritméticas. Asimismo, resulta posible combinar varias operaciones de medianas móviles, obteniendo diferentes grados de suavizamiento. Dentro de estas operaciones se pueden contemplar también procesos de ponderación de los valores de medianas, igual que en el caso de los promedios móviles.
c) Regresión
Mediante las técnicas de regresión puede suavizarse una cierta serie experimental. Ello se logra ajustando a ella alguna función de regresión, considerando al tiempo como variable independiente:
yt = f(t)
Una vez obtenida dicha función, resulta directa la determinación con ella de los valores suavizados en correspondiencia con los de la serie original.
Las funciones f() más usuales son la lineal y aquellas que se transforman al caso lineal: potencial, exponencial, semilogarítmica, logística o polinómica.