Skip to main content

Modelos Estacionário Autoregressivo Integrados Móveis Médios


A RIMA significa Autoregressive Integrated Moving Average modelos. Univariada (vetor único) ARIMA é uma técnica de previsão que projeta os valores futuros de uma série baseada inteiramente em sua própria inércia. Sua principal aplicação é na área de previsão de curto prazo, exigindo pelo menos 40 pontos de dados históricos. Ele funciona melhor quando seus dados exibem um padrão estável ou consistente ao longo do tempo com uma quantidade mínima de outliers. Às vezes chamado Box-Jenkins (após os autores originais), ARIMA é geralmente superior a técnicas de suavização exponencial quando os dados são razoavelmente longos ea correlação entre as observações passadas é estável. Se os dados são curtos ou altamente voláteis, então algum método de suavização pode funcionar melhor. Se você não tiver pelo menos 38 pontos de dados, você deve considerar algum outro método que ARIMA. O primeiro passo na aplicação da metodologia ARIMA é verificar a estacionaridade. Estacionariedade implica que a série permanece a um nível bastante constante ao longo do tempo. Se houver uma tendência, como na maioria das aplicações econômicas ou de negócios, os dados NÃO são estacionários. Os dados também devem mostrar uma variação constante em suas flutuações ao longo do tempo. Isso é facilmente visto com uma série que é fortemente sazonal e crescendo a um ritmo mais rápido. Nesse caso, os altos e baixos da sazonalidade se tornarão mais dramáticos ao longo do tempo. Sem que estas condições de estacionaridade sejam satisfeitas, muitos dos cálculos associados ao processo não podem ser calculados. Se um gráfico gráfico dos dados indica nonstationarity, então você deve diferenciar a série. A diferenciação é uma excelente maneira de transformar uma série não-estacionária em uma estacionária. Isto é feito subtraindo a observação no período atual do anterior. Se essa transformação é feita apenas uma vez para uma série, você diz que os dados foram primeiro diferenciados. Este processo elimina essencialmente a tendência se sua série está crescendo em uma taxa razoavelmente constante. Se ele está crescendo a uma taxa crescente, você pode aplicar o mesmo procedimento e diferença os dados novamente. Seus dados seriam então segundo diferenciados. Autocorrelações são valores numéricos que indicam como uma série de dados está relacionada a si mesma ao longo do tempo. Mais precisamente, ele mede quão fortemente os valores de dados em um número específico de períodos separados estão correlacionados entre si ao longo do tempo. O número de períodos separados é geralmente chamado de lag. Por exemplo, uma autocorrelação no intervalo 1 mede como os valores 1 intervalo de tempo são correlacionados um ao outro ao longo da série. Uma autocorrelação no intervalo 2 mede como os dados dois períodos separados estão correlacionados ao longo da série. As autocorrelações podem variar de 1 a -1. Um valor próximo a 1 indica uma alta correlação positiva, enquanto um valor próximo a -1 implica uma correlação negativa alta. Essas medidas são mais frequentemente avaliadas através de gráficos gráficos chamados correlagramas. Um correlagram traça os valores de auto-correlação para uma dada série em diferentes defasagens. Isto é referido como a função de autocorrelação e é muito importante no método ARIMA. A metodologia ARIMA tenta descrever os movimentos em séries temporais estacionárias em função dos parâmetros chamados auto-regressivos e de média móvel. Estes são referidos como parâmetros AR (autoregessive) e MA (médias móveis). Um modelo AR com apenas um parâmetro pode ser escrito como. X (t) A (1) X (t-1) E (t) onde X (t) séries temporais sob investigação A (1) o parâmetro autorregressivo de ordem 1 X (t-1) (T) o termo de erro do modelo Isto simplesmente significa que qualquer valor dado X (t) pode ser explicado por alguma função de seu valor anterior, X (t-1), mais algum erro aleatório inexplicável, E (t). Se o valor estimado de A (1) fosse .30, então o valor atual da série estaria relacionado a 30 de seu valor 1 período atrás. Naturalmente, a série poderia estar relacionada a mais do que apenas um valor passado. Por exemplo, X (t) A (1) X (t-1) A (2) X (t-2) E (t) Isso indica que o valor atual da série é uma combinação dos dois valores imediatamente anteriores, X (t-1) e X (t-2), mais algum erro aleatório E (t). Nosso modelo é agora um modelo autorregressivo de ordem 2. Modelos de média móvel: Um segundo tipo de modelo Box-Jenkins é chamado de modelo de média móvel. Embora esses modelos parecem muito semelhantes ao modelo AR, o conceito por trás deles é bastante diferente. Os parâmetros de média móvel relacionam o que acontece no período t apenas aos erros aleatórios que ocorreram em períodos de tempo passados, isto é, E (t-1), E (t-2), etc., em vez de X (t-1), X T-2), (Xt-3) como nas abordagens autorregressivas. Um modelo de média móvel com um termo MA pode ser escrito da seguinte forma. O termo B (1) é chamado de MA de ordem 1. O sinal negativo na frente do parâmetro é usado apenas para convenção e normalmente é impresso Automaticamente pela maioria dos programas de computador. O modelo acima diz simplesmente que qualquer valor dado de X (t) está diretamente relacionado apenas ao erro aleatório no período anterior, E (t-1) e ao termo de erro atual, E (t). Como no caso de modelos autorregressivos, os modelos de média móvel podem ser estendidos a estruturas de ordem superior cobrindo diferentes combinações e comprimentos médios móveis. A metodologia ARIMA também permite a construção de modelos que incorporem parâmetros de média móvel e autorregressiva. Estes modelos são muitas vezes referidos como modelos mistos. Embora isso torne uma ferramenta de previsão mais complicada, a estrutura pode de fato simular melhor a série e produzir uma previsão mais precisa. Modelos puros implicam que a estrutura consiste apenas de AR ou MA parâmetros - não ambos. Os modelos desenvolvidos por esta abordagem são geralmente chamados de modelos ARIMA porque eles usam uma combinação de auto-regressão (AR), integração (I) - referindo-se ao processo inverso de diferenciação para produzir as operações de previsão e média móvel (MA). Um modelo ARIMA é normalmente indicado como ARIMA (p, d, q). Isso representa a ordem dos componentes autorregressivos (p), o número de operadores de diferenciação (d) e a ordem mais alta do termo médio móvel. Por exemplo, ARIMA (2,1,1) significa que você tem um modelo autorregressivo de segunda ordem com um componente de média móvel de primeira ordem cuja série foi diferenciada uma vez para induzir a estacionaridade. Escolhendo a especificação certa: O principal problema no clássico Box-Jenkins está tentando decidir qual especificação ARIMA usar-i. e. Quantos parâmetros AR e / ou MA devem ser incluídos. Isto é o que muito de Box-Jenkings 1976 foi dedicado ao processo de identificação. Ela dependia da avaliação gráfica e numérica das funções de autocorrelação da amostra e autocorrelação parcial. Bem, para os seus modelos básicos, a tarefa não é muito difícil. Cada um tem funções de autocorrelação que parecem uma certa maneira. No entanto, quando você subir em complexidade, os padrões não são tão facilmente detectados. Para tornar as questões mais difíceis, seus dados representam apenas uma amostra do processo subjacente. Isto significa que os erros de amostragem (outliers, erro de medição, etc.) podem distorcer o processo de identificação teórica. É por isso que a modelagem ARIMA tradicional é uma arte e não uma ciência. Jornal de Matemática e Estatística Volume 7, Edição 1 Declaração do problema: A maioria dos modelos SARIMA (Seasonal Autoregressive Integrated Moving Average) utilizados para previsão de séries temporais sazonais são modelos SARIMA multiplicativos. Estes modelos supõem que há um parâmetro significativo como resultado da multiplicação entre parâmetros não sazonais e sazonais sem teste por teste estatístico. Além disso, a maioria de software estatístico popular tal como MINITAB e SPSS tem somente facilidade para caber um modelo multiplicative. O objetivo desta pesquisa é propor um novo procedimento para identificar a ordem mais adequada do modelo SARIMA, quer se trate de subconjunto, multiplicativo ou aditivo ordem. Em particular, o estudo examinou se existia um parâmetro multiplicativo no modelo SARIMA. Abordagem: A derivação teórica sobre as funções de Autocorrelação (ACF) e Autocorrelação Parcial (PACF) do modelo SARIMA subconjunto, multiplicativo e aditivo foi discutida em primeiro lugar e, em seguida, o programa R foi utilizado para criar os gráficos destes ACF e PACF teóricos. Em seguida, utilizaram-se dois conjuntos de dados mensais como estudos de caso, isto é, os dados de passageiros das companhias aéreas internacionais e séries sobre o número de chegadas de turistas a Bali, na Indonésia. A etapa de identificação do modelo para determinar a ordem do modelo ARIMA foi feita usando o programa MINITAB e o programa de estimativa do modelo usado SAS para testar se o modelo consistia em subconjunto, multiplicativo ou ordem aditiva. Resultados: O ACF e o PACF teóricos mostraram que os modelos SARIMA subconjunto, multiplicativo e aditivo apresentam padrões diferentes, especialmente no desfasamento como resultado da multiplicação entre os retornos não sazonais e sazonais. A modelagem dos dados das companhias aéreas resultou num modelo SARIMA do subconjunto como o melhor modelo, enquanto que um modelo aditivo SARIMA é o melhor modelo para prever o número de chegadas de turistas a Bali. Conclusão: Ambos os estudos de caso mostraram que um modelo multiplicativo SARIMA não era o melhor modelo para prever esses dados. A avaliação de comparação mostrou que os modelos SARIMA subconjunto e aditivo forneceram valores de previsão mais precisos em conjuntos de dados de amostras fora do que o modelo SARIMA multiplicativo para os conjuntos de dados de chegadas de companhias aéreas e turistas, respectivamente. Este estudo é uma valiosa contribuição para o procedimento de Box-Jenkins particularmente na identificação do modelo e as etapas de estimativa no modelo SARIMA. Trabalhos adicionais envolvendo vários modelos ARIMA sazonais, como a previsão de dados de carga de curto prazo em determinados países, podem fornecer insights adicionais sobre o subconjunto, ordens multiplicativas ou aditivas. Cópia 2011 Suhartono. Este é um artigo de acesso aberto distribuído sob os termos da Creative Commons Attribution License. Que permite o uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original e fonte são creditados. Generalized Seasonal Autoregressive Modelos de média móvel integrada para dados de contagem com aplicação à malária Series temporais com números baixos Afiliações International Water Management Institute, Colombo, Sri Lanka, Departamento de Epidemiologia e Saúde Pública, Instituto Suíço de Saúde Tropical e de Saúde Pública, Basel, Suíça, Universidade de Basileia, Basileia, Suíça Afiliação Departamento de Epidemiologia do Sul da Ásia, Patancheru, Andhra Pradesh, Índia E Saúde Pública, Instituto Suíço de Saúde Tropical e Saúde Pública, Basileia, Suíça, Universidade de Basileia, Basileia, Suíça Modelos de Média Móvel Integrada Sazonal Autoregressiva Modelos de Dados de Contagens com Aplicação à Malária Séries Temporais com Baixos Números Olivier JT Brit, Priyanie H. Amerasinghe , Penelope Vounatsou In Com o impulso renovado para a eliminação da malária, é necessário melhorar as ferramentas de vigilância. Embora a análise de séries temporais seja uma ferramenta importante para a vigilância, a previsão e para medir o impacto das intervenções, as aproximações por métodos gaussianos comumente usados ​​são propensas a imprecisões quando a contagem de casos é baixa. Portanto, são necessários métodos estatísticos apropriados para os dados de contagem, especialmente durante as fases de consolidação e pré-eliminação. Os modelos de média móvel autorregressiva generalizada (GARMA) foram estendidos aos modelos de média móvel integrada autorregressiva sazonal (GSARIMA) para modelagem parcimoniosa conduzida por observação de séries temporais de dados não gaussianos, não estacionários e ou sazonais. Os modelos foram aplicados a séries mensais de casos de malária num distrito do Sri Lanka, onde a malária diminuiu drasticamente nos últimos anos. A série de malária mostrou mudanças de longo prazo na variância média, instável e sazonalidade. Após a montagem de modelos bayesianos binomiais negativos, foram selecionados um modelo de sazonalidade determinista GSARIMA e GARIMA com base em critérios diferentes. As distribuições preditoras posteriores indicaram que os modelos binomiais negativos forneceram melhores previsões do que os modelos gaussianos, especialmente quando as contagens eram baixas. Os modelos G (S) ARIMA foram capazes de capturar a autocorrelação na série. Conclusões Os modelos G (S) ARIMA podem ser particularmente úteis na condução para a eliminação da malária, uma vez que as séries de contagem de episódios são frequentemente sazonais e não estacionárias, especialmente quando o controlo é aumentado. Embora a construção e montagem de modelos GSARIMA seja trabalhosa, eles podem fornecer distribuições de previsão mais realistas do que os métodos gaussianos e podem ser mais adequados quando as contagens são baixas. Citação: Brit OJT, Amerasinghe PH, Vounatsou P (2013) Generalized Seasonal Autoregressive Modelos de Média Móvel Integrada para Dados de Contagens com Aplicação à Malária Série de Tempo com Números de Caso Baixo. PLoS ONE 8 (6): e65761. Doi: 10.1371journal. pone.0065761 Editor: Clive Shiff, Universidade Johns Hopkins, Estados Unidos Recebido: 25 de janeiro de 2013 Aceito: 29 de abril de 2013 Publicado em: 13 de junho de 2013 Copyright: 2013 Brit et al. Este é um artigo de acesso aberto distribuído sob os termos da Licença Creative Commons Atribuição, que permite o uso irrestrito, distribuição e reprodução em qualquer meio, desde que o autor original e fonte são creditados. Financiamento: Este estudo foi financiado através da Administração Nacional Oceânica e Atmosférica (NOAA), da Fundação Nacional da Ciência (NSF), da Agência de Proteção Ambiental (EPA) e do Programa Conjunto de Pesquisa de Energia Elétrica (EPRI) sobre Variabilidade Climática e Saúde Humana. Os financiadores não tiveram qualquer papel na concepção do estudo, na recolha e análise de dados, na decisão de publicar ou na preparação do manuscrito. Interesses concorrentes: Os autores declararam que não existem interesses conflitantes. Introdução Existe um interesse crescente no uso de modelos de previsão da malária para ajudar os serviços clínicos e de saúde pública a implementar estrategicamente medidas de prevenção e controle 1 5. A Direção da Campanha Anti-Malária do Ministério da Saúde do Sri Lanka testou um sistema de previsão de malária que usa auto - Modelos de média móvel integrada (SARIMA), que pressupõem que os dados de contagem de casos de malária mensalmente transformados logaritmicamente são distribuídos aproximadamente gaussianos. Essa abordagem é amplamente utilizada na modelagem preditiva de doenças infecciosas 4. 6. 7. A malária no Sri Lanka é sazonal e instável e flutua em intensidade, tanto espacial como temporalmente 8. A malária foi um dos principais problemas de saúde pública no país 9 até a incidência Começou a diminuir em 2000 10. O Sri Lanka entrou na fase de pré-eliminação em 2007 e progrediu para a fase de eliminação em 2011 11. A transformação de contagem de malária (tal como uma transformação logarítmica) de Box-Cox pode produzir dados distribuídos aproximadamente gaussianos, no entanto, a aproximação é menos próxima para observações com uma média esperada baixa 12. Também, os dados de contagem baixa podem incluir zeros, o que torna Box - Transformação de Cox inaplicável. Para superar este problema, uma pequena constante pode ser adicionada aos dados. A modelagem gaussiana com dados transformados pode resultar em distribuições imprecisas de predição. Isto é problemático, particularmente quando as contagens de casos mensais mais recentes são baixas, o que tende a ser o caso em países em fase avançada de eliminação 3. Os modelos que assumem uma distribuição binomial negativa para dados de contagem de malária podem ser mais apropriados 13 15. No entanto, , Modelos binomiais negativos que incorporam uma estrutura SARIMA ainda não estão disponíveis. Benjamin et al 16 fornecem uma estrutura para modelos de média móvel auto-regressiva linear generalizada (GARMA), e discutem, modelos para Poisson e dados negativos distribuídos binomialmente, entre outros. Os modelos GARMA são modelos conduzidos pela observação que permitem a dependência retardada das observações. Os modelos GARMA são mais fáceis de estimar e a previsão é direta, enquanto os modelos parametricos são mais fáceis de interpretar 21. 22. Jung e colegas 23 descobrem que ambos os tipos de modelos Modelos funcionam da mesma forma. Os modelos GARMA relacionam preditores e componentes ARMA a uma transformação do parâmetro médio da distribuição de dados (), através de uma função de link. Uma função log link assegura que é restrita ao domínio de números reais positivos. As observações retardadas usadas como covariáveis ​​devem, portanto, também ser logaritmicamente transformadas, o que não é possível para observações com um valor de zero. Para contornar esse problema, Zeger e Qaqish discutem a adição de uma pequena constante aos dados, seja para todos os dados ou apenas para zeros. Grunwald e colaboradores 25 consideram um modelo auto-regressivo linear condicional (CLAR) com uma função de ligação de identidade. A fim de garantir um positivo. Restrições podem ser colocadas sobre os parâmetros. Uma variante do modelo GARMA, um modelo de média móvel linear auto-regressiva generalizada (GLARMA), é apresentada por Davis e colegas [22]. Heinen 26 propõe uma classe de modelos de Poisson (ACP) auto-regressivos condicionais com métodos que permitem uma dispersão maior e menor na distribuição marginal dos dados. Outra classe de modelos de Poisson com estrutura auto-correlacionada de erros utiliza o desbaste binomial e são denominados modelos autorregressivos com valores inteiros (INAR) 27. Os modelos INAR podem ser teoricamente estendidos à média móvel (INMA) e aos modelos INARMA 28. 29. mas estes não são Facilmente implementado 30. Uma abordagem de modelagem alternativa baseada em parâmetros assume um processo autorregressivo sobre efeitos aleatórios específicos do tempo introduzidos na estrutura média, utilizando uma função de ligação logarítmica 31. Esse modelo é às vezes chamado de modelo de auto-regressão (SAM) estocástica 23 e tem sido freqüentemente aplicado em Modelação temporal e espacial-temporal bayesiana 15 21. 32 36. Dos modelos discutidos acima, o framework GARMA parece ser o mais flexível para modelar dados de contagem com uma estrutura autorregressiva e ou média móvel. Benjamin e colaboradores 16 aplicam um modelo estacionário GARMA a uma série temporal de casos de poliomielite com tendência sazonal, utilizando uma função sinecosina com uma mistura de um ciclo anual e um semi - anual. No entanto, se a componente sazonal é assumida como estocástica, o modelo GARMA apresentado por Benjamin e cols. 16 não é apropriado. Além disso, muitas séries temporais de dados de contagem, incluindo casos de malária, não são estacionárias. Aqui, a GARMA foi estendida a uma classe de modelos de média móvel integrada autorregressiva sazonal multiplicativa generalizada (GSARIMA), análoga aos modelos SARIMA para dados distribuídos gaussianos. A classe dos modelos GSARIMA inclui modelos de média móvel autoregressiva (GARIMA) generalizada. O ajuste do modelo foi realizado usando a inferência bayesiana completa. O efeito de pressupostos distributivos incorrectos sobre as distribuições predictivas posteriores foi demonstrado utilizando dados de contagem de casos de malária simulados e reais de Sri Lanka. O código de software é fornecido como informação de suporte. Model Formulation Let ser uma série temporal de dados de contagem de comprimento n decorrentes de uma distribuição binomial negativa com e. A forma limitante da distribuição binomial negativa, isto é. É a distribuição de Poisson. O modelo pode ser escrito: onde é uma função de link,. E. É um operador backshift com (note que). É um vetor de coeficientes para o qual inclui um multiplicador de interceptação (geralmente tomado como) e covariáveis ​​dependentes do tempo. No quadro GARMA, os dados de contagem podem ser modelados através de uma função logarítmica ou de uma ligação de identidade, o que for mais apropriado para a série. Para evitar o problema de tomar o logaritmo de observações com valor zero sob a ligação logarítmica, Zeger e Qaqish 24 propõem uma transformação de tais como. Doravante chamado ZQ1. Zeger e Qaqish 24 também sugerem um método alternativo, doravante denominado ZQ2, que se traduz na variante do modelo: Sob uma ligação de identidade, podem ser necessárias restrições para garantir um resultado positivo. Dependendo dos dados e parâmetros do modelo. Os modelos acima podem ser alargados a análogos, incluindo os componentes de sazonalidade (S) e de diferenciação (I) como se segue: onde é a duração do período (para dados mensais com um ciclo anual),. . . . E são como acima. Exemplos de binomiais negativos e modelos com função log link e transformação ZQ1 são dados no Apêndice S1. A influência da escolha da função da ligação e das escolhas das transformações de dados na distribuição dos dados é também avaliada no Apêndice S1. Benjamin e colaboradores 16 empregam estimativa de máxima verossimilhança através de mínimos quadrados ponderados iterativos e inferência de base em resultados assintóticos. Neste trabalho, o modelo foi formulado em uma estrutura bayesiana. Na inferência Bayesiana, as distribuições prévias precisam ser atribuídas a todos os parâmetros do modelo. Um modelo fraco estacionário foi assumido e, portanto, os parâmetros de auto-correlação e média móvel foram limitados usando um algoritmo fornecido por Jones 37. Para este propósito, os parâmetros de média autorregressiva e móvel na probabilidade foram reparametrificados e distribuições anteriores foram adotadas no novo parametrização. Por exemplo, os parâmetros autoregressivos não sazonais foram reparametrizados em termos de. . Onde e. As seguintes distribuições anteriores foram assumidas:. Em que denota a parte inteira de. Outros priores escolhidos foram e. Para as primeiras observações, os resíduos na escala preditora (por exemplo, no caso de uma função de ligação logarítmica) foram ajustados para zero. Uma restrição pode ser colocada sobre a própria média, isto é, quando o link de identidade é usado. Os modelos GSARIMA foram estimados usando o programa de software Bayesiano livre, JAGS 38. que emprega métodos de simulação de Monte Carlo de cadeia de Markov (MCMC). Exemplos de código escrito para usar JAGS dentro do software R, para modelos GSARIMA binomiais negativos com função de link logarítmico e transformação ZQ1, são fornecidos como informações de suporte, veja Arquivo Adicional S1. A capacidade destes modelos para estimar séries de dados simuladas com estrutura GSARIMA é brevemente explorada no Apêndice S1. O efeito de (mis) especificando a função de ligação e transformação de dados ao estimar parâmetros do modelo GARMA é também avaliado e descrito no Apêndice S1. Aplicação à Análise de Séries Temporais de Malária Esta seção fornece um exemplo de um modelo GSARIMA aplicado à contagem mensal de casos de malária para o período de 1972 a 2005 no distrito de Gampaha, no Sri Lanka (Figura 1A), com precipitação como covariável (Figura 1B). O código da análise é fornecido como informação de apoio no Ficheiro Adicional S2. Registros de filmes de sangue positivos para malária foram relatados mensalmente pelas unidades de saúde do governo e agregados pela Campanha Anti-Malária (AMC) do Sri Lanka. A precipitação foi a altura média mensal do distrito da coluna de precipitação, que foi derivada das superfícies mensais de precipitação de toda a ilha. Estas superfícies de precipitação foram geradas pela interpolação espacial de registros de precipitação coletados por 342 estações em toda a ilha. Os dados foram descritos anteriormente em trabalhos anteriores 8. A série temporal de 408 meses continha três meses com zero casos de malária: outubro de 1982 e março e agosto de 2005. A precipitação melhorou ligeiramente a previsão da malária por modelos Gaussian SARIMA ajustados aos dados de casos de malária transformados logaritmicamente três Para quatro meses à frente 2. Figura 1. Contagens mensais de casos de malária e precipitação no Distrito de Gampaha ao longo do tempo. O painel A mostra a contagem mensal de casos de malária eo painel B mostra a precipitação mensal. Identificação Preliminar do Modelo SARIMA de Freqüência Gaussiana Como o modelo Bayesiano usando algoritmos MCMC é caro computacionalmente, identificação preliminar do modelo para escolher os parâmetros SARIMA, p. D. Q. P. D. E Q. Foi realizada utilizando ferramentas padronizadas (freqüência) desenvolvidas para séries temporais com erros marginais gaussianos, ao invés de ajustar muitos modelos MCMC possíveis. Uma análise visual das séries temporais de malária (Figura 1) detectou a presença de uma mudança de longo prazo (inter anual) no nível médio, uma variância instável (que parece aumentar com a média) ea sazonalidade multiplicativa (o tamanho de O efeito sazonal é proporcional à média). Assim, para a análise gaussiana preliminar, os dados foram transformados usando uma transformação Box-Cox ajustada 39. para estabilizar a variância, tornar o efeito sazonal aditivo e fazer os dados aproximadamente distribuídos normalmente 40. A tendência na Caixa A série transformada por Cox foi tratada como uma tendência estocástica, que foi a diferença (primeira ordem) estacionária. O teste aumentado Dickey Fuller 41 com uma ordem de atraso de 15 foi usado para detectar a presença de uma raiz unitária, para avaliar se a série precisava ser integrada (diferenciada). Os modelos Gaussian SARIMA e ARIMA com um componente sazonal harmônico de segunda ordem, ambos com d 1 por causa da presença de uma raiz unitária, foram equipados com as estatísticas do pacote de software (frequentist) R, e os modelos foram avaliados com base no critério de informação Akaikes (AIC ). A matriz covariada para o efeito sazonal usando harmônicos de segunda ordem (isto é, usando dois pares de seno e cosseno) é dada por. Uma intercepção (independente do tempo) não foi incluída porque a interceptação cai fora da equação após a diferenciação de primeira ordem. Seleção de Modelo GSARIMA As versões binomiais binárias Bayesianas de quatro modelos SARIMA e dois modelos ARIMA, com harmônicos de segunda ordem identificados na análise preliminar, foram implementados em JAGS em dados não transformados, utilizando uma função de link logarítmico e transformação de ZQ1. Uma vez que havia apenas três observações com contagem zero, os resultados não seriam sensíveis à escolha da constante de transformação para ZQ1 e esta foi definida em c 1. Também foram consideradas versões com ligação de identidade. Os modelos foram avaliados com base em dois critérios. O primeiro foi o critério de informação de desvio (DIC), que foi calculado como a média da distribuição posterior do desvio condicional nas primeiras observações (com igual ao máximo w dos modelos comparados), aumentada com o número de parâmetros estimados efetivos Como penalidade para evitar a montagem excessiva. Modelos com menor DIC são considerados como tendo um melhor ajuste. Um segundo critério foi definido como o erro relativo absoluto médio dos valores ajustados (MARE): MARE. Onde está o número ajustado de casos de malária em intervalos de tempo discretos t. E f e l são os primeiro e último intervalos de tempo discretos, respectivamente, do período de tempo considerado. A MARE foi calculada tanto para a série inteira (exceto para as primeiras observações), quando os modelos foram ajustados a toda a série temporal (f 1, ln 408) e para a segunda metade da série temporal (f 205, l 408) , Quando os modelos foram montados apenas na primeira metade da série temporal. Uma vez que as distribuições preditivas (posteriores) estimadas em cada ponto de dados ajustado foram distorcidas, a mediana da distribuição posterior foi considerada. A MARE é semelhante à média de erro percentual absoluto (MAPE), que é aplicável a séries para as quais a variância é dependente da média 40. No entanto, como o denominador é igual ou maior que um, isso evita problemas com grandes valores causados Dividindo por números pequenos e uma crítica principal do MAPE 5. A estatística de MARE não tem uma penalidade incorporada para impedir o encaixe excessivo, mas entre modelos com o valor similar de MARE, o modelo com o menos número dos parâmetros é preferred . A estimativa MARE é comparável entre modelos com diferentes pressupostos distribucionais, em contraste com a DIC. Os modelos foram executados com três cadeias de Markov de 11.000 iterações cada, incluindo uma queima de 1.000 iterações. A convergência foi avaliada através do estudo de parcelas da estatística de convergência de Gelman-Rubin (em parâmetros estimados), modificada por Brooks e Gelman [42]. Análise residual Saber se os modelos selecionados e suas distribuições subjacentes se encaixam adequadamente na variação dos dados é de interesse. Se esses modelos são utilizados para prever casos de malária em um intervalo de tempo discreto (neste caso, um mês), não só é a estimativa pontual da distribuição preditiva de interesse, mas também toda a distribuição. Seja a função de distribuição preditiva cumulativa de. A menor probabilidade residual da cauda. Isto é, o valor da distribuição preditiva cumulativa posterior calculada com os dados observados. Também chamada de transformada integral de probabilidade, pode ser calculada para cada mês. Uma função de distribuição cumulativa de para todos os meses de interesse permite a análise da adequação do modelo incluindo a distribuição subjacente assumida. Se o modelo ajustar adequadamente os dados, esta função de distribuição cumulativa dos valores de probabilidade residual (gráfico C-R) seguirá uma linha diagonal aproximadamente reta entre a origem eo ponto (1,1), semelhante a um gráfico Probabilidade-Probabilidade. Por exemplo, quando o modelo se encaixa adequadamente, 50 de observações têm um valor de probabilidade residual associado de 0,5. Mais detalhes sobre o gráfico C-R são fornecidos como informações de suporte, consulte o arquivo adicional S3. Um exemplo é dado também na informação de apoio onde as parcelas C-R são usadas para avaliar a adequação de modelos ajustados a uma série de tempo com uma estrutura de Poisson GARIMA (1,1,0) veja o Ficheiro Adicional S4. Assim, após a montagem de um modelo e obtenção de distribuições posteriores, foi calculado para cada observação. Devido ao fato de que a função de distribuição cumulativa para os modelos binomiais negativos é discreta, o valor de probabilidade residual foi randomizado por desenho de um valor aleatório a partir da distribuição uniforme no intervalo. Seguindo um procedimento de Dunn e Smyth 43. onde foi estimado com 30.000 amostras dessa distribuição. Esse procedimento é defendido por Benjamin e colegas 16 para modelos discretos da GARMA. A adequação de modelos selecionados foi comparada usando gráficos de suas funções de distribuição cumulativa de valores de probabilidade residuais (randomizados), tanto em toda a série de casos de malária como em um período que compreende as últimas 50 observações, onde o número de casos foi relativamente baixo. É prática corrente testar os resíduos do modelo da série temporal para a autocorrelação remanescente. Entretanto, as ferramentas padrão presumem dados distribuídos aproximadamente gaussianos. Portanto, os valores de probabilidade residual randomizados foram convertidos em resíduos de quantile randomizados normalizados,. Utilizando a função quantile (função de distribuição cumulativa inversa) da distribuição normal com média zero e variância unitária. Antes da conversão, valores de probabilidade residual aleatórios de zero (quando todas as 30.000 amostras da função de distribuição preditiva posterior estavam acima do valor observado) foram ajustados para 0.00001 e valores de probabilidade residual aleatórios de um (quando todas as 30.000 amostras da função de distribuição preditiva posterior foram Abaixo do valor observado) foram ajustados para 0,99999. Os resíduos de quantile randomizados normalizados foram analisados ​​quanto à autocorrelação remanescente com o teste de Ljung-Box 44 e análise visual das funções de autocorrelação e autocorrelação parcial. Resultados e Discussão Com o propósito de identificação do modelo Gaussian SARIMA, uma transformação de Box-Cox foi identificada por ajuste à série de casos de contagem de casos de malária. Os parâmetros Box-Cox ajustados foram uma potência de 0,249 e, dado que a série continha observações com contagem zero, uma constante de 0,0251 foi adicionada a cada observação antes da transformação. Como observado para a série original, a presença de mudança de longo prazo no nível médio foi aparente nas séries de tempo transformadas (Figura S1). Embora as mudanças no nível médio possam potencialmente estar relacionadas com esforços de controle da malária, desenvolvimento de resistência parasitária e vetorial, etc., tais dados de covariância não foram considerados aqui. O teste Dickey Fuller aumentado suportou a presença de uma raiz unitária (p 0,14) na série transformada Box-Cox e a série foi diferenciada. As parcelas da função de auto-correlação (ACF) (Figura S2) ea função de auto-correlação parcial (PACF) (Figura S3) das séries diferenciadas mostraram auto-correlação significativa (parcial) em defasagens de três e doze meses. Com base na análise preliminar da série transformada Box-Cox, quatro modelos Gaussian SARIMA e dois modelos Gaussian ARIMA com harmônicos de segunda ordem (SOH) foram inicialmente selecionados, com base no AIC (Tabela 1). Os modelos ARIMA-SOH apresentaram a AIC mais baixa (melhor) em comparação com os modelos SARIMA. Os modelos ARIMA-SOH, incluindo precipitação como covariável, tiveram um AIC ligeiramente inferior ao modelo ARIMA-SOH sem precipitação. No entanto, para os modelos SARIMA, o inverso foi verdadeiro. Tabela 3. Estimativas dos parâmetros (média e intervalo credível 95) de modelos binomiais negativos selecionados. Apesar do modelo ter uma DIC (pior) mais alta do que o modelo, a amostra de MARE fora do modelo era 5,7 por cento melhor do que a MARE de amostra do modelo e requeria menos de metade do número de parâmetros ajustados. Isso indica que o modelo provavelmente estava ajustando demais os dados, descrevendo o erro aleatório ao invés do processo subjacente. O modelo foi selecionado para análise posterior. A Figura 2 ilustra distribuições preditivas posteriores para os últimos 12 meses da série pelo modelo e aquelas por um modelo Gaussiano (Bayesiano) em dados transformados Box-Cox, quando ajustadas a todo o conjunto de dados. As diferenças nas distribuições preditoras posteriores entre os dois modelos são evidentes com o modelo gaussiano distribuições preditivas com caudas mais longas. Figura 2. Distribuições preditoras posteriores para os últimos 12 meses da série Gampaha de casos de malária. Em cada painel, representando cada um mês no último ano da série, as linhas preta e vermelha são o histograma de contorno da densidade da distribuição preditiva posterior do modelo binomial negativo e um modelo (Bayesiano) gaussiano em Box-Cox Transformados, respectivamente. Modelos foram ajustados a todo o conjunto de dados. Em cada painel, a contagem de casos observada é representada por um ponto azul. O gráfico C-R do ajuste do modelo binomial negativo foi comparado ao de um Gaussiano (Bayesiano) em dados transformados Box-Cox na Figura 3. O gráfico C-R em toda a série (Figura 3A) não é inteiramente satisfatório para nenhum dos modelos. Para o Gaussiano. A distribuição preditiva posterior parece ser platykurtic (para valores da probabilidade residual abaixo de 0,5, há muito poucas observações, e para valores acima de 0,5, há muitos). Para o modelo binomial negativo, para valores de probabilidade residual aleatórios abaixo de 0,5, cumulativamente menos observações tiveram esses valores do que as distribuições de densidade posterior indicaram. Portanto, em média, a parte das distribuições de densidade posterior abaixo da mediana foi espalhada demais para a esquerda. Os limites inferiores dos intervalos de credibilidade das distribuições foram, portanto, em média muito baixos. Para os valores acima de 0,5, a função de distribuição cumulativa seguiu a diagonal. A Figura 3B compara ambos os modelos nos últimos 50 meses da série apenas, onde o número de casos mensais foi menor que 35. Para esses números baixos, o modelo binomial negativo foi muito mais apropriado. Figura 3. Função de distribuição cumulativa de probabilidades cumulativas aleatorizadas. A linha preta representa a função de distribuição cumulativa de probabilidades cumulativas aleatórias do modelo sobre números mensais de casos de malária em Gampaha, Sri Lanka. A linha vermelha representa a função de distribuição cumulativa de probabilidades residuais aleatorizadas do modelo Gaussiano em dados transformados Box-Cox. A linha diagonal cinza claro (distribuição cumulativa igual a probabilidade aleatória) representa, em média, distribuições preditivas apropriadas. As linhas pontilhadas representam 95 limites de confiança para proporções iguais à probabilidade. UMA . Para os últimos 392 meses da série. B. Para os últimos cinqüenta meses na série. A Figura 4 mostra o gráfico Q-Q normal para os resíduos de quantile aleatórios normalizados do modelo, para os quais a distribuição é ligeiramente leptocúrtica. Um gráfico destes resíduos de quantile randomizados normalizados contra o tempo (Figura S4) aparece uma dispersão aleatória à primeira vista, mas após uma inspecção mais minuciosa, os resíduos extremos ocorrem mais frequentemente durante períodos com alterações relativas mais fortes. Isso ocorre porque os resíduos,. Estão positivamente correlacionados com uma alteração relativa nos casos de malária, com linha de regressão linear. (Figura 5). Figura 4. Gráfico Q-Q normal de resíduos de quantile aleatórios normalizados do modelo selecionado. Figura 5. Lote de resíduos de quantile aleatórios normalizados do modelo contra o logaritmo da variação relativa. A contagem mensal de casos de malária foi transformada logaritmicamente após a adição de um. Em seguida, para cada mês, a diferença entre este valor eo valor para o mês anterior foi tirada. A diagonal é a linha de regressão ajustada. O fato de que essa linha não passa pela origem mas tem um intercepto positivo (pequeno mas significativo) é outra indicação de que as distribuições posteriores têm, em média, demasiada massa à esquerda e, portanto, em média, superestimam Os resíduos. A Figura 6 mostra um gráfico da função de autocorrelação dos resíduos de quantile aleatórios normalizados do modelo. Não há indicação de autocorrelação significativa nos resíduos, o que foi confirmado pelo teste de Ljung-Box 44. A estatística de Ljung-Box foi de 19,8 baseada em 24 lags, o que não foi significativo (p 0,65) porque o quantil correspondente ao 95º Percentil de uma distribuição de qui-quadrado com 23 graus de liberdade (24 graus menos um parâmetro ARMA ajustado) é 35,17. The Ljung-Box test is valid under these mild conditions of non-normality, although for stronger non-normality, the Ljung-Box test is not robust and tends to reject the null hypothesis of no autocorrelation too quickly 45 . Figure 6. Plot of the autocorrelation function of normalized randomized quantile residuals of the selected model. Conclusions To model a series of monthly counts of new malaria episodes in a district in Sri Lanka, GSARIMA models and GARIMA models with a deterministic seasonality component were developed. GSARIMA and GARIMA models are an extension of the class of GARMA models 16. and are suitable for parsimonious modelling of non-stationary seasonal time series of (over dispersed) count data with negative binomial conditional distribution. Models were presented with a choice of identity link function or logarithmic link function, and for the latter models, with a choice between two transformation methods to deal with zero value observations and using a threshold parameter. When a count time series has many observations of zero, both transformation methods and several threshold parameters should be explored in order to find the best fitting model. Bayesian GSARIMA and GARIMA models were applied to malaria case count time series data from Gampaha District in Sri Lanka. Both a GSARIMA and a GARIMA model with a deterministic seasonality component were selected, based on different criteria. The GARIMA model with deterministic seasonality showed a lower DIC, but the GSARIMA model had a lower mean absolute relative error on out of sample data, and needed fewer parameters. Bayesian modelling allowed for analysis of the posterior predictive distributions. The performance of the selected negative binomial model was compared with that of a Gaussian version of the model on Box-Cox transformed data. These distributions did not perfectly mirror the distribution of the residuals for either model. This is possibly an indication that the assumptions about the underlying distributions were not entirely appropriate for either case. However, analysis of the residuals showed that the posterior predictive distributions were much better for the negative binomial GSARIMA model than for its Gaussian version on transformed data when counts were low. Both models could account for autocorrelation in the data, but the negative binomial model had an 8 better MARE than the Gaussian version on transformed data (0.388 vs 0.423). The fact that the cumulative distribution functions do not perfectly match the diagonal in Figure 3A indicates that there is room for improvement, through modelling a more complex autocorrelation structure ( e. g. through time varying SARIMA parameters) and through the inclusion of covariates. It is also possible that assuming an underlying negative binomial distribution is not entirely appropriate. In the latter case, the DIC, which was based on this assumption, has less value than the MARE for comparison between models. Apart from the fact that the MARE does not depend on the assumption of a true underlying distribution, it is easier to for malaria control staff to interpret. G(S)ARIMA models may be particularly useful in the drive towards malaria elimination, but could also be applied to other fields. Although building and fitting Bayesian GSARIMA models is laborious, they may provide more realistic prediction distributions for time series of counts than do Gaussian methods on transformed data, especially when counts are low. Supporting Information8.5 Non-seasonal ARIMA models If we combine differencing with autoregression and a moving average model, we obtain a non-seasonal ARIMA model. ARIMA is an acronym for AutoRegressive Integrated Moving Average model (integration in this context is the reverse of differencing). The full model can be written as where y is the differenced series (it may have been differenced more than once). The predictors on the right hand side include both lagged values of yt and lagged errors. We call this an ARIMA(p, d, q) model . where p order of the autoregressive part d degree of first differencing involved q order of the moving average part. The same stationarity and invertibility conditions that are used for autoregressive and moving average models apply to this ARIMA model. Once we start combining components in this way to form more complicated models, it is much easier to work with the backshift notation. Then equation (ref ) can be written as begin (1-phi1B - cdots - phip Bp) amp (1-B)d y amp ampc (1 theta1 B cdots thetaq Bq)et uparrow amp uparrow amp ampuparrow text amp text amp amptext end Selecting appropriate values for p, d and q can be difficult. The auto. arima() function in R will do it for you automatically. Later in this chapter, we will learn how the function works, and some methods for choosing these values yourself. Many of the models we have already discussed are special cases of the ARIMA model as shown in the following table. plot 40 forecast 40 fit, h 10 41,include 80 41 Understanding ARIMA models The auto. arima() function is very useful, but anything automated can be a little dangerous, and it is worth understanding something of the behaviour of the models even when you rely on an automatic procedure to choose the model for you. The constant c has an important effect on the long-term forecasts obtained from these models. If c0 and d0, the long-term forecasts will go to zero. If c0 and d1, the long-term forecasts will go to a non-zero constant. If c0 and d2, the long-term forecasts will follow a straight line. If cne0 and d0, the long-term forecasts will go to the mean of the data. If cne0 and d1, the long-term forecasts will follow a straight line. If cne0 and d2, the long-term forecasts will follow a quadratic trend. The value of d also has an effect on the prediction intervals the higher the value of d, the more rapidly the prediction intervals increase in size. For d0, the long-term forecast standard deviation will go to the standard deviation of the historical data, so the prediction intervals will all be essentially the same. This behaviour is seen in Figure 8.8 where d0 and cne 0. In this figure, the prediction intervals are the same for the last few forecast horizons, and the point forecasts are equal to the mean of the data. The value of p is important if the data show cycles. To obtain cyclic forecasts, it is necessary to have pge2 along with some additional conditions on the parameters. For an AR(2) model, cyclic behaviour occurs if phi124phi2lt0. In that case, the average period of the cycles is 1 frac (-phi1(1-phi2)(4phi2)). ACF and PACF plots It is usually not possible to tell, simply from a time plot, what values of p and q are appropriate for the data. However, it is sometimes possible to use the ACF plot, and the closely related PACF plot, to determine appropriate values for p and q. Recall that an ACF plot shows the autocorrelations which measure the relationship between yt and y for different values of k. Now if yt and y are correlated, then y and y must also be correlated. But then yt and y might be correlated, simply because they are both connected to y , rather than because of any new information contained in y that could be used in forecasting yt. To overcome this problem, we can use partial autocorrelations . These measure the between y and y after removing the effects of other time lags -- 1, 2, 3, dots, k - 1. So the first partial autocorrelation is identical to the first autocorrelation, because there is nothing between them to remove. The partial autocorrelations for lags 2, 3 and greater are calculated as follows: Varying the number of terms on the right hand side of this autoregression model gives alphak for different values of k. (In practice, there are more efficient algorithms for computing alphak than fitting all these autoregressions, but they give the same results.) Figure 8.9 shows the ACF and PACF plots for the US consumption data shown in Figure 8.7. The partial autocorrelations have the same critical values of pm 1.96sqrt as for ordinary autocorrelations, and these are typically shown on the plot as in Figure 8.9. Figure 8.9: ACF and PACF of quarterly percentage change in US consumption. A convenient way to produce a time plot, ACF plot and PACF plot in one command is to use the tsdisplay function in R. par 40 mfrow c 40 1. 2 41 41 Acf 40 usconsumption 91. 1 93,main quotquot 41 Pacf 40 usconsumption 91. 1 93,main quotquot 41 If the data are from an ARIMA(p, d,0) or ARIMA(0,d, q) model, then the ACF and PACF plots can be helpful in determining the value of p or q. If both p and q are positive, then the plots do not help in finding suitable values of p and q. The data may follow an ARIMA(p, d,0) model if the ACF and PACF plots of the differenced data show the following patterns: the ACF is exponentially decaying or sinusoidal there is a significant spike at lag p in PACF, but none beyond lag p. The data may follow an ARIMA(0,d, q) model if the ACF and PACF plots of the differenced data show the following patterns: the PACF is exponentially decaying or sinusoidal there is a significant spike at lag q in ACF, but none beyond lag q. In Figure 8.9, we see that there are three spikes in the ACF and then no significant spikes thereafter (apart from one just outside the bounds at lag 14). In the PACF, there are three spikes decreasing with the lag, and then no significant spikes thereafter (apart from one just outside the bounds at lag 8). We can ignore one significant spike in each plot if it is just outside the limits, and not in the first few lags. After all, the probability of a spike being significant by chance is about one in twenty, and we are plotting 21 spikes in each plot. The pattern in the first three spikes is what we would expect from an ARIMA(0,0,3) as the PACF tends to decay exponentially. So in this case, the ACF and PACF lead us to the same model as was obtained using the automatic procedure. arc cos is the inverse cosine function. You should be able to find it on your calculator. It may be labelled acos or cos .1608617

Comments