Autor Daniel Assad
Baixe aqui o texto completo
O LEGOS trata o problema de prever a evolução do total de casos confirmados de COVID-19 no município do Rio de Janeiro. Para chegar aos resultados que serão apresentados a seguir utilizamos a série histórica do referido município que está disponível no Painel Rio COVID SMS | IPP | COR. Esta série histórica é apresentada na tabela e figura abaixo.
Data | Casos confirmados | Data | Casos confirmados |
06/03/2020 | 4 | 26/03/2020 | 428 |
07/03/2020 | 9 | 27/03/2020 | 491 |
08/03/2020 | 12 | 28/03/2020 | 549 |
09/03/2020 | 13 | 29/03/2020 | 575 |
10/03/2020 | 22 | 30/03/2020 | 613 |
11/03/2020 | 29 | 31/03/2020 | 643 |
12/03/2020 | 36 | 01/04/2020 | 757 |
13/03/2020 | 49 | 02/04/2020 | 867 |
14/03/2020 | 54 | 03/04/2020 | 927 |
15/03/2020 | 62 | 04/04/2020 | 1042 |
16/03/2020 | 68 | 05/04/2020 | 1128 |
17/03/2020 | 93 | 06/04/2020 | 1170 |
18/03/2020 | 98 | 07/04/2020 | 1311 |
19/03/2020 | 123 | 08/04/2020 | 1509 |
20/03/2020 | 154 | 09/04/2020 | 1693 |
21/03/2020 | 163 | 10/04/2020 | 1868 |
22/03/2020 | 230 | 11/04/2020 | 1965 |
23/03/2020 | 274 | 12/04/2020 | 2056 |
24/03/2020 | 338 | 13/04/2020 | 2382 |
25/03/2020 | 391 | … 04/05/2020 | ? |
Observando as figuras acima podemos perceber que no município do Rio de Janeiro segue comportamento não linear e para reproduzirmos o comportamento esperado para os próximos 21 dias consideraremos que base histórica4até a última atualização (13/04 às 18h).
Modelos de previsão
Para estimarmos a quantidade total de pacientes confirmados com COVID-19 21 dias a frente (até 04/05) utilizamos modelos univariados consagrados da literatura e regressões apresentados abaixo:
- Modelos de suavização exponencial (ETS);
- Modelos auto regressivos integrados de média móvel (ARIMA);
- Regressão Linear (RL);
Nenhum dos 3 modelos apresentados acima foi concebido para tratar de séries temporais de comportamento explosivo (como é o nosso caso). Entretanto, podemos realizar algumas transformações na série original apresentada para que a série transformada atenda às condições de “contorno” das técnicas apresentadas acima. Neste sentido, as principais formas comumente utilizadas em séries temporais são: diferenciação (neste caso, a série de internações por dia) e transformação logarítmica (elas também podem ser combinadas). Nas figuras abaixo são apresentadas a série original e cada série transformada (logarítmica, diferenciada e logarítmica-diferenciada) de casos confirmados no Município do Rio de Janeiro.
Como o objetivo de trabalhar sobre a série mais estacionária possível (ainda que com
tendência) trabalharemos sobre as duas séries que melhor apresentam este comportamento. A partir deste ponto chamaremos as séries escolhidas para prever o total
de casos confirmados de série original (SO) e a série em escala logarítmica (SL) e apresentaremos abaixo características observadas de cada modelos e cada série.
- ETS na série original (ETS SO): capturou o padrão de crescimento linear;
- ETS na série em escala logarítmica (ETS SL): capturou o padrão de crescimento explosivo;
- ARIMA na série original (ARIMA SO): capturou o padrão de crescimento linear;
- ARIMA na série em escala logarítmica (ARIMA SL): capturou o padrão de crescimento explosivo;
- Regressão linear na série em escala logarítmica (RL SO): capturou o padrão de crescimento linear;
- Regressão linear na série em escala logarítmica (RL SL): capturou o padrão de crescimento explosivo;
Cada modelo apresentado acima terá um conjunto de parâmetros que podem levar a previsões bastante distintas e avaliar qual seria o melhor modelo apenas pelo menor erro de acordo com a ser critério escolhido pode nos levar a uma baixa assertividade na previsão. Com objetivo de dirimir deste risco, fizemos primeiramente a avaliação dos resíduos do modelo de cada modelo apresentado acima seguindo as seguintes questões:
- Média igual a 0 pelo teste de Student;
- Segue uma distribuição normal pelo teste de Shapiro-Wilk;
- É independente e identicamente distribuído (não existe auto correlação estatisticamente significativa) pelo teste de Ljung-Box;
- É homocedástico (a variância se mantém constante ao longo do tempo) pelo teste de heteroscedasticidade condicional auto-regressiva (ARCH).
A resposta de cada uma destas perguntas para cada modelo é apresentada na tabela abaixo. Para fins de simplificação nela colocamos apenas os p-valores encontrados. O nível de significância escolhido foi de 0,05, ou seja, trabalhamos com um intervalo de confiança de 95%.
Teste estatístico | ets SO | arima SO | rl SO | ets SL | ARIMA SL | rl SL |
Student | 0,046 | 0,75 | 1 | 0,99 | 0,103 | 1 |
Shapiro-Wilk | 0,003 | 0,056 | 0,002 | 0,645 | 0,590 | 0,432 |
Ljung-Box | 0, 757 | 0, 537 | <0,001 | 0,57 | 0,054 | <0,001 |
ARCH | 0,249 | 0,013 | <0,001 | 0,08 | 0,024 | <0,001 |
A tabela acima indica que apenas 1 modelo não deveria ser rejeitado ao nível de significância de 0,05: ETS SL (modelo com crescimento exponencial).
Os resultados de acurácia (precisão) olhando para a série histórica de todos modelos é apresentado na tabela abaixo. Nela, podemos observar que o modelo elegível pelo critério apresentado acima também leva a um menor média percentual absoluta do erro (MAPE) e segundo menor erro quadrático médio (RMSE).
Modelos | ME | RMSE | MAE | MPE | MAPE |
ETS SO | -9,97 | 54,92 | 33,89 | -2,61 | 5,75 |
ARIMA SO | -12,39 | 41,29 | 28,74 | -3 | 5,95 |
RL SO | 0 | 234,04 | 201,55 | 10,17 | 68,91 |
ETS SL | -2,61 | 42,68 | 28,76 | -0,23 | 5,47 |
ARIMA SL | 9,82 | 46,79 | 32,19 | 1,83 | 6,07 |
RL SL | 62,89 | 256,75 | 139,83 | -2,66 | 19,45 |
Avaliado o resíduo do modelo ETS SL e tendo em conta a acurácia dos seus sinais na tabela e gráfico abaixo apresentamos os cenários otimista, esperado e pessimista. O intervalo de confiança utilizado para a geração dos cenários foi de 95%, ou seja, a probabilidade de o valor observado não estar entre os cenários otimistas e pessimistas é de 5%.
Previsões | ETS SL | ||
Dia | Cenário Otimista | Cenário Esperado | Cenário Pessimista |
14/04/2020 | 2382 | 2521 | 2898 |
15/04/2020 | 2382 | 2700 | 3223 |
16/04/2020 | 2382 | 2885 | 3552 |
17/04/2020 | 2431 | 3075 | 3891 |
18/04/2020 | 2524 | 3272 | 4240 |
19/04/2020 | 2621 | 3473 | 4602 |
20/04/2020 | 2721 | 3680 | 4977 |
21/04/2020 | 2822 | 3891 | 5364 |
22/04/2020 | 2925 | 4106 | 5765 |
23/04/2020 | 3029 | 4326 | 6179 |
24/04/2020 | 3134 | 4550 | 6605 |
25/04/2020 | 3238 | 4776 | 7045 |
26/04/2020 | 3343 | 5006 | 7496 |
27/04/2020 | 3448 | 5239 | 7960 |
28/04/2020 | 3553 | 5474 | 8435 |
29/04/2020 | 3656 | 5712 | 8922 |
30/04/2020 | 3759 | 5951 | 9419 |
01/05/2020 | 3861 | 6191 | 9927 |
02/05/2020 | 3962 | 6433 | 10444 |
03/05/2020 | 4061 | 6675 | 10971 |
04/05/2020 | 4159 | 6918 | 11507 |
O objetivo dos modelos utilizados foi estimar, com a maior precisão possível, quantos casos de pacientes com COVID-19 poderão ser confirmados em um horizonte de tempo de 21 dias e, com base nos critérios apresentados, concluímos que um modelo exponencial foi o que se melhor ajustou aos valores históricos apresentados até o momento.
Não é possível, no entanto, extrapolar este método para um período maior de tempo e nem mesmo concluir, a partir de seus resultados, em que estágio o município está na curva esperada de uma epidemia. Estudos com estes objetivos necessitam de abordagens mais complexas e também são conduzidas dentro do LEGOS.
Autor
Daniel Assad
Currículo Lattes: http://lattes.cnpq.br/0258423859812498
Coordenação do LEGOS|UERJ
Profa Thaís Spiegel, DSc. | thais@eng.uerj.br
Currículo Lattes: http://lattes.cnpq.br/8880192361495671
Nota técnica divulgada em 13 de abril de 2020.