Baixe aqui o texto completo
Nota técnica divulgada em 27 de março de 2020.
O LEGOS trata o problema de prever a evolução do total de casos confirmados de
COVID-19 no Brasil. Para chegar aos resultados que serão apresentados a seguir utilizamos a série histórica nacional que disponibilizadas pela Universidade Johns Hopkins Whiting School of Engineering na plataforma github (c.f.
https://github.com/CSSEGISandData/COVID-19). Esta série histórica é apresentada na tabela e figura abaixo.
Data |
Casos confirmados |
Data |
Casos confirmados |
Data |
Casos confirmados |
26/02/2020 |
1 |
07/03/2020 |
13 |
18/03/2020 |
372 |
27/02/2020 |
1 |
08/03/2020 |
20 |
19/03/2020 |
621 |
28/02/2020 |
1 |
09/03/2020 |
25 |
20/03/2020 |
793 |
29/02/2020 |
2 |
10/03/2020 |
31 |
21/03/2020 |
1021 |
01/03/2020 |
2 |
11/03/2020 |
38 |
22/03/2020 |
1546 |
02/03/2020 |
2 |
12/03/2020 |
52 |
23/03/2020 |
1924 |
03/03/2020 |
2 |
13/03/2020 |
151 |
24/03/2020 |
2247 |
04/03/2020 |
4 |
14/03/2020 |
151 |
25/03/2020 |
2554 |
05/03/2020 |
4 |
15/03/2020 |
162 |
26/03/2020 |
2985 |
05/03/2020 |
4 |
16/03/2020 |
200 |
27/03/2020 |
? |
06/03/2020 |
13 |
17/03/2020 |
321 |
28/03/2020 |
? |
Gráfico interativo disponível em: https://rpubs.com/LEGOS/590551
Observando a figura acima podemos perceber que no Brasil segue comportamento não linear. Entretanto, se separarmos este gráfico em 4 momentos diferentes podemos observar que:
- Dia 22/02 ao 12/03 segue um “comportamento linear”;
- Dia 13/03 ao 14/03 a quantidade de pacientes confirmados não muda (nos dois dias os dados há o mesmo valor de 151 casos);
- Dia 15/03 ao 16/03 segue um “comportamento exponencial”;
- Dia 17/03 até 26/03 segue um “comportamento linear” novamente, mas bem maior que o observado no período de 22/02 ao 12/03.
Assim, para reproduzirmos o comportamento esperado para a próxima semana consideraremos que a base histórica útil à nossa série se inicia no dia 15/03 (quando o total de casos confirmados de pacientes com COVID-19 ultrapassa 160) e perdura até o momento.
Modelos de previsão
Para estimarmos o total de casos de pacientes com COVID-19 confirmados no horizonte de 7 dias a frente (até 02/04) utilizamos modelos univariados consagrados da literatura e regressões apresentados abaixo:
- Modelos de suavização exponencial (ETS);
- Modelos auto regressivos integrados de média móvel (ARIMA);
- Regressão Linear (RL);
Nenhum dos 3 modelos apresentados acima foi concebido para tratar de séries temporais de comportamento explosivo (como é o nosso caso). Entretanto, podemos realizar algumas transformações na série original apresentada para que a série transformada atenda às condições de “contorno” das técnicas apresentadas acima. Neste sentido, as principais formas comumente utilizadas em séries temporais são: diferenciação e transformação logarítmica (elas também podem ser combinadas). Nas figuras abaixo são apresentadas a série original e cada série transformada (logarítmica, diferenciada e logarítmica-diferenciada) de casos confirmados no Brasil.
Como o objetivo de trabalhar sobre a série mais estacionária possível (ainda que com tendência) trabalharemos sobre as duas séries que melhor apresentam este comportamento. A partir deste ponto chamaremos as séries escolhidas para prever o total de casos confirmados de série original (SO) e a série “logaritimatizada” (SL) e apresentaremos abaixo características observadas de cada modelos e cada série.
- ETS na série original (ETS SO): não capturou o padrão de crescimento e se manteve constante ao longo do tempo;
- ETS na série logarimitizada (ETS SL): capturou o padrão de crescimento linear;
- ARIMA na série original (ARIMA SO): capturou o padrão de crescimento linear;
- ARIMA na série logarimitizada (ARIMA SL): capturou o padrão de crescimento explosivo;
- Regressão linear na série logarimitizada (RL SO): capturou o padrão de crescimento linear;
- Regressão linear na série logaritimizada (RL SL): capturou o padrão de crescimento explosivo;
Vale ressaltar, no entendo, o comportamento curioso apresentado no terceiro gráfico que demonstrou picos nos dias 17, 19, e 22 de março. No gráfico abaixo podemos observar que o mesmo pico ocorreu também no dia 13 de março. Como são poucos casos de pico observados na série histórica diferenciada (ou, no caso, quantidade de casos a cada dia), não daremos nenhum tratamento especial a este fator. Entretanto, se estes picos continuarem será necessário fazê-lo para alcançar estimativas mais próximas dos valores observados (dados oficiais reportados pelo Ministério da Saúde do Brasil à Organização Mundial da Saúde).
Gráfico interativo disponível em: https://rpubs.com/LEGOS/590551
As previsões otimista, esperada e pessimista de acordo com cada modelo são apresentados nas tabelas abaixo.
cenário otimista |
ets SO |
arima SO |
rl SO |
ets SL |
ARIMA SL |
rl SL |
27/03/2020 |
2214 |
3323 |
2767 |
3084 |
3546 |
4474 |
28/03/2020 |
1856 |
3640 |
3028 |
3281 |
4447 |
5888 |
29/03/2020 |
1552 |
3931 |
3287 |
3416 |
5627 |
7747 |
30/03/2020 |
1268 |
4202 |
3547 |
3503 |
7153 |
10187 |
31/03/2020 |
991 |
4453 |
3805 |
3551 |
9121 |
13393 |
01/04/2020 |
715 |
4688 |
4063 |
3564 |
11654 |
17601 |
02/04/2020 |
436 |
4906 |
4321 |
3548 |
14915 |
23125 |
cenário ESPERADO |
ets SO |
arima SO |
rl SO |
ets SL |
ARIMA SL |
rl SL |
27/03/2020 |
2985 |
3416 |
2967 |
3389 |
3890 |
5058 |
28/03/2020 |
2985 |
3847 |
3235 |
3743 |
5070 |
6687 |
29/03/2020 |
2985 |
4278 |
3502 |
4134 |
6608 |
8839 |
30/03/2020 |
2985 |
4709 |
3769 |
4567 |
8612 |
11683 |
31/03/2020 |
2985 |
5140 |
4037 |
5044 |
11224 |
15443 |
01/04/2020 |
2985 |
5571 |
4304 |
5571 |
14628 |
20414 |
02/04/2020 |
2985 |
6002 |
4572 |
6154 |
19064 |
26984 |
cenário PESSIMISTA |
ets SO |
arima SO |
rl SO |
ets SL |
ARIMA SL |
rl SL |
27/03/2020 |
3756 |
3509 |
3167 |
3723 |
4269 |
5720 |
28/03/2020 |
4114 |
4054 |
3441 |
4270 |
5781 |
7593 |
29/03/2020 |
4418 |
4625 |
3716 |
5003 |
7760 |
10084 |
30/03/2020 |
4702 |
5216 |
3992 |
5953 |
10368 |
13398 |
31/03/2020 |
4979 |
5827 |
4269 |
7165 |
13811 |
17808 |
01/04/2020 |
5255 |
6454 |
4545 |
8709 |
18360 |
23676 |
02/04/2020 |
5534 |
7098 |
4823 |
10674 |
24368 |
31487 |
Conforme comentado anteriormente, podemos descartar a priori os modelos ETS SO porque não foram capazes de capturar o crescimento que devemos prever. Assim, analisaremos apenas os resultados dos modelos ARIMA SO, ETS SL, ARIMA SL e RL SL. Para selecionarmos qual modelo deveríamos usar para estimar a quantidade total de casos esperados para os próximos 7 dias utilizamos os seguintes critérios:
- Teste de normalidade dos resíduos.
- ARIMA SO: p-valor =0,6431. Não podemos rejeitar a hipótese nula de normalidade.
- RL SO: p-valor =0,9168. Não podemos rejeitar a hipótese nula de normalidade.
- ETS SL: p-valor = 0,204. Não podemos rejeitar a hipótese nula de normalidade.
- ARIMA SL: p-valor = 0,04321. Ao nível de significância de 5% devemos rejeitar a hipótese nula de normalidade.
- RL SL: p-valor = 0,7331. Não podemos rejeitar a hipótese nula de normalidade.
- Teste de autocorreção dos resíduos (ACF). O modelo RL SO apresentou auto correlação dos resíduos nos lags 1 e 5 e foi descartada. As demais séries não apresentaram auto correlação.
- Menor média percentual absoluta do erro (MAPE) e menor erro quadrático médio (RMSE) dentre os modelos aprovados pelos critérios anteriores. No caso, entre ARIMA SO, ETS SL e RL SL.
Modelos |
ME |
RMSE |
MAE |
MPE |
MAPE |
ETS SO |
-236,58 |
283,65 |
236,58 |
-29,76 |
29,76 |
ARIMA SO |
-32,75 |
125,34 |
93,6 |
-6,73 |
12,54 |
RL SO |
0 |
221,99 |
187,1 |
-36,17 |
83,39 |
ETS SL |
96,45 |
196,68 |
136,74 |
2,79 |
10,25 |
ARIMA SL |
61,93 |
183,86 |
130,7 |
-0,86 |
10,46 |
RL SL |
34,9 |
289,44 |
177,14 |
-0,92 |
12,08 |
Na tabela acima observa-se que o modelo ARIMA SO atende ao critério de menor MAPE, ETS SL atende ao critério menor RMSE e ARIMA SL é a segunda colocada em ambos os critérios. Entretanto, com o objetivo de prover apenas uma previsão, combinamos os modelos ARIMA SO e ETS SL considerando: o menor valor entre estas séries, a cada dia, para estimar a previsão otimista, o valor médio entre ambas para estimar o valor esperado por dia e o maior valor, a cada dia, entre elas para estimar a previsão pessimista. Assim, os próximos valores esperados de quantidade de casos confirmados de COVID-19 no Brasil em cada cenário são apresentados na figura e tabela abaixo.
Dias |
Cenário Otimista |
Cenário Esperado |
Cenário pessimista |
27/03/2020 |
3084 |
3402 |
3723 |
28/03/2020 |
3281 |
3795 |
4270 |
29/03/2020 |
3416 |
4206 |
5003 |
30/03/2020 |
3503 |
4638 |
5953 |
31/03/2020 |
3551 |
5092 |
7165 |
01/04/2020 |
3564 |
5571 |
8709 |
02/04/2020 |
3548 |
6078 |
10674 |
Autor:
Daniel Assad
Currículo Lattes:
http://lattes.cnpq.br/0258423859812498
Coordenação do LEGOS|UERJ
Profa Thaís Spiegel, DSc. | thais@eng.uerj.br
Currículo Lattes:
http://lattes.cnpq.br/8880192361495671