A Matemática ajudando a prever a evolução do COVID

edsonmontoro
28 de jun. de 2020
12 min de leitura

Atualizado: 28 de ago. de 2020

Olá pessoal! Demoramos, mas estamos de volta com mais um artigo.

Aproveitando o período da pandemia, preparamos para vocês um material para mostrar o que venho estudando nesse tempo de ficar em casa. Como não posso visitar meus clientes, fico estudando e aprendendo conceitos novos, relembrando conceitos antigos que ficaram um pouco esquecidos e como sempre gostaria de compartilhar com vocês.

Espero que gostem do artigo. Como dizia um amigo de velhos tempos, se não gostar, diga a mim somente, mas se você gostar, espalhe para os quatro cantos do mundo.

PS: Você pode conferir o artigo aqui pelo blog ou se preferir fazer o download do artigo.

A Matemática ajudando a prever a evolução do COVID-19

Autor: Edson Rui Montoro

A pandemia pela qual estamos todos passando e sentindo seus efeitos literalmente na pele, gerou um distúrbio na vida de todos e obviamente não fiquei imune a isso. Com a quarentena o meu trabalho ficou muito comprometido e o ficar em casa se tornou nossa rotina.

Como não consigo ficar parado, comecei a estudar um pouco de epidemiologia, os modelos matemáticos que existem para criar as curvas epidemiológicas e percebi que estava um pouco “enferrujado” com os conceitos de cálculo diferencial, equações diferenciais ordinárias, entre outros.

Uma epidemia, segundo Forratini (2005), é o “nome dado ao estado de incidência ou agravo à saúde, além do normalmente esperado dentro da faixa de endemicidade, em determinada área ou grupo populacional”, sendo que o termo endemicidade é a faixa de variação da prevalência da doença ou agravo à saúde, definida por níveis considerados normais, para uma determinada área ou grupo populacional.

O desenvolvimento de uma epidemia depende de alguns fatores, como o número de pessoas susceptíveis, o número de infectados, a taxa de contato entre eles e o modo de transmissão.

Segundo Greenberg e colaboradores (2005), uma pandemia é uma epidemia de doença infecciosa que se espalha entre a população localizada numa grande região geográfica como, por exemplo, um continente, ou mesmo o planeta. De acordo com a OMS (Organização Mundial da Saúde), uma pandemia pode começar quando se reúnem três condições:

O aparecimento de uma nova doença na população.
O agente infecta humanos, causando uma doença séria.
O agente espalha-se fácil e sustentavelmente entre humanos.

Uma doença ou condição, não pode ser considerada uma pandemia somente por estar difundida ou matar grande número de pessoas; deve também ser infecciosa. Por exemplo, câncer é responsável por um número grande de mortes, mas não é considerada uma pandemia porque a doença não é contagiosa.

A ciência que estuda as epidemias é a epidemiologia, que é o ramo da medicina que avalia os diferentes fatores que intervêm na difusão e propagação de doenças, sua frequência, seu modo de distribuição, sua evolução e a colocação dos meios necessários à sua prevenção.

Esta ciência utiliza a matemática, assim como outras ciências, para avaliar, quantificar e fazer previsões da maneira mais confiável possível, através da estatística e de técnicas de modelagem matemática. Na epidemiologia, a modelagem matemática é extremamente útil para a compreensão dos mecanismos de propagação e no planejamento de estratégias de controle e avaliação dos seus impactos.

Bassanezzi (2002), afirma que um modelo matemático de uma situação é uma representação simbólica que parte do real e envolve uma formulação matemática abstrata. Segundo esse mesmo autor, modelagem é a prática de fazer modelos. Um modelo nunca é uma representação completamente precisa de uma situação física, é uma idealização.

Um bom modelo simplifica a realidade o bastante para permitir cálculos matemáticos, mantendo porém, a precisão suficiente para conclusões significativas, entretanto é importante entender as limitações do modelo (STEWART, 2015).

A frase mais famosa de George Box (Box, G.E.P, 1976), conhecido químico/estatístico da área de planejamento de experimentos na área industrial, é: "Todos os modelos estão errados, mas alguns são úteis". Talvez isso nunca seja tão verdadeiro do que durante uma crise, pois as informações são limitadas, geralmente erradas, mas as decisões devem ser tomadas e implementadas com base no que é conhecido atualmente.

Os modelos matemáticos que fornecem uma solução para as situações reais são extremamente complexos e para contornar essa complexidade, a estratégia é conseguir uma solução real para um problema aproximado, que é melhor que uma solução aproximada para um problema real, conforme apresentado na Figura 1.

Figura 1 – Modelagem matemática

O conceito de modelagem matemática é totalmente coerente com a frase do George Box, citado anteriormente.

A técnica de modelagem em epidemiologia já é conhecida desde meados do século anterior (Kermack, W.O., McKendrick, M.C., 1927). O modelo mais utilizado é o SIR (Susceptible, Infected and Removed), as vezes chamado também de Modelo de Sistemas Compartimentais, e é baseado em um sistema de Equações Diferenciais Ordinárias (EDO) que faz algumas pressuposições básicas, como por exemplo, a de que a população original (N) não se altera pois há um equilíbrio entre mortes e nascimentos.

Existem outros modelos para diferentes situações epidemiológicas, mas para o caso atual do COVID-19, o modelo SIR se parece mais apropriado, principalmente no início da crise.

Primeiramente considerando que uma epidemia ocorre em um sistema fechado onde existe o contato entre indivíduos sadios e infectados e que a população é dividida em classes ou compartimentos distintos, sendo eles:

S = pessoas sadias, mas suscetíveis a doença, que podem vir a ser infectadas quando entrarem em contato com pessoas doentes;
I = indivíduos portadores da doença, os quais são o foco de transmissão.
R = indivíduos que já contraíram a doença e se recuperaram, ou morreram.

No estudo de modelos compartimentais, consideramos que cada compartimento, ou classe, é composto por indivíduos homogêneos e cada indivíduo tem a mesma probabilidade de encontrar com um indivíduo susceptível e ainda não ocorre nascimentos e que a morte de indivíduos só ocorre pela doença contagiosa em estudo.

Nesse estudo temos um sistema fechado, ou seja, a população em questão permanece constante com o passar do tempo e o que muda são os componentes, chamados de compartimentos, daí o nome compartimentais. Isso pode ser descrito pela seguinte equação:

Onde,

N = representa a quantidade da população;

S(t) = número de indivíduos susceptíveis no tempo t;

I(t) = número de indivíduos infectados no tempo t;

R(t) = número de indivíduos recuperados no tempo t, no qual o termo Recuperados inclui os que se recuperaram realmente e os mortos devido a doença.

Outra forma de representar o modelo é apresentada na Figura 2.

Figura 2 – Compartimentos considerados no modelo SIR

A modelagem por EDO (Equações Diferenciais Ordinárias), considera as seguintes equações:

Este modelo é baseado em algumas hipóteses adicionais, sendo elas:

A razão da variação da população susceptível no tempo (dS/dt) é proporcional ao número de encontros entre as populações dos susceptíveis e dos infectados, isto é, para ocorrer a propagação da infecção é necessário a interação SI (Susceptíveis – Infectados);
A razão de variação da população removida (dR/dt) ou recuperada é proporcional à população já infectada (I);
Um membro da população, em média, faz contato para transmitir a infecção para outro indivíduo a uma taxa dI(t)/N por unidade de tempo (princípio de ação das massas).

Percebam que na primeira equação existe uma interação entre o S e o I, o que representa que o contacto entre um susceptível e um infectado faz a epidemia evoluir.

Usando estas hipóteses, podemos traduzir as equações diferenciais de uma forma mais literal para um melhor entendimento, da seguinte forma:

Taxa de mudança de S = –Taxa de Infecção
Taxa de mudança de I = Taxa de Infecção – Taxa de Remoção
Taxa de mudança de R = Taxa de Remoção

A solução do sistema de equações diferenciais ordinárias passa pelo valores de S(0), I(0) e R(0), isto é valores no tempo “zero” do processo epidemiológico, sendo S(0) o número de pessoas que compõe a população no início do processo, I(0) deve ser a primeira pessoa a ser infectada, isto é, a origem do processo ou pelo menos no dia da sua descoberta e o R(0) deve ser nulo. É utilizado o método de Euler para solucionar as Equações Diferenciais Ordinárias.

Resolvendo as equações com os dados iniciais do processo epidemiológico, se obtém as curvas que representam claramente a previsão do comportamento da epidemia, conforme apresentado na Figura 3.

Figura 3 – Modelo das curvas epidemiológicas

Na Figura 3 é possível observar a curva dos Infectados (I) (curva vermelha) que cresce, atinge um máximo e depois diminui, enquanto a curva S(Susceptíveis) (curva azul) se inicia com o tamanho da população e vai decrescendo com a evolução do processo epidemiológico. A curva R (Recuperados) (curva verde) vai aumentando aos poucos com uma defasagem que representa o tempo que o indivíduo leva para se recuperar.

O compartimento (classe) dos Recuperados ainda pode ser dividido em Recuperados realmente e a quantidade de mortes (curva roxa), que é uma curva que aumenta no início e depois se estabiliza, mas felizmente num patamar muito mais baixo do que a de Recuperados, representando a taxa de mortalidade do agente epidemiológico.

O contágio epidêmico tem como fundamento básico a lei geral de ação das massas, ou seja, a infecção se propaga mais rapidamente quanto maior for a concentração de indivíduos susceptíveis expostos ao agente infeccioso, que está hospedado em uma pessoa infectada. Esta taxa de infecção pode ser descrita como a taxa básica de reprodução do patógeno (no caso o vírus), chamado de R0, definida como o número médio de indivíduos infectados por um único membro infectado durante seu período infeccioso, logo que uma epidemia tem início. Assim temos que:

Onde:

β = probabilidade média de sucesso de infecção de um infectado;

c = o número médio de susceptíveis expostos a um indivíduo infectado;

d = período médio da fase contagiosa.

Uma outra maneira de se obter o R0 é:

Sendo que o gamma é a taxa de recuperação.

Com base em estudos na equação 3 pode-se concluir que:

Se R0 > 1 o número de infectados crescerá gerando uma epidemia;
Se R0 < 1 a epidemia não se autossustenta e tende a desaparecer;
Se R0 = 1 a doença persiste endemicamente, porém de forma instável, na população, podendo causar epidemias, persistir ou se extinguir.

Outro fator, resultado importante que se destaca dentro de epidemiologia, é o teorema do Limiar proposto por Kermack e McKendrick (1927), que preconiza a existência de um número crítico de susceptíveis em uma população para que uma epidemia possa ocorrer. Ou seja, se uma quantidade de indivíduos infectados for introduzida em uma população, só teremos uma epidemia se o número de susceptíveis for maior que o valor crítico. Caso contrário, não teremos a ocorrência de uma epidemia. Isso justifica o porquê da não vacinação de 100% da população durante surtos de epidemias. Dependo da situação é possível controlar uma determinada epidemia vacinando, por exemplo, 70% da população.

Uma relação entre a Taxa de Recuperação (gamma) e a Taxa de Transmissão (beta) em função do R0 pode ser vista na Figura 4.

Figura 4 – Relação entre beta e gama variando o R0

Quanto maior o R0, menor a inclinação da curva e exige um tempo maior para a recuperação das pessoas infectadas. Conforme as taxas de transmissão e de recuperação aumentam, se diminui o tempo de duração da epidemia.

Esse modelo SIR funciona muito bem no início, depois começa a não explicar muito bem a evolução. Existem outros modelos com a mesma filosofia, como o SEIR (Susceptíveis, Expostos, Infectados e Removidos) e uma série de variações com mais compartimentos sendo inseridos no modelo.

Após algum tempo tentando aprender sobre o modelo SIR, percebi que ele não estava mais se ajustando bem à curva de evolução do número de casos reais e, obviamente com todo tempo disponível, comecei a buscar outros modelos que pudessem representar melhor essa evolução.

Encontrei então a curva de Gompertz, criado por Benjamin Gompertz, que foi um matemático e atuário judeu, que comprovou que a taxa de mortalidade cresce geometricamente. Gompertz definiu uma lei que descrevia o crescimento geométrico da taxa de mortalidade e este estudo apresentou um avanço em relação aos estudos de Thomas Malthus, voltado ao cálculo de atuárias e seguros contra morte.

Lembrando novamente que todo modelo está errado, mas alguns são úteis, a função que descreve o modelo de Gompertz é dada por (5):

Onde,

y = Número de casos acumulado;

k = constante que representa a parte superior da assíntota;

e = número de Euler (2,7182818);

a = constante relacionada à parte inferior da assíntota, é o ponto quando a curva inicia a subida;

b = constante relacionada à taxa de crescimento;

x = corresponde aos dias da evolução dos casos.

A curva de Gompertz é uma sigmoide parecida com uma curva logística, só que não é simétrica e tem a seguinte aparência (Figura 5):

Figura 5 – Curva sigmoidal de Gompertz

Desse modelo é possível obter inúmeras informações sobre o fenômeno em estudo, no caso o COVID-19, entre elas uma estimativa às perguntas de: quando será o pico da pandemia? quando ela vai terminar?

A relação das constantes a/b é o valor no eixo horizontal que corresponde ao pico e a relação k/e no eixo vertical o valor correspondente.

As derivadas (precisei estudar um pouco para lembrar!) são muito interessantes, sendo que a primeira derivada (Equação 6) e é representada na curva da Figura 6.

Figura 6 – Primeira Derivada de Gompertz

Claramente se percebe o pico e qual o valor correspondente no eixo horizontal, que no nosso caso é o tempo.

A segunda derivada também é muito interessante, pois quando a sua curva corta o zero no eixo vertical também corresponde o pico, só que se consegue verificar o valor com mais certeza. A equação da segunda derivada e sua curva correspondente são apresentadas na equação 7 e Figura 7 respectivamente.

Figura 7 – Segunda derivada de Gompertz

Observa-se na Figura 7, a linha do zero, e quando a curva corta essa linha, o valor do eixo horizontal corresponde ao máximo (pico).

Como estamos mais acostumados com as curvas lineares, seria mais interessante linearizar a curva de Gompertz, que fica no formato da equação 8 e como pode ser percebido na Figura 8 a curva é descendente pois o coeficiente angular é negativo.

Figura 8 – Linearização de Gompertz

Vale ressaltar que, como na segunda derivada, o pico (máximo) se caracteriza pelo cruzamento da curva na linha do zero.

Na Figura 9 são apresentados os dados do número de casos acumulado no Brasil até a data de 25/06/2020, juntamente com o ajuste da curva de Gompertz. Percebam a aderência do modelo (curva vermelha) aos dados.

Figura 9 – Curva de Gompertz ajustada aos dados até 25-06-20

O modelo ajustado de Gompertz, com um R2 de 0,9990, produziu os seguintes valores para os parâmetros da equação:

Onde,

k = patamar superior no valor de 7.705.969 correspondente ao número máximo de infectados;

a = ponto onde a curva iniciou a subida (2,5);

c = taxa de crescimento equivalente a 1,6%.

Baseado nestes parâmetros, projetamos as curvas da primeira e segunda derivada, que podem ser observadas nas Figuras 10 e 11 respectivamente.

Figura 10 – Primeira derivada (previsão)

Figura 11 – Segunda derivada (previsão)

Como pode ser observado na Figura 11, a curva da segunda derivada corta a linha do zero no ponto correspondente aproximadamente ao valor de 157 no eixo horizontal, que corresponde o pico da pandemia no Brasil no início de agosto.

Estes são apenas dois dos possíveis modelos existentes na área de epidemiologia. Existem outros, mas dentro das nossas possibilidades apresentamos estes dois, o SIR e o Gompertz, este último muito útil no atual estágio da pandemia.

Existem vários grupos ligados a várias universidades que estão estudando, avaliando e propondo novos modelos para entender essa pandemia, tanto no Brasil como no exterior. Um dos modelos que acho muito interessante é o do pessoal da Faculdade de Veterinária da UNESP de Araçatuba, coordenado pelo professor Yuri Tani Utsunomiya, que trabalha com o modelo de Gompertz através da técnica de Regressão Móvel, associado com uma Cadeia Escondida de Markov. Pode-se carregar os dados no site www.theguarani.com.br/covid-19, e são geradas três curvas baseadas nos dados de casos acumulados, sendo uma do crescimento natural, outra da primeira derivada e uma última da segunda derivada, que corresponde à aceleração do crescimento do número de casos. Vale a pena visitar o site e ler o artigo disponível que descreve a técnica utilizada.

Para acompanhar a evolução da pandemia no Brasil e também em algumas cidades onde tenho clientes, construí inicialmente uma planilha em Excel para o modelo SIR, que foi baseada numa planilha do professor Nicolas Spogis da Faculdade de Engenharia de Alimentos da UNICAMP. Algum tempo depois criei uma planilha para a curva de Gompertz com suas derivadas e sua linearização, que atualmente é uma simulação melhor, pois se ajusta muito bem à curva de evolução do número de casos acumulados com um coeficiente de explicação do modelo (R2) de cerca de 99%.

Os dados de cada cidade de interesse, apesar de toda a polêmica de subnotificação que temos visto todos os dias e que dificulta uma análise mais confiável, pesquiso no site https://brasil.io/dataset/covid19/caso_full/.

Essas planilhas estão disponíveis para quem estiver interessado, é só enviar um e-mail que terei o maior prazer em compartilhar, pois afinal de contas o lema da nossa empresa é “Compartilhando conhecimentos para melhorar seus resultados”.

Bibliografia

Greenberg, Raymond S.; Daniels, Stephen R.; Flanders, W. Dana; Eley, John William; Boring, III, John R (2005). Epidemiologia Clínica 3ª ed. Porto Alegre: Artmed.
BASSANEZI, R.C (2002), Ensino-aprendizagem com modelagem matemática: uma nova estratégia; São Paulo: Contexto.
STEWART, J. (2015) Cálculo. São Paulo: Cengage Learning, V. 1.
Box, G. E. P. (1976), "Science and statistics" (PDF), Journal of the American Statistical Association, 71 (356): 791–799, doi:10.1080/01621459.1976.10480949.
Marros, A. M. D. (2007), Modelos matemáticos de equações diferenciais aplicados à epidemiologia, www.pgsskroton.com.br, consultado em 07/04/2020.
Kermack, W.O., McKendrick, M.C. (1927), A Contribution to the Mathematical Theory of Epidemics; Proc. Royal Soc. A, 115, 700-721.
Ramon, R. (2011), Modelagem Matemática Aplicada a Epidemiologia, Monografia apresentada à UFSC como parte dos requisitos para a obtenção do grau de especialista em Matemática. Orientador: Dr. Daniel Norberto Kozakevich, Universidade Federal de santa Catarina, Departamento de Matemática.
Gonçalves, B. Epidemic Modeling 101: Or why your CoVID-19 exponential fits are wrong, https://medium.com/ acessado em 20/04/2020.
https://lsbastos.github.io/covid-19/#covid-19-por-municipios consultado 23/04/2020.
WINSOR, C.P. (1932) A comparison of certain symetrical growth curves. J. Washington
Acad. of Sci., v. 22, n.19, p.73-84.
https://theguarani.com.br/covid-19/, visitado em 05/06/20.
https://www.youtube.com/watch?v=ZUrtyAL6NCM&t=7s vídeo do Professor Nicolas Spogis, visitado em 05/03/2020.
https://brasil.io/dataset/covid19/caso_full/ site visitado desde 15/05/2020.

Sobre o Autor:

Edson R. Montoro é Diretor Técnico da ERMontoro Consultoria e Treinamento Ltda, empresa focada no desenvolvimento de pessoas e consultoria nas áreas de melhoria de processo usando Estatística Aplicada e Lean Manufacturing.

O autor é Químico pela UNESP (Universidade Estadual Paulista “Júlio de Mesquita Filho”) – Araraquara, MBA em Gestão Empresarial pela FGV (Fundação Getúlio Vargas), Master Black Belt pela Air Academy Associates, Engenheiro de qualidade pela ASQ (America Society for Quality) e Pós-graduação em Gerência de Produção pela UFSC (Universidade Federal de Santa Catarina).

A Matemática ajudando a prever a evolução do COVID

A Matemática ajudando a prever a evolução do COVID-19

Bibliografia

Sobre o Autor:

Posts recentes

Comentários