Buscar
  • edsonmontoro

Box Plot e suas versatilidades

Atualizado: 18 de Set de 2019


Bom Dia!

Vejam o artigo que escrevi sobre o Box Plot!

Sou fã de carteirinha dessa ferramenta da Estatística Não Paramétrica. Ela é bastante visual e mostra muitas informações a respeito da variável aleatória que você está avaliando.

Posso usar o Box Plot para fazer comparações, por exemplo, como uma variável se comporta em diferentes períodos, mês a mês, semana a semana, dia a dia, etc.

Até dá para arriscar inferências com o Box Plot chanfrado, como se fosse um teste de hipótese comparando médias.

Posso também usar o Box Plot para um teste comparativo depois de uma ANOVA que tenha a Hipótese Nula rejeitada; o Box Plot mostra claramente quem é diferente de quem.

Só para exemplificar o poder de fogo dessa ferramenta, uma certa vez consegui identificar só usando o Box Plot que, em uma planta química (fora do Brasil), os operadores estavam falsificando os resultados. Isso gerou um programa de treinamento, reforçando a importância da Ética, e as consequências nefastas que essa falha gerava.

Usem e abusem do Box Plot!

Abs.

PS: Você pode conferir o artigo aqui pelo blog ou se preferir fazer o download do artigo clicando aqui.

Versatilidades do Box Plot

Autor: Edson R. Montoro

O Box Plot ou Gráfico de Caixa, criado por John Tukey, tem inúmeras aplicações além de ser uma ferramenta muito útil e de fácil construção e interpretação.

Existem muitas variações do Box Plot, por ele ser uma ferramenta simples e muito visual as vezes ocorrem certos exageros em se colocar muitas informações sobre ele; o recomendado é que ele seja o mais simples possível, com as informações necessárias para realmente mostrar somente o que se deseja; sem poluição visual, pois senão ele perde toda a sua força.

Neste artigo mostraremos os tipos mais básicos de Box Plot e alguns exemplos de aplicação.

1. Box Plot simples

Basicamente, o Box Plot (Figura 1) mostra a distribuição dos resultados experimentais e é composto dos seguintes valores:

Menor Valor, 1º Quartil, 2º Quartil (ou Mediana), 3º Quartil e Maior Valor


Figura 1- Interpretação do Box Plot simples.

Estas estatísticas são facilmente calculadas pelas Fórmulas 1, 2 e 3, que produzem a posição da respectiva estatística, que tem o resultado experimental correspondente.

Posição do 1○ quartil = (1)

Posição do 2○ quartil = (2)

Posição do 3○ quartil = (3)

Normalmente quando temos poucas medidas de uma variável aleatória não conseguimos construir um Histograma (necessita-se de pelo menos 50 dados para um bom Histograma); para visualizar a distribuição desses resultados, utilizamos o Box Plot.

Uma comparação entre o Box Plot e o Histograma pode ser visto na Figura 2.


Figura 2 - Comparação do box Plot com Histograma.

Existem softwares que já constroem o Box Plot automaticamente, como o Action, Minitab, Statgraphics, o JMP entre outros; mas pode-se construir uma planilha em Excel para os cálculos necessários.

Para calcular o primeiro, o segundo e o terceiro quartil (Q1, Q2 ou mediana, Q3); deve-se primeiro ordenar os dados em ordem crescente e depois aplicar as fórmulas (1), (2) e (3) vistas anteriormente.

Podemos ver um exemplo dos cálculos usando os dados de duas variáveis aleatórias com 10 valores cada (n1 = n2 = 10) apresentados na Tabela 1.

Tabela 1 - Variável Resposta: tempo de processamento (min).


Para calcular a mediana (segundo quartil), tanto de X1 quanto de X2, é utilizada a Fórmula 2:

Mediana (segundo quartil) =

Como a posição é a 5,5a, o valor da Mediana deve estar entre o 5o e o 6o valor, que conforme o exemplo: para X1 são respectivamente, 243 e 251; então a Mediana será a média entre estes dois valores, 247. Já para X2, será a média entre 188 e 192, que é 190.

O 1o Quartil calculado pela Fórmula 1:

Q1 (primeiro quartil) =

é o valor que ocupa a 3a posição, que no exemplo apresentado, para X1 é 207 e para X2, 145. Já para o 3o Quartil, calculado pela Fórmula 3:

Q3 (terceiro quartil) =

é o valor da 8a posição, que para X1 é 272 e para X2, 228. Esses resultados podem ser vistos na Figura 3.


Figura 3 - Comparação de variáveis com Box Plot.

2. Box Plot Chanfrado

O Box Plot chanfrado (Figura 4) inclui a informação do Intervalo de Confiança de 95% para a Mediana; o que quer dizer, que é uma estimativa da mediana por intervalo, isto é, o valor real da mediana, com 95% de certeza, deve estar dentro deste intervalo.


Figura 4 - Interpretação do Box Plot chanfrado.

A utilização deste tipo de Box Plot é em comparações estatísticas como se fosse um Teste de Hipótese “visual”. Se os chanfros de dois ou mais Box Plots coincidirem, podemos dizer que não existe diferença significativa entre as medianas, a um nível de significância de 5%.

Se as variáveis podem ser consideradas como uma boa aproximação para o modelo de distribuição Normal, podemos aproximar essa conclusão também para as médias.

A seguir, veremos três exemplos de aplicação do Box Plot Chanfrado.

2.1. Exemplo 1: comparação da variabilidade e da tendência central de vários equipamentos.

Como se pode observar na Figura 5, não existe diferença significativa entre os equipamentos B e C, pois há uma coincidência entre os respectivos chanfros do intervalo de confiança, já o A é diferente destes dois com relação à mediana pois o chanfro do intervalo de confiança não coincide.


Figura 5- Comparação usando Box Plot

Quanto à variabilidade, não dá para afirmar que exista diferença significativa entre os três equipamentos, pois as alturas dos box plots são muito parecidas entre si.

2.2. Exemplo 2: comparação da performance de uma variável aleatória ao longo do tempo.

Como se verifica na Figura 6, a variabilidade diminuiu significativamente, é visível que mês após mês a altura do box plot, apresentando os valores experimentais diminuíram. Em janeiro, o range de variação é de aproximadamente de 1 a 15, enquanto que em Abril é de 7 a 9.


Figura 6 - Comparação de performance usando Box Plot

2.3. Exemplo 3: monitoramento de processo.

Este exemplo é muito interessante. Numa planta química, os operadores executavam várias medições de nível e toda vez que este era maior que um limite pré definido (no caso 17 cm), eles tinham que executar uma tarefa manual um pouco trabalhosa.

Por falta de orientação sobre a importância do controle dessa variável de processo, toda vez que o nível era maior que 17 cm, alguns operadores anotavam o valor da medição como 17 cm, e deixavam a tarefa para o próximo turno. Isso acarretava um descontrole no processo, gerando desperdícios e causando impacto no controle de outras variáveis do processo.

Os dados de um período foram plotados usando Box Plot, e se percebeu que a grande maioria das medições eram 17 cm ou menor, com poucos valores maiores que 17 cm; o que pode ser facilmente observado nos Box Plots da Figura 7.


Figura 7 - Identificação de problemas usando Box Plot

Após essa análise, foi feito um Kaizen envolvendo alguns operadores para melhorar a tarefa deixando-a mais simples. Após a mudança todos os operadores passaram por um treinamento para ficar bem claro a importância do controle dessa variável de processo. Obviamente os desperdícios foram eliminados, e os ganhos computados.

3. Detecção de Outliers

Uma outra importante aplicação do Box Plot é a detecção de outliers, isto é, um valor estranho, que provavelmente não pertença à população.

A distância entre o primeiro e o terceiro quartil é chamada de Range Interquartílico (RIQ) e contém praticamente 50% dos dados observados. Se um valor exceder 1,5 vezes este valor (RIQ), para cima ou para baixo, pode ser considerado como um outlier; veja o exemplo na Figura 8.


Figura 8 - Identificação de Outliers usando Box Plot

O racional dessa técnica é que considerando esse intervalo de ±1,5xRIQ, isto é (Q1 – 1,5xRIQ) até (Q3 + 1,5xRIQ) praticamente corresponde aos Limites de Controle de uma carta de controle do CEP (Controle Estatístico de Processo), como podemos ver na Figura 9.


Figura 9 - Racional da identificação de Outliers usando Box Plot

Vale a pena lembrar que não se pode simplesmente eliminar um outlier, temos que descobrir a sua causa antes de qualquer decisão. Pode-se aprender muito a respeito do seu processo com a identificação e análise dos outliers.

Referências:

  1. McGill, Robert;Tukey, John W.; Larsen, Wayne A.; Variations of Box Plots. The American Statistician, vol. 32 (1): pp. 12–16, February, 1978.

Sobre o Autor:

Edson R. Montoro é Diretor Técnico da ERMontoro Consultoria e Treinamento Ltda, empresa focada no desenvolvimento de pessoas e consultoria nas áreas de melhoria de processo usando Estatística Aplicada e Lean Manufacturing.

O autor é Químico pela UNESP (Universidade Estadual Paulista “Júlio de Mesquita Filho) – Araraquara, MBA em Gestão Empresarial pela FGV (Fundação Getulio Vargas), Master Black Belt pela Air Academy Associates, Engenheiro de qualidade pela ASQ (America Society for Quality) e Pós-graduação em Gerência de Produção pela UFSC (Universidade Federal de Santa Catarina).

Email : edson.montoro@gmail.com Cel: +55 (035) 99161 8141

#BoxPlot

1,550 visualizações2 comentários

Posts recentes

Ver tudo