top of page

Box Plot e suas versatilidades

  • edsonmontoro
  • 9 de mai. de 2018
  • 6 min de leitura

Atualizado: 18 de set. de 2019


Bom Dia!

Vejam o artigo que escrevi sobre o Box Plot!

Sou fã de carteirinha dessa ferramenta da Estatística Não Paramétrica. Ela é bastante visual e mostra muitas informações a respeito da variável aleatória que você está avaliando.

Posso usar o Box Plot para fazer comparações, por exemplo, como uma variável se comporta em diferentes períodos, mês a mês, semana a semana, dia a dia, etc.

Até dá para arriscar inferências com o Box Plot chanfrado, como se fosse um teste de hipótese comparando médias.

Posso também usar o Box Plot para um teste comparativo depois de uma ANOVA que tenha a Hipótese Nula rejeitada; o Box Plot mostra claramente quem é diferente de quem.

Só para exemplificar o poder de fogo dessa ferramenta, uma certa vez consegui identificar só usando o Box Plot que, em uma planta química (fora do Brasil), os operadores estavam falsificando os resultados. Isso gerou um programa de treinamento, reforçando a importância da Ética, e as consequências nefastas que essa falha gerava.

Usem e abusem do Box Plot!

Abs.

PS: Você pode conferir o artigo aqui pelo blog ou se preferir fazer o download do artigo clicando aqui.

Versatilidades do Box Plot

Autor: Edson R. Montoro

O Box Plot ou Gráfico de Caixa, criado por John Tukey, tem inúmeras aplicações além de ser uma ferramenta muito útil e de fácil construção e interpretação.

Existem muitas variações do Box Plot, por ele ser uma ferramenta simples e muito visual as vezes ocorrem certos exageros em se colocar muitas informações sobre ele; o recomendado é que ele seja o mais simples possível, com as informações necessárias para realmente mostrar somente o que se deseja; sem poluição visual, pois senão ele perde toda a sua força.

Neste artigo mostraremos os tipos mais básicos de Box Plot e alguns exemplos de aplicação.

1. Box Plot simples

Basicamente, o Box Plot (Figura 1) mostra a distribuição dos resultados experimentais e é composto dos seguintes valores:

Menor Valor, 1º Quartil, 2º Quartil (ou Mediana), 3º Quartil e Maior Valor


Figura 1- Interpretação do Box Plot simples.

Estas estatísticas são facilmente calculadas pelas Fórmulas 1, 2 e 3, que produzem a posição da respectiva estatística, que tem o resultado experimental correspondente.

Posição do 1○ quartil = (1)

Posição do 2○ quartil = (2)

Posição do 3○ quartil = (3)

Normalmente quando temos poucas medidas de uma variável aleatória não conseguimos construir um Histograma (necessita-se de pelo menos 50 dados para um bom Histograma); para visualizar a distribuição desses resultados, utilizamos o Box Plot.

Uma comparação entre o Box Plot e o Histograma pode ser visto na Figura 2.


Figura 2 - Comparação do box Plot com Histograma.

Existem softwares que já constroem o Box Plot automaticamente, como o Action, Minitab, Statgraphics, o JMP entre outros; mas pode-se construir uma planilha em Excel para os cálculos necessários.

Para calcular o primeiro, o segundo e o terceiro quartil (Q1, Q2 ou mediana, Q3); deve-se primeiro ordenar os dados em ordem crescente e depois aplicar as fórmulas (1), (2) e (3) vistas anteriormente.

Podemos ver um exemplo dos cálculos usando os dados de duas variáveis aleatórias com 10 valores cada (n1 = n2 = 10) apresentados na Tabela 1.

Tabela 1 - Variável Resposta: tempo de processamento (min).


Para calcular a mediana (segundo quartil), tanto de X1 quanto de X2, é utilizada a Fórmula 2:

Mediana (segundo quartil) =

Como a posição é a 5,5a, o valor da Mediana deve estar entre o 5o e o 6o valor, que conforme o exemplo: para X1 são respectivamente, 243 e 251; então a Mediana será a média entre estes dois valores, 247. Já para X2, será a média entre 188 e 192, que é 190.

O 1o Quartil calculado pela Fórmula 1:

Q1 (primeiro quartil) =

é o valor que ocupa a 3a posição, que no exemplo apresentado, para X1 é 207 e para X2, 145. Já para o 3o Quartil, calculado pela Fórmula 3:

Q3 (terceiro quartil) =

é o valor da 8a posição, que para X1 é 272 e para X2, 228. Esses resultados podem ser vistos na Figura 3.


Figura 3 - Comparação de variáveis com Box Plot.

2. Box Plot Chanfrado

O Box Plot chanfrado (Figura 4) inclui a informação do Intervalo de Confiança de 95% para a Mediana; o que quer dizer, que é uma estimativa da mediana por intervalo, isto é, o valor real da mediana, com 95% de certeza, deve estar dentro deste intervalo.


Figura 4 - Interpretação do Box Plot chanfrado.

A utilização deste tipo de Box Plot é em comparações estatísticas como se fosse um Teste de Hipótese “visual”. Se os chanfros de dois ou mais Box Plots coincidirem, podemos dizer que não existe diferença significativa entre as medianas, a um nível de significância de 5%.

Se as variáveis podem ser consideradas como uma boa aproximação para o modelo de distribuição Normal, podemos aproximar essa conclusão também para as médias.

A seguir, veremos três exemplos de aplicação do Box Plot Chanfrado.

2.1. Exemplo 1: comparação da variabilidade e da tendência central de vários equipamentos.

Como se pode observar na Figura 5, não existe diferença significativa entre os equipamentos B e C, pois há uma coincidência entre os respectivos chanfros do intervalo de confiança, já o A é diferente destes dois com relação à mediana pois o chanfro do intervalo de confiança não coincide.


Figura 5- Comparação usando Box Plot

Quanto à variabilidade, não dá para afirmar que exista diferença significativa entre os três equipamentos, pois as alturas dos box plots são muito parecidas entre si.

2.2. Exemplo 2: comparação da performance de uma variável aleatória ao longo do tempo.

Como se verifica na Figura 6, a variabilidade diminuiu significativamente, é visível que mês após mês a altura do box plot, apresentando os valores experimentais diminuíram. Em janeiro, o range de variação é de aproximadamente de 1 a 15, enquanto que em Abril é de 7 a 9.


Figura 6 - Comparação de performance usando Box Plot

2.3. Exemplo 3: monitoramento de processo.

Este exemplo é muito interessante. Numa planta química, os operadores executavam várias medições de nível e toda vez que este era maior que um limite pré definido (no caso 17 cm), eles tinham que executar uma tarefa manual um pouco trabalhosa.

Por falta de orientação sobre a importância do controle dessa variável de processo, toda vez que o nível era maior que 17 cm, alguns operadores anotavam o valor da medição como 17 cm, e deixavam a tarefa para o próximo turno. Isso acarretava um descontrole no processo, gerando desperdícios e causando impacto no controle de outras variáveis do processo.

Os dados de um período foram plotados usando Box Plot, e se percebeu que a grande maioria das medições eram 17 cm ou menor, com poucos valores maiores que 17 cm; o que pode ser facilmente observado nos Box Plots da Figura 7.


Figura 7 - Identificação de problemas usando Box Plot

Após essa análise, foi feito um Kaizen envolvendo alguns operadores para melhorar a tarefa deixando-a mais simples. Após a mudança todos os operadores passaram por um treinamento para ficar bem claro a importância do controle dessa variável de processo. Obviamente os desperdícios foram eliminados, e os ganhos computados.

3. Detecção de Outliers

Uma outra importante aplicação do Box Plot é a detecção de outliers, isto é, um valor estranho, que provavelmente não pertença à população.

A distância entre o primeiro e o terceiro quartil é chamada de Range Interquartílico (RIQ) e contém praticamente 50% dos dados observados. Se um valor exceder 1,5 vezes este valor (RIQ), para cima ou para baixo, pode ser considerado como um outlier; veja o exemplo na Figura 8.


Figura 8 - Identificação de Outliers usando Box Plot

O racional dessa técnica é que considerando esse intervalo de ±1,5xRIQ, isto é (Q1 – 1,5xRIQ) até (Q3 + 1,5xRIQ) praticamente corresponde aos Limites de Controle de uma carta de controle do CEP (Controle Estatístico de Processo), como podemos ver na Figura 9.


Figura 9 - Racional da identificação de Outliers usando Box Plot

Vale a pena lembrar que não se pode simplesmente eliminar um outlier, temos que descobrir a sua causa antes de qualquer decisão. Pode-se aprender muito a respeito do seu processo com a identificação e análise dos outliers.

Referências:

  1. McGill, Robert;Tukey, John W.; Larsen, Wayne A.; Variations of Box Plots. The American Statistician, vol. 32 (1): pp. 12–16, February, 1978.

Sobre o Autor:

Edson R. Montoro é Diretor Técnico da ERMontoro Consultoria e Treinamento Ltda, empresa focada no desenvolvimento de pessoas e consultoria nas áreas de melhoria de processo usando Estatística Aplicada e Lean Manufacturing.

O autor é Químico pela UNESP (Universidade Estadual Paulista “Júlio de Mesquita Filho) – Araraquara, MBA em Gestão Empresarial pela FGV (Fundação Getulio Vargas), Master Black Belt pela Air Academy Associates, Engenheiro de qualidade pela ASQ (America Society for Quality) e Pós-graduação em Gerência de Produção pela UFSC (Universidade Federal de Santa Catarina).

Email : edson.montoro@gmail.com Cel: +55 (035) 99161 8141

3 commentaires


Edelina Investe
Edelina Investe
13 janv. 2022

Parabéns pelo trabalho, me ajudou bastante em minhas dúvidas.

J'aime

profcarinamat
02 mars 2021

Eu tava procurando umas imagens de box plot para utilizar de exemplo nas minhas aulas e encontro essa página, que lindeza!!

Parabéns pelo trabalho!

J'aime
edsonmontoro
02 mars 2021
En réponse à

Gratidão pelo comentário! É sempre bom ver que estamos conseguindo compartilhar um pouco de conhecimento! Fique a vontade para usar sem restrições! Qualquer coisa estamos a disposição! Fique atenta que estamos preparando muitas novidades!

J'aime

ERMontoro Consultoria e Treinamentos Ltda

CNPJ: 26598392.0001-26

Inscrição Municipal:  0039185

 

Endereço: Rua Rio Grande do Sul, 1649, centro,

Poços de Caldas – MG,

CEP 37701-001

E-mail:

edsonmontoro@ermontoro.com

flaviomontoro@ermontoro.com

Telefone / Whatsapp:

+55 (35) 99161 - 8141

+55 (16) 98102 - 6651

bottom of page