Box Plot

Box Plot: como analisar e interpretar esse gráfico?

Você sabe o que é um Box Plot? Provavelmente já ouviu falar e achou o nome desse gráfico estranho certo?

Se você ficou curioso, confira esse post que escrevemos para explicar como interpretar um box plot, quais conclusões tiramos ao analisar um box plot,  como preparar um box plot no excel, como preparar um box plot no R e como o box plot apresenta os outliers. Confira!

eBook: Como fazer análise de dados

A análise de dados tem sido uma habilidade cada vez mais requisitada no mercado de trabalho. A quantidade de dados disponíveis é enorme, mas poucas pessoas conseguem transformá-los em insights para decisões de negócios.





Capa eBook: Como fazer análise de dados



O que é um Box Plot

O Box Plot (também chamado de box e whisker plot) é um método alternativo ao histograma e ao ramo-e-folha para representar os dados. O Box Plot fornece informação sobre as seguintes características do conjunto de dados: localização, dispersão, assimetria, comprimento da cauda e outliers (medidas discrepantes).

Embora o Box plot forneça informação sobre localização e dispersão, seu verdadeiro valor está na informação que fornece sobre a cauda da distribuição. Pontos desgarrados (Outliers) podem afetar de forma adversa as decisões a serem tomadas a partir da análise dos dados se não forem devidamente considerados. O Box Plot, que estudamos no curso Green Belt, é uma ferramenta gráfica que ajuda a identificar a existência de possíveis outliers no conjunto de dados.

Em um box plot são apresentados 5 estatísticas: o mínimo, o primeiro quartil (Q1), a mediana, o terceiro quartil (Q3) e o máximo. Esse valores também são chamados de resumo dos cinco números.

Para construir um box plot desenha-se um retângulo alinhado verticalmente (ou horizontalmente) com duas semirretas, uma em cada um dos lados opostos do retângulo. A altura do retângulo é definida pelos quartis Q1 e Q3. Uma linha secciona o retângulo no valor da mediana (ou Q2). As semirretas ligam respectivamente os quartis Q1 e Q3 ao valor mínimo e ao máximo do conjunto de dados. Confira no exemplo o Box Plot “desenhado” com as estatísticas do resumo de cinco pontos.

exemplo de box plot com o resumo de cinco pontos

Figura: exemplo de box plot e as estatísticas por ele representadas.

Não existe uma única forma de apresentar um gráfico Box Plot. Diferentes livros (ou softwares) adotam variações na apresentação dos pontos extremos. O gráfico, em seguida, apresenta o Box Plot para o valor de venda de um produto amostrado em 95 pontos de venda.

 

Box plot: interpretação

O grande objetivo é verificar a distribuição dos dados. Assim, as conclusões que tiramos ao analisar um box plot são: centro dos dados (a média ou mediana), a amplitude dos dados (máximo – mínimo), a simetria ou assimetria do conjunto de dados e a presença de outliers. Vamos detalhar essas interpretações:

O centro da distribuição é indicado pela linha da mediana, no centro do quadrado.

A dispersão é representada pela amplitude do gráfico, que pode ser calculada como máximo valor – mínimo valor. Quanto maior for a amplitude, maior a variação nos dados.

O retângulo contém 50% dos valores do conjunto de dados. A posição da linha mediana no retângulo informa sobre a assimetria da distribuição. Uma distribuição simétrica teria a mediana no centro do retângulo. Se a mediana é próxima de Q1, então, os dados são positivamente assimétricos. Se a mediana é próxima de Q3 os dados são negativamente assimétricos. No exemplo que você pode observar, a seguir, a distribuição dos dados é simétrica.

Os outliers em um box plot aparecem como pontos ou asteriscos fora das “linhas” desenhadas. Perceba que no exemplo que temos um outlier representado pelo ponto no começo do gráfico.

boxplot

Figura: exemplo de box plot com outlier.

Box plot: outliers

O comprimento das linhas fora do retângulo (algumas vezes chamadas de whisquers) informam sobre a cauda da distribuição.

Os outliers serão os valores fora de Q1-1.5*(Q3-Q1) e Q3+1.5*(Q3 -Q1).

 

Um exercício resolvido de box plot

Exemplo: Um engenheiro em uma indústria química é responsável pela produção de acetona. Para avaliar a linha de produção, o gerente monitora o processo. Durante uma semana, 16 bateladas de acetona são produzidas e uma leitura por batelada é feita. Os resultados são apresentados na tabela abaixo.

Batelada      

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Leitura       

6

24

12

11

34

32

28

19

31

22

29

58

15

5

17

25

Arrumamos os dados em ordem crescente:
5, 6, 11, 12, 15, 17, 19, 22, 24, 25, 28, 29, 31, 32, 34, 58

Desses dados calculamos os quartis, a mediana a distância entre quartis, o mínimo e o máximo:
Q1=13.5          M=23              Q3=30
IQR=16.5        Min=5             Max=58
O Box plot é  apresentado a seguir.
box plot

Figura: outra exemplo de box plot com outlier.

Boxplot comparativo ou estratificado

Além de fornecer informações importantes sobre um conjunto de dados, o Box Plot é usado para comparar graficamente mais de um conjunto de medidas com respeito à média, à dispersão e à distribuição. Isso pode ser conseguido desenhando-se os Box Plots para cada conjunto de dados, paralelamente, num mesmo gráfico.

O próximo conjunto de dados apresenta dados de viscosidade de três misturas diferentes

Mistura 1Mistura 2Mistura 3
22.0221.4920.33
23.8322.6721.67
26.6724.6224.67
25.3824.1822.45
25.4922.7822.29
23.5022.5621.95
25.9024.4620.49
24.8923.7921.81

O Box Plot comparativo é apresentado a seguir:

 box plot

Figura: exemplo de box plot estratificado (comparativo).

Como podemos observar, as misturas apresentam níveis médios diferentes de viscosidade, decrescentes da mistura 1 para a mistura 3.

 

Como fazer um Box Plot com um software

Existem alguns programas de computador que permitem a construção de um Box Plot. Os principais são o Excel, o Minitab e o R. Confira na sequencia como preparar o gráfico em cada um desses softwares para facilitar suas análises.

Box plot no excel

Para preparar um box plot no excel você primeiro precisará calcular os seguintes valores: mínimo, Q1 (primeiro quartil); mediana; Q3 (terceiro quartil) e máximo.

Depois, basta utilizar a planilha que preparamos. É só inserir as informações e você fica com seu box plot prontinho para ser apresentado.

 

Como construir um Box Plot no R

O R é um software livre muito utilizado pelos estatísticos. Ele permite a execução de análises mais sofisticas, mas exige um conhecimento de sua linguagem de programação. Se você tiver com os dados no R, basta chamar a função boxplot(). Vamos supor que o conjunto de dados chama-se DATA. Para preparar o gráfico Box Pot no R basta executar o comando boxplot(DATA).

Você pode utilizar qualquer um dos conjuntos de dados apresentados nesse material para treinar a execução no R.

Como construir um Boxplot no Minitab

O Minitab é um software estatística muito utilizado para a construção de gráfico e análise de dados devido a facilidade de aprendizado de suas ferramentas e na velocidade de preparação de gráficos. Se quiser, você pode fazer o download gratuito de uma versão de teste do Minitab diretamente do site deles, basta procurar por “download minitab” em seu buscador favorito.

Se você tem um Minitab a disposição, vamos mostrar como construir um Boxplot. Você baixar os dados para esse exemplo no Excel no link exemplo-boxplot-minitab e copiar os dados (Crtl+C) e colar (Crtl+V) em seu Minitab que irá funcionar normalmente.
Com o Minitab abetos e os dados prontos para a análise siga o caminho Graph>>Boxplot. Nesse momento se abrirá 4 opções para construção de Boxplot. As duas de cima são utilizadas quando a variável numérica esta em uma única coluna.por exemplo, se em uma coluna estivesse todos os dados viscosidade estivessem em uma coluna e em uma outra coluna a informação de a qual mistura os dados pertencem).

No nosso exemplo temos os dados de viscosidade em 3 colunas e é isso que o Minitab chama de “Multiple Y’s”. Como não existe outra variável de estratificação selecionamos “Multiple Y’s>Simple”.

Quando se abrir a janela de configuração do Boxplot você deve inserir as variáveis Mistura 1, Mistura 2 e Mistura 3 na opção “Graph variables” e apertar OK. O gráfico Box plot será gerado instantaneamente. Preparamos 4 figuras com esses passos para ajudá-lo a construir o Boxplot no Minitab.

exemplo de box plot no Minitab

Figura: comandos para executar um box plot no Minitab.

Saiba Mais

Agora que você já sabe como utilizar, é muito importante saber quando utilizar box plot. Quer se tornar um expert em Box Plot? Então, matricule-se no curso Green Belt, para dominar esse e outros conhecimentos para trabalhar com a metodologia Six Sigma que utiliza o 5W2H.

Você tem algum comentário adicional? Alguma aplicação interessante de Boxplot para comentar? Compartilhe conosco seus comentários!

8 respostas
  1. Marcelo
    Marcelo says:

    Oi Márcio,

    É um definição. Espera-se que se a distribuição for simétrica, dados fora desse limite sejam indicação de outliers.

    Abraços

    Responder
  2. Carina
    Carina says:

    Acredito que o uso do 1,5 é por conta da normal.
    Q3-Q1=0.6745×2=1,349… arredondado para 1,5
    E apresentam 99,3% dos dados.

    Li essa justificativa em um trabalho uma vez e achei plausível.

    Responder
  3. Mylena brito
    Mylena brito says:

    e quando não aparecer linha no meio do retangulo? fiz uma comparação em dois aparelhos usados e em apenas um “bloco” apareceu a linha de simetria. como devo interpretar

    Responder
    • Marcelo
      Marcelo says:

      Não Marcelo, como temos 16 observações o Q1 é um valor entre a quarta e quinta observação (geralmente utilizamos a média, nesse caso 13.5). A mesma lógica se aplica para o Q3.

      Responder
  4. Michele
    Michele says:

    ola
    estou com dificuldades de interpretar os dados do box plot através do histograma. como faço?
    Poderia me dar um exemplo
    Obrigada

    Responder

Deixe uma resposta

Want to join the discussion?
Feel free to contribute!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *