Antes de melhorar um processo, você precisa descrevê-lo. Antes de compará-lo com uma meta, precisa entender seu comportamento atual. Antes de decidir o que mudar, precisa saber o que os dados dizem.
Esse é o papel da estatística descritiva — e é por isso que ela vem antes de qualquer análise inferencial, antes de qualquer teste de hipótese, antes de qualquer modelo preditivo.
A maioria dos erros de interpretação em projetos de melhoria não acontece na análise avançada. Acontece aqui, no básico — quando alguém olha apenas para a média e ignora a variação, ou quando interpreta um outlier como tendência, ou quando confunde dados de processo com dados de resultado.
Este artigo cobre o que a estatística descritiva é, quais são suas principais medidas, o que cada uma revela e como aplicá-las para tomar decisões melhores em processos reais.
O que é estatística descritiva
Estatística descritiva é o conjunto de métodos e medidas usados para resumir, organizar e descrever as características de um conjunto de dados. Ela responde à pergunta: o que esses dados dizem sobre o fenômeno que estou estudando?
A distinção fundamental na estatística é entre descritiva e inferencial:
| Dimensão | Estatística Descritiva | Estatística Inferencial |
|---|---|---|
| Objetivo | Descrever os dados que você tem | Fazer conclusões sobre uma população a partir de uma amostra |
| Pergunta | O que esses dados mostram? | O que esses dados permitem concluir sobre o todo? |
| Ferramentas | Média, mediana, desvio padrão, histograma, boxplot | Teste t, ANOVA, regressão, intervalos de confiança |
| Quando usar | Sempre — é o primeiro passo de qualquer análise | Quando precisa generalizar ou comparar com rigor estatístico |
No contexto do Lean Six Sigma, a estatística descritiva é a base da fase Measure do DMAIC. Antes de analisar causas, o projeto precisa descrever o processo atual com precisão — e é a estatística descritiva que fornece essa descrição.
As três dimensões que toda descrição de dados precisa cobrir
Descrever um conjunto de dados adequadamente exige responder a três perguntas:
1. Onde os dados se concentram? — medidas de posição (ou tendência central)
2. Quanto os dados variam? — medidas de dispersão
3. Como os dados estão distribuídos? — forma da distribuição
Um erro clássico é responder apenas à primeira pergunta. Saber que a média de tempo de atendimento é 4 minutos diz muito menos do que saber que a média é 4 minutos com desvio padrão de 3 minutos — o que significa que há clientes sendo atendidos em 1 minuto e outros esperando 7 minutos ou mais.
Medidas de posição (tendência central)
Média aritmética (x̄)
A soma de todos os valores dividida pelo número de observações. É a medida mais usada e a mais sensível a valores extremos (outliers). Um único valor muito alto ou muito baixo desloca a média significativamente.
Exemplo: tempos de ciclo de 5 peças — 12, 13, 11, 14, 45 segundos. Média = 19 segundos. Mas 4 das 5 peças têm tempo entre 11 e 14 segundos. A média de 19 não representa a realidade da maioria.
Mediana
O valor que divide o conjunto ordenado ao meio — metade dos valores está abaixo, metade acima. É robusta a outliers: no exemplo acima, a mediana é 13 segundos, muito mais representativa do comportamento típico do processo.
Use a mediana quando suspeitar de outliers ou quando a distribuição for assimétrica.
Moda
O valor que aparece com maior frequência. Útil para dados categóricos (tipo de defeito mais frequente, turno com mais ocorrências) e para distribuições com múltiplos picos.
Medidas de dispersão
São as medidas mais importantes para quem trabalha com melhoria de processos — e as mais negligenciadas.
Amplitude
Diferença entre o maior e o menor valor. Simples e rápida, mas muito sensível a outliers. Útil como primeira impressão, insuficiente como medida definitiva.
Variância (s²)
Média dos quadrados dos desvios em relação à média. Não é interpretável diretamente na unidade original (está em unidade²), mas é a base matemática do desvio padrão.
Desvio padrão (s)
A medida de dispersão mais usada em processos. É a raiz quadrada da variância — volta à unidade original dos dados. Um desvio padrão pequeno significa que os dados se concentram próximos à média; grande, que estão espalhados.
Exemplo concreto: dois processos de enchimento de garrafas com meta de 500ml.
| Processo | Média | Desvio padrão | Interpretação |
|---|---|---|---|
| A | 500 ml | 2 ml | Centrado e consistente — quase todas as garrafas entre 494 e 506 ml |
| B | 500 ml | 12 ml | Centrado mas inconsistente — garrafas entre 464 e 536 ml (±3σ) |
Mesma média, desvios padrão completamente diferentes. O processo B tem variação 6 vezes maior — e certamente produz mais garrafas fora da especificação. Olhar só a média esconderia esse problema.
Coeficiente de variação (CV)
Desvio padrão dividido pela média, expresso em percentual. Permite comparar a variação relativa de processos com médias diferentes.
CV = (s / x̄) × 100%
Um processo com média 100 e desvio padrão 10 tem CV de 10%. Outro com média 1.000 e desvio padrão 50 tem CV de 5% — é proporcionalmente mais estável, apesar do desvio padrão absoluto maior.
Medidas de posição relativa
Quartis e percentis
Dividem o conjunto de dados em partes iguais. O primeiro quartil (Q1) é o valor abaixo do qual estão 25% dos dados. O terceiro quartil (Q3), abaixo do qual estão 75%. A mediana é o segundo quartil (Q2).
O intervalo interquartil (IQR = Q3 − Q1) é uma medida robusta de dispersão — não é afetada por outliers porque ignora os 25% mais baixos e os 25% mais altos.
Boxplot
A representação visual dos quartis. Mostra em um único gráfico a mediana, os quartis, os valores mínimo e máximo (excluindo outliers) e os outliers identificados. É a ferramenta mais eficiente para comparar visualmente a distribuição de múltiplos grupos — por turno, por máquina, por operador, por fornecedor.
Forma da distribuição
A forma como os dados se distribuem revela informações sobre o processo que as medidas numéricas isoladas não capturam.
Assimetria (skewness)
Mede se a distribuição é simétrica ou tem uma cauda mais longa de um lado. Assimetria positiva (cauda à direita) é típica de dados como tempo de atendimento, custo de defeitos, lead time — valores negativos são impossíveis, então a distribuição só pode se estender para a direita. Assimetria negativa (cauda à esquerda) é menos comum em processos industriais.
Curtose (kurtosis)
Mede se a distribuição tem caudas mais pesadas ou mais leves que a distribuição normal. Alta curtose indica mais valores extremos do que o esperado — sinal de que o processo pode ter causas especiais de variação não identificadas.
Histograma
A ferramenta visual mais importante para entender a forma da distribuição. Divide os dados em intervalos (classes) e mostra a frequência de cada um. Padrões importantes a observar: formato de sino (aproximação da normal), bimodal (dois picos — provavelmente duas populações misturadas), assimétrico, ou com gaps (ausência de dados em certos intervalos, que pode indicar arredondamento ou coleta seletiva).
Estatística descritiva na prática: exemplo completo
Uma central de atendimento ao cliente mediu o tempo de resolução de chamados durante 30 dias — 412 chamados registrados. A equipe de melhoria aplicou estatística descritiva antes de qualquer análise de causa.
Medidas calculadas:
| Medida | Valor | O que revela |
|---|---|---|
| Média | 18,4 min | Centro aparente dos dados |
| Mediana | 12,1 min | Valor típico real — bem abaixo da média |
| Desvio padrão | 14,7 min | Alta variação — processo inconsistente |
| Mínimo | 2 min | Chamados simples resolvidos rapidamente |
| Q1 | 7,3 min | 25% dos chamados resolvidos em menos de 7,3 min |
| Q3 | 24,6 min | 75% dos chamados resolvidos em menos de 24,6 min |
| Máximo | 187 min | Outlier claro — chamado com problema específico |
| Assimetria | +3,2 | Forte cauda à direita — distribuição não normal |
Interpretação: a média de 18,4 minutos está 52% acima da mediana de 12,1 minutos — sinal claro de que outliers estão puxando a média para cima. A maioria dos chamados é resolvida em menos de 25 minutos (Q3), mas uma minoria com tempos muito altos (cauda à direita) eleva a média e distorce a percepção do desempenho.
Decisão baseada nos dados: a equipe segmentou os chamados por tipo e descobriu que 8% dos chamados — os que envolviam integração com sistemas legados — tinham tempo médio de 94 minutos, contra 11 minutos dos demais. Sem a estatística descritiva, essa segmentação não teria sido identificada antes de meses de análise.
Estatística descritiva e o subpilar de Estatística Six Sigma
A estatística descritiva é a fundação sobre a qual todas as ferramentas estatísticas do Lean Six Sigma se apoiam:
A distribuição normal pressupõe que você já descreveu os dados e verificou se a forma se aproxima do sino característico.
Os índices Cp e Cpk usam média e desvio padrão calculados na fase descritiva.
As cartas de controle são construídas sobre médias e desvios padrão de subgrupos.
O teste de hipótese compara estatísticas descritivas (médias, variâncias) entre grupos.
Sem dominar a estatística descritiva, o profissional que usa essas ferramentas mais avançadas está construindo em areia — aplicando fórmulas sem entender o que os dados dizem antes de qualquer análise.
Conteúdo revisado pelo Master Black Belt Marcelo Petenate, estatístico, formado pela Unicamp, mestre pela USP e especialista em Lean Six Sigma e melhoria contínua.
Descrever um processo com precisão — saber o que a média esconde, o que o desvio padrão revela e quando a mediana é mais honesta que a média — é a base de qualquer projeto de melhoria bem conduzido. O programa Green Belt da EDTI desenvolve essa competência com dados reais desde as primeiras aulas.
Perguntas frequentes sobre estatística descritiva
O que é estatística descritiva?
Estatística descritiva é o conjunto de métodos e medidas usado para resumir e descrever as características de um conjunto de dados — posição (onde os dados se concentram), dispersão (quanto variam) e forma (como estão distribuídos). É o primeiro passo de qualquer análise de dados e a base da fase Measure no DMAIC do Lean Six Sigma.
Qual a diferença entre estatística descritiva e inferencial?
A estatística descritiva descreve os dados que você tem — sem fazer generalizações além deles. A estatística inferencial usa os dados de uma amostra para fazer conclusões sobre uma população maior, com quantificação da incerteza. A descritiva responde “o que esses dados mostram?”; a inferencial responde “o que esses dados permitem concluir sobre o todo?”
Quais são as principais medidas de estatística descritiva?
Medidas de posição: média, mediana e moda. Medidas de dispersão: amplitude, variância, desvio padrão e coeficiente de variação. Medidas de posição relativa: quartis, percentis e intervalo interquartil. Medidas de forma: assimetria e curtose. As representações visuais mais importantes são o histograma e o boxplot.
Quando usar média e quando usar mediana?
Use a média quando os dados são aproximadamente simétricos e sem outliers significativos. Use a mediana quando os dados têm assimetria clara ou quando há outliers — a mediana é robusta a valores extremos enquanto a média é fortemente influenciada por eles. Em processos com tempos de atendimento, lead times ou custos, a mediana frequentemente representa melhor o comportamento típico do que a média.
O que o desvio padrão revela sobre um processo?
O desvio padrão mede a dispersão dos dados em torno da média — quanto os valores individuais se afastam do centro. Um desvio padrão pequeno significa processo consistente e previsível. Um desvio padrão grande significa processo com alta variação — mesmo com boa média, haverá muitos itens fora da especificação. No Lean Six Sigma, reduzir o desvio padrão (variabilidade) é o objetivo central do Six Sigma.
O que é o coeficiente de variação?
O coeficiente de variação (CV) é o desvio padrão dividido pela média, expresso em percentual. Mede a dispersão relativa — permite comparar a variabilidade de processos com médias em escalas diferentes. Um CV de 5% indica processo muito mais consistente do que um CV de 40%, independente das unidades de medida.
Como a estatística descritiva se conecta ao Lean Six Sigma?
A estatística descritiva é aplicada principalmente na fase Measure do DMAIC, onde o objetivo é entender o desempenho atual do processo com precisão. As medidas descritivas (média, desvio padrão, distribuição) são a entrada para todas as ferramentas estatísticas avançadas usadas na fase Analyze: capabilidade de processo (Cp/Cpk), cartas de controle, testes de hipótese e análise de correlação.