Por que é importante entender correlação entre variáveis

Estudar a correlação entre variáveis é uma importante fonte para o entendimento de um problema e uma maneira de encontrar possíveis soluções. Quando estamos mapeando um processo de uma maneira macro precisamos  identificar a saída do processo. Por exemplo, se estamos produzindo algum serviço, a saída é nosso serviço entregue, porém este serviço pode ser avaliado sobre importantes pontos de vista ou variáveis importantes para nosso cliente. A complexidade do serviço, por exemplo, quanto maior a complexidade maior o tempo de entrega ou talvez quanto mais mudanças maior o tempo de entrega.
A ideia é tentar encontrar alguma relação entre essas variáveis. Encontrando esta relação podemos encontrar uma maneira de melhorar o nosso processo.

Gráfico de dispersão e coeficiente de correlação

Quando medimos duas variáveis relacionadas a um mesmo problema, geralmente estamos interessados no estudo da relação entre as variáveis. Vamos considerar por hora a situação em que as duas variáveis podem ser consideradas como contínuas.
Exemplo. Uma empresa que distribui produtos por todo o país contrata uma em-presa aérea para efetuar o transporte. Um estudo foi realizado pela empresa contratante para verificar a relação entre o custo de transporte (Y) e o peso do material transportado (X). Os dados se referem a um período de 6 meses e estão apresentados na tabela abaixo.

CustoPeso CustoPeso
5492.293778.0 6143.244181.0
 4401.893268.5 6309.654575.0
 5721.464026.0 8391.606272.0
 6237.144564.5 8530.496676.0
 6396.444386.0 6343.744841.0
 6863.915664.0 7482.646047.0
 7258.214852.0 6467.105315.0
 6643.565000.0 8768.306856.0
 8515.986646.0 8833.717198.0
 4687.633350.0 7987.366324.0
 5928.333726.0 8267.056452.0
10856.098718.0 4829.243699.0
 7766.475647.0

O primeiro passo na análise dos dados é colocar os pontos num gráfico cartesiano de Y em função de X.
exemplo correlacao peso vs custo

Do gráfico pode-se perceber que:

  • Há uma tendência de aumento do custo com o aumento do peso ( o que era de se esperar nesse exemplo)
  • Que a relação entre as duas variáveis é aproximadamente linear na região em que temos observações
  • Que há uma forte relação entre as duas variáveis.

Interpretação do coeficiente de correlação

O coeficiente de correlação mede a direção e o grau de associação linear entre as variáveis. Valores próximos de -1 ou +1 indicam forte associação. Valores próximos de zero indicam pouca associação. O sinal do coeficiente indica se a associação é positiva (Y aumenta com o aumento de X) ou negativa ( Y decresce com o aumento de X).
O coeficiente de correlação para os dados acima é 0.98 e você pode calculá-lo com qualquer software de análise de dados, como o Excel.

Se os pontos no gráfico apresentam pouca dispersão em torno de uma reta ligan-do X e Y dizemos que existe uma forte correlação linear entre as variáveis. Se os pontos apresentam alta dispersão dizemos que as variáveis são pouco correlacionadas.
Uma forma de quantificar o grau de associação linear entre duas variáveis é através do coeficiente de correlação amostral. Ele mede o grau de associação linear que existe entre as duas variáveis.

Alguns exemplos de gráficos de dispersão

A seguir apresentamos diversas configuração de pares (X,Y)

exemplo gráfico de dispersão a
Figura (a)

exemplo gráfico dispersão b
Figura (b)

Os diagramas da Figura (a) e (b) mostram duas situações onde os pontos estão em torno de uma reta imaginária ascendente. Valores pequenos de X estão associados a valores pequenos de Y, o mesmo acontecendo para valores grandes. Estes dois casos in-dicam o que chamamos de correlação linear positiva de Y e X. O dados em (b) estão mais próximos da reta imaginária, caracterizando uma correlação mais forte que a de (a), ou seja, o valor da correlação em (b) está mais próxima de +1 do que (a), apesar do que, os dois conjuntos de dados têm valor de r maiores do que zero.

exemplo gráfico de dispersão c
Figura (c)

exemplo-correlacao-d
Figura (d)

A Figura (c) mostra que os pontos em X e Y estão em torno de uma reta imaginá-ria descendente, indicando o que chamamos de correlação linear negativa, ou seja, valor de r menor que zero.
Os valores de X e Y na Figura (d) não sugerem uma associação entre duas variá-veis pois valores pequenos, ou grandes, de X estão associados tanto a valores pequenos quanto a valores grandes de Y. Os pontos do diagrama não se posicionam em torno de uma linha imaginária ascendente ou descendente.

exemplo-correlacao-e
Figura (e)

A Figura (e) aproxima-se mais de uma parábola do que de uma reta, ilustrando correlação não linear. Apesar de serem muito correlacionados, o coeficiente de correla-ção linear será próximo de zero. Isto ocorre devido ao fato de que o coeficiente só pode ser usado para correlações lineares.

Aspectos importantes

Pra começar o estudo de relação entre variáveis precisamos primeiro identificar alguns aspectos:

1. A variável é Y ou X?

  • Y: Variáveis de saída do processo cujo comportamento você quer explicar e obter um modelo. Ela pode ser chamada de variável resposta ou variável dependente.
  • X: Variáveis de processo ou de entrada, candidatas a explicar o comportamento das variáveis resposta. Podem ser chamadas de variáveis explicativas, variáveis independentes ou fatores.

2. A variável é numérica ou categórica?

Identificados estes aspectos basta localizar a técnica estatística adequada na tabela:

correlacao

Exemplo: Associação entre variáveis X: numérica e Y: numérica

Uma equipe estava incumbida de elevar a satisfação dos clientes com a entrega dos projetos do escritório. Existia uma forte convicção de que a satisfação era influenciada pelos dias de atraso. Para comprovar essa teoria, a equipe coletou a satisfação e os dias de atraso (dias de atraso negativo significam entrega antes do prazo) para 24 projetos. Você consegue perceber se a satisfação é influenciada pelos dias de atraso com a entrega do projeto no gráfico de dispersão abaixo?

scaterplot

Olhando o gráfico de dispersão, onde cada ponto representa um projeto, com o respectivo atraso e satisfação, fica fácil perceber que quando maior o atraso, menor a satisfação.

Além do gráfico podemos também utilizar o Coeficiente de Correlação Linear que mede o grau de associação entre duas variáveis, este coeficiente pode ter valores entre -1 e 1 e quanto mais próximo de 1 maior a relação positiva e mais próxima de -1 maior a relação negativa entre as variáveis X e Y.

Correlação espúria: Cuidado!

Nem sempre correlação implica causalidade. Dizemos que uma variável X “causa” Y se X provoca um efeito ou resultado em Y. Devemos estar atentos para não confundir os conceitos de correlação e causalidade. Muitas vezes encontramos uma forte correlação entre duas variáveis e somos tentados a estabelecer uma relação de causa e efeito entre as duas variáveis, o que nem sempre é verdade.

Entre os anos 1920 e 1935 foram coletados os dados relativos ao número de aparelhos de rádio e número de doentes mentais por 100.000 habitantes na Inglaterra. O gráfico dispersão dos dados coletados esta na figura a seguir

correlacao-causalidade

O gráfico sugere que quanto maior é o número de aparelhos de rádio, maior é o número de doentes mentais. Podemos concluir que ouvir rádio provoca doença mental?! A resposta é Não. Duas variáveis podem estar correlacionadas porque a variável X é causa direta da variável Y ou variável Y é causa direta da variável X; a variável X contribui para a variação em Y, mas não é a única causa; outras variáveis podem estar provocando a correlação; ambas as variáveis estão mudando com o tempo; a associação não passa de coincidência.

Quando encontramos uma correlação sem relação causal, dizemos que temos uma correlação espúria.

Relação de causa e efeito

Em muitas situações práticas não é tão simples decidir se a relação é causal. Uma forma de se estabelecer se a relação é de causa e efeito é através da realização de experimentos planejados.
Estudar a correlação entre duas ou mais variáveis pode ser bastante útil. Se Y é uma medida de um produto ou processo e se Y está fortemente correlacionada com outra medida X que é mais barata ou mais fácil de obter, então podemos medir X e através da relação existente entre elas estimar o valor de Y. A técnica utilizada nesse tipo de situação é regressão linear, que será estudada mais à frente.

Para saber mais sobre importantes ferramentas que auxiliam em projetos de melhoria, confira nossos cursos de Green Belt e Black Belt.

1 responder

Trackbacks & Pingbacks

    Deixe uma resposta

    Want to join the discussion?
    Feel free to contribute!

    Deixe uma resposta

    O seu endereço de e-mail não será publicado.