Você sabe qual a importância da correlação entre variáveis?

Estudar a correlação entre variáveis é uma importante fonte para o entendimento de um problema e uma maneira de encontrar possíveis soluções. Por exemplo, se estamos produzindo algum serviço, a saída é entregá-lo, porém este serviço pode ser avaliado sobre importantes pontos de vista ou variáveis importantes para nosso cliente.

Estude essa relação agora!

eBook: Como fazer análise de dados

A análise de dados tem sido uma habilidade cada vez mais requisitada no mercado de trabalho. A quantidade de dados disponíveis é enorme, mas poucas pessoas conseguem transformá-los em insights para decisões de negócios.





Capa eBook: Como fazer análise de dados

Quando medimos variáveis, geralmente estamos interessados no estudo da relação entre as variáveis. Vamos considerar por hora a situação em que as duas variáveis podem ser consideradas como contínuas.

Exemplo. Uma empresa que distribui produtos por todo o país contrata uma empresa aérea para efetuar o transporte. Um estudo foi realizado pela empresa contratante para verificar a relação entre o custo de transporte (Y)
e o peso do material transportado (X).

Os dados se referem a um período de 6 meses e estão apresentados na tabela abaixo.

O primeiro passo na análise dos dados é colocar os pontos num gráfico cartesiano de Y em função de X:

Do gráfico pode-se perceber que:
» Há uma tendência de aumento do custo com o aumento do peso ( o que era de se esperar nesse exemplo);

» Que a relação entre as duas variáveis é aproximadamente linear na região em que temos observações;

» Que há uma forte relação entre as duas variáveis.

 

Interpretação do coeficiente de correlação

Para quantificar o grau de associação linear entre duas variáveis é utilizado o coeficiente de correlação linear.

Este índice mede a direção e a força de associação linear entre as variáveis, podendo variar de -1 a 1.
Valores próximos de -1 ou +1 indicam forte associação. Valores próximos de zero indicam pouca associação. O sinal do coeficiente indica se a associação é positiva (Y aumenta com o aumento de X) ou negativa ( Y decresce com o aumento de X).

O coeficiente de correlação para os dados acima é 0.98 e você pode calculá-lo com qualquer software de análise de dados, como o Excel.
Se os pontos no gráfico apresentam pouca dispersão em torno de uma reta ligando X e Y dizemos que existe uma forte correlação linear entre as variáveis. Se os pontos apresentam alta dispersão dizemos que as variáveis são pouco correlacionadas.

Alguns exemplos de gráficos de dispersão

A seguir apresentamos diversas configuração de pares (X,Y):

Os diagramas da Figura (a) e (b) mostram duas situações onde os pontos estão em torno de uma reta imaginária ascendente. Valores pequenos de X estão associados a valores pequenos de Y, o mesmo acontecendo para valores grandes.

Estes dois casos indicam o que chamamos de correlação linear positiva de Y e X. O dados em (a) estão mais próximos da reta imaginária, caracterizando uma correlação mais forte que a de (b), ou seja, o valor da correlação em (b) está mais próxima de +1 do que (a), apesar do que, os dois conjuntos de dados têm valor de r maiores do que zero.

A Figura (c) mostra que os pontos em X e Y estão em torno de uma reta imaginária descendente, indicando o que chamamos de correlação linear negativa, ou seja, valor de r menor que zero.

Os valores de X e Y na Figura (d) não sugerem uma associação entre duas variá-veis pois valores pequenos, ou grandes, de X estão associados tanto a valores pequenos quanto a valores grandes de Y.

Os pontos do diagrama não se posicionam em torno de uma linha imaginária ascendente ou descendente.

Aspectos importantes

Para começar o estudo de relação entre variáveis precisamos primeiro identificar alguns aspectos:
1. A variável é Y ou X?

Y: Variáveis de saída do processo cujo comportamento você quer explicar e obter um modelo. Ela pode ser chamada de variável resposta ou variável dependente.

X: Variáveis de processo ou de entrada, candidatas a explicar o comportamento das variáveis resposta. Podem ser chamadas de variáveis explicativas, variáveis independentes ou fatores.

2. A variável é numérica ou categórica?

Identificados estes aspectos basta localizar a técnica estatística adequada na tabela:

Correlação espúria: Cuidado!

Nem sempre correlação implica causalidade. Dizemos que uma variável X “causa” Y se X provoca um efeito ou resultado em Y.

Devemos estar atentos para não confundir os conceitos de correlação e causalidade. Muitas vezes encontramos uma forte correlação entre duas variáveis e somos tentados a estabelecer uma relação de causa e efeito entre as duas variáveis, o que nem sempre é verdade.

Duas variáveis podem estar correlacionadas porque a variável X é causa direta da variável Y ou variável Y é causa direta da variável X; a variável X contribui para a variação em Y, mas não é a única causa.

Outras variáveis podem estar provocando a correlação; ambas as variáveis estão mudando com o tempo, a associação não passa de coincidência. Quando encontramos uma correlação sem relação causal, dizemos que temos uma correlação espúria.

Relação de causa e efeito

Uma forma de se estabelecer se a relação é de causa e efeito é através da realização de experimentos planejados.
Estudar a correlação entre duas ou mais variáveis pode ser bastante útil.

Se Y é uma medida de um produto ou processo e se Y está fortemente correlacionada com outra medida X que é mais barata ou mais fácil de obter, então podemos medir X e através da relação existente entre elas estimar o valor de Y.

A técnica utilizada nesse tipo de situação é regressão linear, que será estudada mais à frente.

Para saber mais sobre importantes ferramentas que auxiliam em projetos de melhoria, confira nossos cursos de Green Belt e Black Belt.


0 respostas

Deixe uma resposta

Want to join the discussion?
Feel free to contribute!

Deixe uma resposta

O seu endereço de e-mail não será publicado.