Análise de correlação: Passo a passo no Excel e aplicações
Muitas vezes, na nossa vida profissional e acadêmica, precisamos avaliar o grau de relacionamento entre duas variáveis ou mais. É possível descobrir com precisão, o quanto uma variável interfere no resultado da outra utilizando técnicas relacionadas a Análise de Correlação. Esse arcabouço metodológico é amplamente utilizado em todas as áreas de conhecimento e é de grande ajuda no mundo dos negócios.
Navegação
Correlação
Segundo o dicionário Aurélio, correlação significa relação mútua entre dois termos. Correlacionar, portanto, significa estabelecer uma relação. Dessa forma, o método de correlação linear, é utilizado para estudar o comportamento conjunto de duas variáveis quantitativas.
Existem maneiras distintas de estudar o comportamento conjunto entre duas variáveis. Uma forma bastante funcional é a plotagem de um diagrama de dispersão, onde visualmente se observa a relação entre as variáveis. No entanto, utilizando apenas recursos visuais a única coisa que podemos observar é a relação entre as variáveis.
Sintetizando rapidamente:
Correlação positiva: Quando uma das variáveis “cresce” e a outra, em média, também “cresce”,
Correlação negativa: Quando uma das variáveis “cresce” e a outra, em média, “decresce”;
Caso sejam observados pontos dispersos, sem padrão de associação, nem mesmo definição de direção, espera-se que a correlação entre estas duas variáveis seja muito baixa.
No entanto, nós do Instituto Opus prezamos pelo rigor científico. Embora abordagens visuais sejam muito úteis e didáticas, fazemos questão de ir sempre além. Portanto, sempre consideramos necessário combinar informações visuais e quantitativas em nossos diagnósticos.
Coeficiente de Correlação de Pearson
No que diz respeito a correlação linear, o método mais conhecido para o cálculo é através do coeficiente de correlação de Pearson. Mais do que apenas a descrição de uma relação entre as variáveis, a utilização de um coeficiente de correlação permite quantificar a força do relacionamento entre as variáveis.
O coeficiente de Pearson é representado pela letra “r” e varia de -1 a 1. De maneira que:
- r= 1 Significa uma correlação perfeita e positiva entre as duas variáveis.
- Uma correlação negativa e perfeita entre as duas variáveis – Isto é, se uma aumenta, a outra sempre diminui retorna um r = -1.
- r= 0 Significa que as duas variáveis não dependem linearmente uma da outra. No entanto, pode existir uma outra dependência que seja “não linear”. Assim, o resultado r=0 deve ser investigado por outros meios.
Avaliação da força de correlação
Vimos que o “r” de Pearson mede a intensidade, seja ela positiva ou negativa, entre duas variáveis. No entanto o que deve ser considerado como uma relação forte ou fraco? Ressaltamos que, antes de tudo, deve ser considerado o assunto analisado e o que outros estudos correlatos consideraram como sendo uma correlação forte ou fraca.
No entanto, muitos estudos consideram, um coeficiente de correlação situado entre 0 e 0,3, positivo ou negativo, como fraco; 0,3 e 0,8, positivo ou negativo, moderado e acima de 0,8, tanto para valores negativos e positivos, é considerado como forte.
Cálculo de correlação linear no Excel
O Excel detém uma vasta gama de funções estatísticas. Dentre muitas outras, é possível calcular sem grandes dificuldade o coeficiente de correlação de Pearson usando a formula “=CORREL(matriz1;matriz2)” onde as matrizes 1 e 2 são os dados referentes as variáveis que se deseja correlacionar.
No entanto, quando temos mais de duas variáveis é interessante utilizar outro método igualmente simples.
Primeiro Passo: Abrir a aba “Dados” e clicar em “Analisar dados”. Essa rotina irá abrir um caixa de seleção com várias análises estatísticas. Basta selecionar “Correlação”
Segundo passo: Em seguida, uma outra caixa de seleção aparecerá. Nessa etapa ocorre a seleção dos dados e opções de plotagem do resultado.
Terceiro passo: Por fim, caso você tenha selecionado a opção de plotagem de resultados em outra planilha (uma preferencia minha), uma matriz de correlação será exibidade em outra aba do arquivo.
Coeficiente de correlação não linear
Vimos que o “r” de Pearson é uma ótima medida para avaliar a correlação linear entre duas variáveis. No entanto, o mundo não feito de relações lineares. Para tanto, apresentamos aqui, alternativas que viabilizam a análise do índice quando a linearidade é violada.
Para simplicidade do texto, tenha em mente que todos os coeficientes de aqui apresentados seguem pela lógica do “r” de Pearson e variam de -1 a 1.
Coeficiente de correlação de Spearman
Certamente iremos nos deparar com variáveis que não se relacionam desta forma. Para isso temos o ”ρ (rho) ” de Spearman! A correlação de Spearman avalia a relação monotônica entre duas variáveis contínuas ou ordinais, seja ela linear ou não.
Em uma relação monotônica, as variáveis tendem a mudar juntas, mas não necessariamente a uma taxa constante. O coeficiente de correlação de Spearman baseia-se nos valores classificados de cada variável, em vez de os dados brutos. Ou seja, caso não seja observada uma relação linear entre as variáveis, o coeficiente de Spearman é uma ótima alternativa.
A análise de correlação pelo coeficiente de Pearson e Spearman é inviabilizada caso os dados não sigam uma distribuição normal. É por isso que apresentamos em seguida um método relativamente novo.
Randomized Dependence Coefficient (RDC)
O coeficiente de dependência randomizado, ou RDC, é uma medida de relacionamento entre as variávis não assume normalidade e nem linearidade. Assim, este coeficiente consegue captar qualquer correlação existente.
Poucas pessoas sequer sabem da sua existência, uma vez ao invés dos demais indicadores de correlação, o RDC não pode ser calculado pelo Excel ou outro software popular. No entando, é relativamente simples. Algumas linhas de comando em linguagem R, são suficientes para que tenhamos em mãos um indicador robusto.
Aplicações
Correlação e finanças
Existem muitas estratégias para montagem de um portfólio de investimentos que consiga equilibrar risco e retorno. Ao montar um portfólio considerando a correlação entre o preço dos ativos escolhidos, é possível que o investidor se proteja dos choques no mercado de capitais.
Por exemplo, ativos que apresentam baixo índice de correlação tendem a apresentar market movers (fatores que fazem os preços dos ativos se moverem) diferentes. Assim, enquanto um ativo está sujeito a determinados choques inerentes ao seu business, o outro se vê relativamente “livre”. Diante disto, é possivel observar uma situação onde a desvalorização de um ativo seja neutralizada pela valorização de outro, tornando o portfólio do indivíduo menos sucetível às intempéries do mercado.
Negócios
A todo momento empresas tomam decisões de investimento, tendo dentre muitos outros, o objetivo de aumentar suas vendas. Aqui, analisar a correlação de investimentos em treinamentos, marketing, inteligência de mercado, por exemplo, pode ajudar bastante a direcionar o fluxo de recursos à área que apresente maior relação com o volume de vendas.
Embora seja uma técnica bastante útil e aplicavél no dia a dia e apresente excelentes alternativas a problemas técnicos, é importante lembrar que se a intenção for traçar cenários e identificar tendências uma regressão é a alternativa indicada. Por isso tenha bem claro a resposta que deseja obter dos dados.
Consultoria estatística e econométrica
O Instituto OPUS atua desde 2011 com coleta de dados primários e possui ampla experiência em técnicas de amostragem, cálculo de amostra, parâmetros estatísticos, formas de coleta e controle de qualidade.
Nossa equipe conta com economistas, estatísticos, cientistas sociais e historiadores. Somos registrados no Conselho Regional de Estatística de 6ª Região – CONRE 6.
Para um orçamento assessoria estatística e econométrica, entre em contato com um de nossos especialistas. Retornamos o contato em até 1 dia útil.
Converse com um especialista em pesquisas de opinião pública e mercado do Instituto OPUS
3 Comentários
Vocês comentarm bem algumas coisas no texto, no entanto, no caso da correlação de Spearman não foi apresentado o passo-a-passo para sua obtenção a partir do Excel. Isso é possível? Ou o próprio Excel já faz a “escolha” (o que não acho que aconteça). Vocês poderiam mostrar como faz? Obrigada, Cleuza.
Olá Cleuza,
Colocamos no planejamento de pauta um artigo específico sobre a correlação de Spearman. Assim que for publicado vamos te enviar um e-mail com o link.
Mateus, no caso de dias matrizes (dados) a melhor função pra achar exaustão (extremos) é atraves da CORREL ? Tenho usado ela e identificando os extremos como 1/-1.
Existe alguma outra função que eu mensure isso mais preciso.
Obs : Correl está 90% do tempo dandos bons resultados.