quarta-feira, 1 de abril de 2009

Correlacionando

Olá pessoal! Sou o mais novo contribuinte do LeGauss e espero trazer coisas interessantes aqui também =) . Formado em Ciências da Computação, trabalho com Responsabilidade Social juntamente com Estatistica, então vou tentar trazer algo neste sentido por aqui.

Ok, nesse primeiro post gostaria de conversar sobre uma ferramenta muito interessante na estatística: a correlação.

Correlação

Correlação é literalmente o quanto duas variáveis X e Y têm em comum e variam linearmente entre si ou, em suma, o quanto seus resultados são parecidos. A imagem abaixo demonstra de uma maneira mais simples (em geral).


Então, pode-se definir correlação como:


Onde cov é covariância e

Dentre as formulas existentes para se calular a correlação, a mais usada é o Coeficiente de Pearson, deduzido das fórmulas de cima:



Sendo assim, é um número entre -1 e 1. Mas como interpretar esse número? A Correlação pode aferir sobre os mais diversos temas, de Exatas até Ciências Humanas. Na primeira, pelo resultado ser mais preciso é necessária uma correlação maior (em módulo, entre 1 e 0.7) dependendo do caso. Já no segundo, por ser algo mais intangível, sucetível a opiniões, correlações entre 0.7 e 0.4 podem já demonstrar uma relação forte. É importante citar que correlações negativas demonstram que as variáveis se comportam de ordem inversa (quando uma sobe a outra desce).

Uma propriedade da correlação e pode-se até brincar entre as fórmulas é testar transformações lineares nela. Ela não se altera se somarmos um k a todos os itens de uma variável ou mesmo se multiplicamos por um o máximo que ocorrerá é inverter o sinal da correlação se k for negativo.

Visualização

Em estudos sociais se tem um grande número de variáveis, e como é necessário estudar todas estas relações e assim nos deparamos com matrizes grandes e difíceis de explicar. Visualizações na área da correlação se tornam uma tar difícil a medida que queremos demonstrar mais variáveis e suas relações. Imaginando-se por exemplo uma pesquisa onde temos na ordem de 10 dimensões de abordagens e respostas, como fazer para mostrar o que é mais importante abordar, e que decisão tomar? Nesse caso, seria necessário enxergar quantas dimensões?

É como ver um poliedro onde cada vértice representa uma variável e estão todos ligados por molas (as correlações). Quando soltarmos os vértices, que forma teremos? Abaixo está o que mais pode-se concluir disso, onde cada esfera representa uma variável:



Cada vez mais perto do certo e maior a esfera, maior é a correlação daquela variável com as demais. A proximidade entre elas também é resultado das correlações mais importantes, isto porque não tem como demonstrar o "exatamente exato", pois estão todas as variáveis relacionadas. Esta imagem juntamente com as notas de cada variável, já nos permite por exemplo definir atuações que sejam mais efetivas ... e aí por diante.

Toda essa conversa sobre estatística e interpretação me lembrou de uma coisa, aliás (by xkcd):







2 comentários:

Rodrigo J. Fonseca disse...

xkcd sempre alegra o meu dia :)

Correlação é bem legal. Nunca cheguei a estudar diretamente, mas usei em um trabalho sobre identificação de padrões, mais especificamente, identificar tipos de folhas pela foto. Tiramos algumas medidas do formato das folhas, por exemplo, diâmetro, área, circunferência, etc. Montamos matrizes de correlação entre os dados medidos e classificamos em grupos a partir da correlação entre os dados. Funcionou muito bem, é impressionante.

Thiago S. Mosqueiro disse...

Fiquei um pouco confuso... E a escala métrica? Você pôs a intervalar, neh?

Só para complementar... Diz-se que uma variável X tem correlação negativa perfeita quando atinge os negativos, que significaria (interpretativamente) algo como sinais opostos.

Legal, estatística descritica rox!