Aplicação da álgebra linear em data science - Parte 1 Vetores

23 October 2022 - 5 mins read time
Tags: data-science algebra-linear math

Aplicação de vetores

Vetores fornecem as bases sobre toda a álgebra linear e existem processos onde eles são usados em um projeto de data science e entendê-los onde ele é aplicado é uma boa forma de identificar os motivos para estudar mais sobre.

Na álgebra linear o vetor é uma lista ordenada de números, mas também existem uma álgebra linear abstrata onde o vetor pode incluir outros objetos matemáticos, quando é falado assim pode parecer um pouco abstrato e esotérico e pode até parecer não precisarmos de estudar vetores, porém vamos olhar mais de perto algumas aplicações em data science & machine learning.

Correlação

Ao decorrer de um projeto de data science chega em um momento onde devemos realizar algumas explorações e a correlação é um método que auxilia nesse processo e é de muita importância essa análise estatística e posteriormente para a aplicação de machine learning.

O coeficiente de correlação é um número que quantifica o relacionamento linear entre duas variáveis, podendo ter valores entre -1 e +1, onde o valor -1 indica um relacionamento negativo e o +1 um relacionamento positivo e 0 não há relacionamento linear.

Imagem 1: exemplos de correlações e seus resultados

Para realizar o cálculo da correlação entre duas variáveis nós utilizamos o produto escalar, ele é uma maneira fundamental de combinar dois vetores. Intuitivamente, o produto escalar é um número que fornece a informação sobre o relacionamento entre dois vetores.

Após o cálculo do coeficiente de correlação é preciso realizar algumas normalizações para que o resultado fique entre o intervalo -1 e +1, sendo elas: (1) Centro médio de cada variável e (2) Divida o produto escalar pelo produto das normas vetoriais.

1: O centro médio de cada variável significa subtrair o valor médio de cada valor de dados
2: Essa normalização divisiva cancela as unidades de medida e dimensiona a magnitude de correlação máxima possível para módulo de 1.

Sigamos para o cálculo em si da correlação, uma das mais utilizadas é a de Pearson e podemos ver a sua fórmula abaixo:

Fórmula 1: coeficiente de correlação de Pearson

Quando analisamos essa fórmula podemos identificar alguns pontos onde a álgebra linear se faz presente com o produto escalar, que no caso são três, um produto escalar na literatura pode ser indicado por algumas notações, a mais comum se faz da seguinte maneira: $a^T b$, com isso podemos reescrever a fórmula:

Fórmula 2: Correlação de Pearson expressada em álgebra linear, onde x̃ é centro médio(1) de x

Portanto, a correlação de Pearson é um simples produto escalar entre duas variáveis normalizadas pela magnitude dessas variáveis. Mas vamos realizar uma demonstração passo a passo para exemplificar e facilitar o entendimento.

Quando falamos de vetor estamos lidando com uma notação igual a $\vec{v}$, definimos então dois vetores com n valores:

Imagem 2: Vetores x e y definidos

Defina as médias dos valores de $\vec{x}$ como $\bar x$ e o mesmo para o $\vec{y}$:

Imagem 3: Exemplo para x para calcular as médias dos valores

Definir então dois novos vetores, $\vec{x^ c}$ e $\vec{y^ c}$, que contém os valores dos vetores com suas respectivas médias subtraídas:

Imagem 4: Vetores x e y para calcular suas médias subtraídas

Dado isso, precisamos então definir a variância amostral de $\vec{x}$ e $\vec{y}$ como a média dos desvios quadrados da média:

Imagem 5: Exemplo de definição da variância amostral para x

E com isso podemos calcular o desvio padrão da amostra de $\vec{x}$ e $\vec{y}$:

Imagem 6: Exemplo de definição do desvio padrão da amostra para x

Como dito anteriormente, precisamos realizar a normalização das versões de $\vec{x}$ e $\vec{y}$:

Imagem 7: Normalização dos vetores x e y

Com isso podemos realizar o cálculo da coeficiente de correlação de Pearson de $\vec{x}$ e $\vec{y}$ que é dado por $\dfrac{1}{n}$ vezes o produto escalar de $\vec{x^ z}$ e $\vec{y^ z}$:

Imagem 8: Coeficiente de correção de Pearson em forma de produto escalar

A imagem 8 equivalente em termos de somas em vez de vetores é a mesma mostrada anteriormente na Fórmula 1. E quando nos termos de $\vec{x^ c}$ e $\vec{y^ c}$ temos que:

Imagem 9: Fórmula reescrita em termos de vetores

O resultado da fórmula acima rxy é o mesmo mostrado na Fórmula 2. O resultado, como dito anteriormente, é que a correlação de Pearson é um produto escalar entre duas variáveis após a sua normalização para os valores ficam entre -1 e +1.

A correlação não é a única forma de se encontrar similaridade entre duas variáveis, também temos o método de similaridades de cossenos que será assunto para o próximo post aqui do blog fique ligado.

Bibliografia:

Cohen, M.X. (2022) Practical linear algebra for data science: From core concepts to applications using Python. Beijing: O’Reilly.

Brett, Matthew. (2022, October). Correlation and projection. [Web log post]. https://matthew-brett.github.io/teaching/correlation_projection.html

Brett, Matthew. (2022, October). Vectors and dot products. [Web log post]. https://matthew-brett.github.io/teaching/on_vectors.html

Lang, S. (2003) Algebra Linear. Rio de Janeiro (RJ): Ciência Moderna.