Análise de Componentes Principais (PCA)

ANÁLISE DE COMPONENTES PRINCIPAIS (PCA)

         A análise dos componentes principais PCA (do inglês Principal Component Analysis) , é um método para decompor uma matriz de dados X de posto r (ou "rank" r), como uma soma de matrizes de posto igual a 1, onde posto é um número que expressa a dimensão de uma matriz.

         Essas novas matrizes de posto 1, são produtos de vetores chamados "scores" th e "loadings" ph. Estes "scores" e "loadings" podem ser calculados par a par por um processo iterativo, como na equação 1.

X = t1 p'1 + t2 p'2 + .....+ th p'h: (1)

Na Figura 1 tem-se a representação da matriz de dados decomposta em matrizes "scores" e "loadings".


Figura 1. Representação da matriz de dados X decomposta em produto de matrizes de posto igual a um

         Para exemplificar th e p'h, temos a Figura 8 que ilustra no plano bidimensional duas variáveis x1 e x2. A Figura 2A mostra uma componente principal que é a reta que aponta para a direção de maior variabilidade das amostras da Figura 2B. Os "scores" th são as projeções das amostras na direção da componente principal e os p'h "loadings" são os cosenos dos ângulos formados entre a componente principal e cada variável.


Figura 2. Uma componente principal no caso de duas variáveis: (A) loadings são os ângulos do vetor direção; (B) scores são as projeções das amostras (1 -6) na direção da componente principal. Note que os dados são centrados na média.

         Em síntese a PCA é um método que tem por finalidade básica, a redução de dados a partir de combinações lineares das variáveis originais.