Neste tutorial, abordaremos a Análise Fatorial de uma forma simples, descrevendo um pouco do seu desenvolvimento, teoria, terminologia, um exemplo prático e aplicações.
Teoria da inteligência de dois fatores de Spearman
A análise fatorial foi desenvolvida em 1904 por Charles Spearman ao avaliar correlações entre notas de várias disciplinas cursadas por estudantes. Spearman testou o desempenho das pessoas em várias tarefas relacionadas à inteligência, incluindo percepção de peso e cores, direções e matemática. Ao analisar os dados que coletou, ele observou que aqueles que se saíram bem em uma área também pontuaram melhor em outras. Isso levou à conclusão de que deve haver um fator central que influencia nossas habilidades cognitivas, uma “inteligência geral”, que Spearman decidiu chamar de g.
Um pouco mais de teoria e terminologia
A análise fatorial é um método estatístico de interdependência para modelar variáveis observadas e sua estrutura de covariância em termos de variáveis não observadas (fatores).

A análise fatorial envolve o agrupamento de variáveis semelhantes em dimensões, sendo esse processo usado para identificar variáveis latentes ou construções. O objetivo da análise fatorial é reduzir muitos itens individuais em um número menor de dimensões. Existem dois tipos de análises fatoriais: exploratórias e confirmatórias. Neste artigo, focaremos na análise fatorial exploratória (EFA).
A EFA é uma técnica de interdependência. Para ficar clarificada a diferença para técnicas de dependência, observe as imagens abaixo:
Técnicas de dependência × interdependência


O objetivo principal da análise fatorial é reduzir o número de variáveis observadas e encontrar variáveis não observáveis, alcançadas em duas etapas:
- Extração de fator: nesta etapa, queremos extrair o número de fatores usando métodos de particionamento de variância, como análise de componentes principais e análise de fator comum.
- Rotação de fator: nesta etapa, a rotação tenta converter fatores em fatores não correlacionados. O objetivo principal é melhorar a interpretabilidade geral. Existem muitos métodos de rotação disponíveis, tais como: método de rotação Varimax, Promax etc.
Estatísticas Associadas à Análise Fatorial
Comunalidade: quantidade de variância que uma variável compartilha com todas as outras. É a proporção da variância explicada pelos fatores comuns.
Autovalor: representa a variância total explicada por cada fator.
Cargas fatoriais: correlações entre as variáveis e os fatores.
Matriz de fator: uma matriz de fator contém as cargas fatoriais de todas as variáveis em todos os fatores.
Pontuação fatorial: são pontuações compostas estimadas para cada respondente nos fatores derivados.
Kaiser-Meyer-Olkin (KMO): medida de adequação da amostra, usada para examinar a adequação da análise fatorial.
Teste de esfericidade de Bartlett: é usado para testar a hipótese de que as variáveis não estão correlacionadas na população (ou seja: a matriz corr da população é uma matriz de identidade).
Matriz de correlação: é uma matriz de triângulo inferior que mostra as correlações simples, r, entre todos os pares possíveis de variáveis incluídas na análise. Os elementos diagonais são todos 1.
Porcentagem de variância: a porcentagem da variância total atribuída a cada fator.
Screen Plot: é um gráfico dos valores próprios em relação ao número de fatores na ordem de extração.
Etapas para a Análise Fatorial
- Realize um teste de adequação nos dados.
- Decida quantos fatores são necessários.
- Escolha o método de rotação para aplicar a Análise Fatorial.
- Conduza a análise, deduza essa solução.
- Interprete ou nomeie os fatores (aqui, é preciso estar envolvido: conhecimento de domínio pode ser útil nesta etapa).
- Avalie a qualidade do ajuste.
- Salve as pontuações dos fatores para uso em dados subsequentes.
Exemplo Prático
Os pesquisadores de mercado usam a Análise Fatorial para identificar clientes sensíveis ao preço ou encontrar características da marca que influenciam a escolha do consumidor e ajudam a compreender os critérios de seleção de canal para o canal de distribuição. No nosso exemplo prático, o conjunto de dados consiste em 90 entrevistados respondendo a perguntas com base em como gostam de comprar carros. As perguntas estão na escala Likert (por exemplo: respostas com uma escala de 1 a 5, sendo 1 ruim e 5 bom).
Existem 14 opções que os respondentes estão considerando quando compram um carro: preço, segurança, aparência externa etc.

Usando EFA para criar segmentos
Quando estamos falando de pesquisa, um problema a ser analisado são as questões correlatas. Por exemplo: todos que classificam Segurança como alta também podem classificar Tecnologia como alta. Quando isso acontecer, ter as duas perguntas não ajudará necessariamente a fazer uma segmentação matemática. No entanto, isso não significa que sejam perguntas inválidas. Pode haver muito valor comercial em saber que Segurança e Tecnologia estão altamente correlacionadas. Quando você encontrar questões correlatas, é uma boa ideia discutir com seus usuários de negócios quais (ou se) devem ser removidas.
Após aplicar o teste de adequação, obtivemos um resultado de 60% (podemos aplicar a EFA), com 5 fatores latentes, como podemos observar com o critério Screen plot.

Criando segmentos nos dados e revisando as cargas fatoriais
Consideramos as cargas fatoriais com valores acima de 0.4. Abaixo, temos as tabelas com os resultados.

Chamaremos os 5 fatores de: 1° Fator: custo geral, 2° Fator: conforto e eficiência de combustível, 3° Fator: confirmador de revisão, 4° Fator: serviço, 5° Fator: cor supera tudo.


Os fatores com maior variância dos dados são os primeiros; os 5 fatores podem explicar 45% de nossa variância. Provavelmente queremos atingir algo acima de 50%. Portanto, precisamos aumentar a contagem do número de fatores, mas podemos perder representatividade de variância nos dados. No entanto, o que realmente importa é o caso de negócio envolvido.
Tempo de Decisão
Validamos a pesquisa e chegamos a alguns segmentos iniciais. Há um porém, pois nossos segmentos não usaram todas as perguntas da pesquisa (Segurança e Tecnologia não foram usadas). Se for importante encontrar pessoas para vender recursos de segurança ou tecnologia também, precisaríamos aumentar os segmentos de 5 para 6 e executar novamente a parte de EFA de nossa análise. Outro requisito pode ser que podemos ter apenas 3 segmentos, então precisamos reduzir os fatores para o EFA (o que reduziria os recursos usados) ou combinar os 5 segmentos em 3. Apenas saber como fazer uma segmentação matematicamente correta não se traduz necessariamente em algo utilizável por uma empresa.
Aplicações da Análise Fatorial
Em ciências físicas e biológicas (geoquímica, hidroquímica, ecologia, biologia molecular), a análise de fator pode ser usada para resumir microarrays de DNA de oligonucleotídeos de alta densidade (moléculas curtas de DNA ou RNA).
No mercado, as pesquisas são usadas para uma ampla variedade de aplicações de marketing. Pode ser para compreender as escolhas políticas dos consumidores, compreender suas escolhas de marca, coletar insights e opiniões no design de itens novos, descobrir qual é o crédito ideal para focar nas interações de marketing entre outras.
De qualquer forma, é uma análise que traz novos conhecimentos valiosíssimos para o seu negócio, e promete alavancar boas decisões para as empresas de diversas formas.
Referências:
Código do material em: https://www.kaggle.com/caesarlupum/factor-analysis-segmentation-analysis
https://www.kdnuggets.com/2020/01/survey-segmentation-tutorial.html
https://www.datacamp.com/community/tutorials/introduction-factor-analysis
https://datasailors.wpcomstaging.com/use-factor-analysis-to-better-understand-your-data/
Análise Fatorial: Uma importante técnica multivariada
Nesse artigo vamos tratar sobre análise fatorial, uma importante técnica de análise multivariada. Quando se estuda um…
operdata.com.br

Cientista de dados
3 Comments
9lwezm
bim17z
abmrpn