Uma Introdução à Modelagem de Equações Estruturais

Guilherme L. de Oliveira | 07/10/2016


Introdução

Nesta oportunidade trago para o grupo uma discussão a respeito do que se conhece como modelagem de equações estruturais (SEM - do inglês Structural Equation Modeling). Mesmo “conhecendo” (reparem que isto é diferente de “dominar”!) as técnicas estatística envolvidas na análise, este assunto é novo pra mim. Trata-se de uma modelagem conjunta de relações causais e determinísticas entre variáveis mensuráveis e latentes usando técnicas de estatística multivariada. O objetivo principal é a comprovação de conhecimentos teórico-subjetivos estabelecidos sobre as relações causais presentes no modelo estabelecido a priori. É preciso salientar que este material não é livre de erros e equívocos. Também, devo mencionar que os trabalhos de Amorim et. al (2012), León e Fachel (2011) e Hox e Bechger (1998) foram utilizados como referências principais para o que é apresentado aqui, sobretudo as figuras e os exemplos.

O que vem a ser SEM?

Modelagem de equações estruturais é uma técnica de análise estatística multivariada muito geral que é amplamente utilizada em ciências sociais e comportamentais. Geralmente envolve uma combinação de técnicas de análise fatorial confirmatória e regressão linear múltipla com o objetivo de analisar a relação estrutural/causal entre grandezas mensuráveis e construtos latentes. É conhecida por vários nomes como, por exemplo, análise de estruturas de covariância, modelos LISREL (LInear Structural RELations) e modelagem “causal”.

Comparado à análise de regressão e análise fatorial, a SEM é um campo relativamente novo. Ela tem suas raízes na análise de caminhos (path analysis) desenvolvida pelo geneticista Sewall Wright em 1921, porém suas formas modernas e ampla utilização surgiram com os avanços computacionais ocorridos a partir das décadas de 1960 e 1970. É costume começar a SEM desenhando um diagrama de caminhos como propôs Sewall Wright em 1921. Por ser recente, a metodologia ainda está em desenvolvimento, e até mesmo conceitos fundamentais estão sujeitos a contestação e revisão pelos usuários frequentes.

Para que é utilizada?

SEM pode ser usado conceitualmente para responder a qualquer pergunta de pesquisa envolvendo a observação direta ou indirecta de uma ou mais variáveis independentes ou uma ou mais variáveis dependentes. No entanto, o principal objetivo do SEM é determinar e validar um processo causal ou modelo proposto. Portanto, SEM é uma técnica de confirmação de algum estudo de pesquisa em vez da exploraração ou explicação um algum fenômeno. Isto é, um investigador é mais propenso a usar a SEM para determinar se um determinado modelo teórico (hipotético) é válido em vez de usá-la para “encontrar” um modelo adequado. Neste sentido, as relações mostradas na SEM representam as hipóteses a priori dos pesquisadores com relação a construtos teóricos, representados por fatores latentes.

Como em qualquer outro teste ou modelo, temos uma amostra e queremos dizer algo sobre a população que gerou a amostra. Nós temos uma matriz de covariância que serve como nosso conjunto de dados, a qual é baseada na amostra recolhida. A questão empírica do SEM é, portanto, se o modelo proposto produz uma matriz de covariâncias que é consistente com a matriz covariâncias amostral.

Em SEM, o interesse geralmente se concentra nos fatores latentes (por exemplo, variáveis psicológicas abstratas como “inteligência” ou “propensão ao suicídio”) em vez de se concentrar nas variáveis manifestas (grandezas mensuráveis/observáveis) determinadas por esses fatores.

Uma vez que é preciso especificar a priori um modelo que será submetido a testes de validação, há muitas perguntas que podem ser respondidas usando a SEM. Ela pode nos dizer se um determinado modelo é adequado ou não. Estatísticas de bondade de ajuste podem ser calculadas para nos dizer se o seu modelo é apropriado ou se este precisa de uma revisão mais aprofundada. SEM também pode ser usado para comparar várias teorias que são especificadas a priori.

SEM permite quantificar a variância das variáveis dependentes - tanto manifestas quanto latentes - que é explicado pelas variáveis independentes no modelo. Pode também ser usada para verificar a significância de cada variável medida.

Diferenças entre grupos taMbém podem ser averiguadas através da SEM. Modelos de equações estruturais podem ser ajustados separadamente para diferentes grupos e os resultados podem ser comparados. Além disso, tanto efeitos aleatórios quanto efeitos fixos podem ser incluídos nos modelos e, assim, técnicas de modelagem hierárquicas podem ser consideradas nas análises.

Algumas vantagens

A SEM, enquanto técnica multivariada, tem como base um conjunto de relações, sendo cada uma com variáveis dependentes e independentes, apresentando algumas vantagens em relação às demais técnicas, a citar:

  • Permite a incorporação dos erros de medição no processo de estimação do modelo de maneira simples;
  • Consiste na estimação simultânea de diversas relações de dependência interrelacionadas;
  • Permite que uma variável dependente em uma etapa do modelo se torne uma variável independente nas subsequentes relações de dependência;
  • A capacidade de definir suposições elaboradas com base no suporte téorico e incluí-las no modelo dá à SEM flexibilidade no exame de questões analíticas dos dados.

Algumas Limitações e Suposições da SEM

Como a SEM é uma técnica de confirmação, tudo deve ser planejado anteriormente. Um modelo completo deve ser especificado a priori e então testado com base na amostra das variáveis medidas. Deve-se saber o número de parâmetros a serem estimados - incluindo covariâncias, “coeficientes de caminho” e variâncias. Além disso, todas as relações que deseja especificar no modelo devem ser sabidas. Então, e somente então, se pode iniciar as análises.

Com relação as suposições, podemos citar:

  • distribuição normal multivariada para os termos de erro (há estudos recentes sobre a flexibilização desta suposição!);
  • independência dos termos de erros;
  • linearidade entre as variáveis endógenas e exógenas;
  • sequência: deve haver uma relação de causa e efeito entre as variáveis endógenas e exógenas, e uma causa tem de ocorrer antes do evento;
  • outlier: os dados devem ser livres de outliers pois estes afetam a significância do modelo;
  • relacionamento não-espúrio: covariâncias observadas devem ser verdadeiras (não devidas ao acaso);
  • modelo deve estar devidamente identificado;
  • tamanho amostral: uma regra bastante comum é ter uma amostra de 10 a 20 vezes maior que o número variáveis;
  • dados intervalares.

Construção do modelo teórico

Para construir um modelo de equações estruturais parte-se de um modelo teórico previamente definido que permitirá determinar as múltiplas relações de dependência (ou relações causais) entre as variáveis do modelo. Um modelo teórico consiste em um conjunto sistemático de relações que fornecem explicações consistentes e abrangentes dos fenômenos. O modelo teórico que serve de apoio à construção de um modelo de equações estruturais não é restrito a uma teoria definida no âmbito acadêmico, mas pode ser alicerçado na experiência e na prática obtidas a partir da observação do comportamento real. A idéia geral da SEM pode ser representada pelo esquema apresentado na Figura 1.

Figura 1: Filosofia da Modelagem com Equações Estruturais. [fonte: Amorim et. al (2012)].

Este método é preferido neste tipo de pesquisa porque estima a dependência múltipla e as interligações entre todas as quantidades envolvidas em uma única análise.

Além das chamadas variáveis manifestas (X e Y), em SEM há geralmente dois tipos de construtos latentes: endógenos e exógenos. Construtos exógenos são variáveis independentes em todas as equações em que aparecem, ao passo que os construtos endógenos são variáveis dependentes pelo menos em uma equação - embora possam ser variáveis independentes em outras equações do sistema. Esta diferença ficará mais evidente no exemplo gráfico de modelo estrutural apresentado na Figura 1.

A Figura 2 é apresentada com o intuito de nos situarmos e nos motivarmos a respeito do tipo de estrutura que se pode modelar usando os modelos de equações estruturais. Há de se salientar que este exemplo representa um modelo bastante complexo com várias relações causais. Neste ponto, não precisamos nos atentar ao que significa cada quantidade e forma no diagrama. Isto será feito na próxima seção. Usemos a Figura 2 apenas para discutir a importância da SEM por tornar possível a resolução de problemas complexos como o que ela apresenta.

Figura 2: Exemplo de estrutura que pode ser modelada usando a SEM. As relações causais são estabelecidas com base em conhecimentos prévios a respeito do fenômeno em estudo. [fonte: SEMNET].

Representação gráfica do modelo teórico (path diagram):

Como em SEM, em geral, os modelos teóricos são bastante complexos, muitos pesquisadores acham mais conveniente retratá-los primeiramente na forma de um diagrama. O chamado diagrama de caminhos (path diagram) permite uma rápida visualização das relações de interdependência consideradas no modelo teórico. A exibição visual facilita a interpretação por parte do pesquisador.

O diagrama de caminhos é representado por um conjunto de figuras geométricas e setas que servem para evidenciar o tipo de variável (observada ou latente) e o tipo de relação entre elas. A Figura 3 ilustra as convenções usadas para a representação das relações entre um construto e uma ou mais variáveis de medição e a relação entre construtos segundo Amorim et. al (2012).

Figura 3: Elementos básicos utilizados na construção de um diagrama de caminhos. [fonte: Amorim et. al (2012)].

Quando duas variáveis não estão ligadas através de uma seta não implica necessariamente que uma não afete a outra. Essa relação pode ocorrer indiretamente, podendo ser identificada através de caminhos mais complexos.

Figura 4: Relações téoricas em SEM. [fonte: Amorim et. al (2012)].

Na Figura 5 são ilustrados três tipos de relação que podem ser descritos através de um diagrama de caminhos e suas correpondentes equações.

Figura 5: Relações causais representadas em diagramas de caminhos. [fonte: Amorim et. al (2012)].

Especificação do modelo de equações estruturais (SEM)

Sub-modelos da SEM

Um modelo de equações estruturais é dividido em duas partes:

  • modelo de medição/mensuração: representa a teoria de que especifica como variáveis manifestas se juntam para representar a teoria;

  • modelo estrutural: representa a teoria que mostra como os construtos estão relacionadas com outros construtos.