Na análise de dados de mercado, muitos dos fenômenos de interesse têm uma estrutura hierárquica, isto é, suas realizações ocorrem em grupos que se aninham em unidades progressivamente mais abrangentes. Em outras palavras: há variáveis que descrevem objetos ou indivíduos em uma localização específica; mas os indivíduos estão agrupados em unidades maiores – e há variáveis que descrevem esses agrupamentos como um todo.

O potencial de mercado de municípios é um exemplo típico desse tipo de estrutura. Os municípios pertencem a microregiões, que pertencem a mesorregiões, que pertencem a estados. Parte do potencial dos municípios tem origem em variáveis que atuam sobre cada um individualmente: o tamanho da população e sua distribuição em classes sociais, por exemplo. Nesse nível, fica determinado o potencial autônomo, próprio do município.

Outra parte, no entanto, pode ser influenciada por variáveis que atuam sobre toda a microrregião, como sua característica predominantemente urbana ou rural. Podemos associar a esta camada o potencial local, ou potencial de vizinhança, que leva em conta os efeitos de pequenos deslocamentos da renda disponível, gerada num determinado município mas consumida em um município vizinho.

Finalmente, há fatores cujo nível de atuação é ainda mais elevado, como o nível de centralidade da mesorregião, conforme definida pela Teoria do Lugar Central. Esse efeito dá conta do deslocamento de consumo que ocorre, por exemplo, quando alguém procura, numa capital, um serviço ou produto não disponível localmente. Nesta camada de análise, incorpora-se o efeito da renda de uma localidade subordinada sobre o potencial da região central, às vezes muito distante, onde a renda é consumida.

Até recentemente, os métodos utilizados para tratar estatisticamente de fenômenos hierarquizados apresentaram problemas de viés de agregação, precisão errônea e "unidade de análise". E também empobreceram a conceitualização dos fenômenos, desestimulando a formulação explícita de modelos em vários níveis, com hipóteses de diferentes efeitos acontecendo dentro dos níveis e entre níveis.

Desagregação
A primeira estratégia tradicional para análise de dados hierárquicos, a mais evidente, é desagregar as variáveis de ordem superior, trazendo-as para o nível individual. Segundo essa linha de conduta, as características de uma microrregião, por exemplo, seriam atribuídas a todos os municípios que a integram. A análise é realizada, então, em nível individual.

O problema é que dois municípios pertencentes a uma mesma microrregião compartilham os valores para as variáveis de nível mais elevado. Isto é: de maneira genérica, as observações pertencentes a um mesmo grupo apresentam valores idênticos para as variáveis de nível superior, relativas ao grupo. Portanto, não se pode adotar o pressuposto de independência, que é fundamental para as técnicas estatísticas clássicas, em particular para as técnicas de regressão.

Agregação
Uma estratégia alternativa, e também tradicional, seria, então, agregar as variáveis disponíveis individualmente, consolidando-as para o nível hierárquico superior, e realizar a análise nesse nível mais elevado.

Assim, por exemplo, somar-se-iam os valores relativos aos municípios de uma microrregião, passando-se a considerar cada microrregião como um todo. O problema é que, dessa forma, despreza-se toda a variabilidade interna à microrregião. À variabilidade interna, usualmente, corresponde a maior parte da variabilidade total que se procura entender ou explicar. Em conseqüência, a relação entre as variáveis agregadas geralmente parece muito mais forte do que é na verdade. E os resultados podem ser bastante distintos dos obtidos em uma análise dos dados desagregados. Em suma, na estratégia de agregação, despreza-se informação, distorcendo-se a análise.

Modelos Lineares Hierárquicos
Existe uma ferramenta muito prática e flexível para modelar e estimar fenômenos com estrutura hierárquica, levando em conta simultânea mas separadamente os diversos níveis de agregação das variáveis explicativas: trata-se do software HLM 5 – Hierarchical Linear and Nonlinear Modeling, de Raudenbush, Bryk, Cheong e Congdon, produzido e distribuído pela SSI – Scientific Software International (www.ssicentral.com) e disponível nesta versão, muito mais amigável, desde o início do ano. Com a ajuda deste software, pode-se formular uma equação do modelo para cada nível hierárquico, e estimar os parâmetros conjuntamente. A teoria subjacente ao software está muito bem discutida e exemplificada em um livro de 1992, de Bryk e Raudenbush: Hierarchical Linear Models, publicado na série Advanced Quantitative Techniques in the Social Sciences Series, da Sage Publications.

Embora um completo entendimento dos processos de estimação dos modelos hierárquicos talvez não esteja ao alcance de quem não conhece a teoria estatística em maior detalhe, isto não é um problema sério para quem tem uma inclinação prática: o texto é muito claro na explicação da lógica geral da utilização do modelo em casos concretos – e os exemplos são estimulantes, levantando muitas oportunidades de aplicação na área de geomarketing.

Da mesma maneira que não precisamos entender como um motor foi projetado para podermos dirigir nossos carros, o software HLM 5 pode conduzir a resultados muito interessantes na análise de dados geo-referenciados, mesmo quando modelos de regressão simples e múltipla falham ou são inconclusivos.

Francisco Aranha
é professor da Escola de Administração de Empresas de São Paulo, da Fundação Getúlio Vargas (Eaesp/FGV), e consultor em Marketing de Precisão pela Paredro Administração (SP). Email: faranha@fgvsp.br