Árvore de Decisão Dá Frutos Geográficos

O correto encadeamento de variáveis geográficas, sócio-econômicas e mercadológicas revela problemas e oportunidades empresariais de difícil detecção em análises não segmentadas

Em modelos de retenção (também conhecidos como modelos anti-attrition ou anti-churning) é comum o objetivo de separar clientes em grupos com diferentes taxas de deserção. Com base nos resultados da classificação dos clientes, desenham-se ações de marketing específicas para cada segmento, seja valorizando o relacionamento com aqueles de maior tempo médio de vida, seja procurando aumentar o tempo de sobrevivência dos segmentos sujeitos a maior risco. O conjunto de informações relevantes para análises deste tipo é grande e variado.

No que diz respeito aos consumidores, é razoável examinar dados de renda, idade, nível de educação, profissão, padrões de consumo, contatos com a empresa, tamanho e composição do grupo familiar, local de trabalho e de residência, etc. Faz sentido supor que a decisão do cliente continuar prestigiando a empresa, mudar de fornecedor ou simplesmente parar de consumir um produto ou serviço dependa de suas características pessoais e familiares.

Mas também faz sentido considerar que a manutenção do vínculo comercial depende da qualidade global do atendimento recebido. Mesmo no caso de empresas que mantém uma consistente qualidade de produto ou serviço, o benefício global usufruído pelo consumidor pode variar muito de um local para o outro em função de diferenças de eficiência na administração da empresa, desproporções na aplicação de verbas de comunicação, desníveis na capilaridade da distribuição e da assistência técnica, etc. Sem mencionar que a qualidade percebida geralmente é comparativa e depende também da presença, intensidade e comportamento da concorrência.

Todas estas características, tanto de demanda (perfil dos consumidores) quanto de oferta (atributos das empresas e do mercado), costumam apresentar forte nexo geográfico cuja compreensão impacta diretamente o sucesso de ações de retenção. No entanto, ao analisar os dados disponíveis, as empresas nem sempre conseguem encontrar o fio da meada geográfica do atrito.

Numa coluna anterior (Síndrome do Óculos para Perto, InfoGEO n. tal), apontamos uma das causas desta dificuldade de análise como sendo a escolha de um nível de agregação geográfico inadequado para os dados e usamos a proporção de idosos na população total de distritos do município de São Paulo como ilustração do efeito. No exemplo observava-se que o agrupamento dos distritos em três blocos (região central, anel intermediário e periferia) fazia surgir nitidamente um quadro de crueldade social com os velhinhos; em outros níveis de agregação geográfica o quadro não se explicitava.

Uma segunda causa de dificuldade na identificação dos padrões procurados decorre do fato de que, num mesmo espaço físico superpõem-se diferentes estruturas geográficas, mediadas por variáveis não geográficas. Explico-me por meio de outro exemplo.

Imagine uma revista semanal com distribuição nacional que deseja entender as taxas municipais de renovação de assinaturas. Iniciada pela dimensão geográfica, a análise não revela nenhum padrão espacial bem definido. Isto não significa que não há nexo espacial entre as variáveis de interesse.

Sabendo disso, o analista não desiste da investigação: na seqüência do estudo, segmenta os clientes em classes sociais e calcula a taxa de renovação para cada par de valores de município-classe social, definidores de segmentos.
Considerando em separado apenas a taxa de renovação da classe C, encontra uma nítida diferença de comportamento na direção Norte-Sul do país; surgem duas grandes áreas com comportamentos distintos quanto à taxa de renovação de assinaturas (latitude menor ou igual a 14.6 graus decimais, e latitude maior que 14.6). Quando a classe B, por sua vez, é considerada em separado, a segmentação geográfica também se mostra relevante: formam-se, digamos, 3 regiões distintas (células vermelha, verde escuro e turquesa na Figura 1). E quando se analisa a classe A, a localização mostra-se irrelevante: as variáveis significativas são o número de vezes que o assinante está renovando (primeira vez, ou da segunda em diante) e grau de escolaridade (primeiro grau, segundo grau ou superior).

Figura 1 – Árvore de Decisão do Exemplo de Renovação de Assinaturas.

A dificuldade em visualizar a estrutura geográfica do problema está em que no mesmo espaço (o Brasil) superpõem-se várias estruturas geográficas distintas, mediadas pela variável classe social. Tomadas em conjunto todas as classes, uma estrutura geográfica oculta a outra e o resultado final é uma impressão de ausência de padrão.

Em resumo, é sempre possível, e, na verdade, muito freqüente, que a geografia só se torne relevante depois de que outras variáveis tenham sido consideradas. Quanto mais numerosas forem as variáveis disponíveis, mais complexa a tarefa de análise se torna, em função da explosão da quantidade de combinações possíveis. Por exemplo: se antes da variável de localização utilizarmos três variáveis categóricas (digamos: classe social, estado civil e nível educacional), cada uma com três níveis (digamos: A/B/CDE, solteiro/casado/outros e primeiro grau/segundo grau/superior, respectivamente), há nove combinações possíveis, cada uma potencialmente com uma estrutura geográfica distinta. Geralmente, algumas destas combinações podem ser fundidas por não haver diferenças significativas entre elas (como fizemos no exemplo deste parágrafo, fundindo as classes CDE num bloco só).

Aplicativos de Árvores de Decisão (como, por exemplo o Answer Tree da SPSS, ou o Knowledge Seeker, da Angoss) são ferramentas poderosas e muito utilizadas para criar estas estruturas de classificação que resultam em segmentos diferentes entre si quanto a algum atributo (como a taxa de renovação de assinatura), e, ao mesmo tempo, homogêneos internamente. O próprio programa se encarrega de examinar as variáveis disponíveis, encontrar as mais importantes para a análise, encadeá-las na seqüência adequada e definir os pontos de corte relevantes. A geografia pode ser Incorporada neste tipo de modelo por meio de variáveis de latitude e longitude.

A Figura 1 mostra a Árvore de Decisão hipoteticamente encontrada no problema da renovação de assinaturas. Note como a geografia pode aparecer em diferentes níveis de encadeamento (segundo nível no ramo da classe social B e latitude menor ou igual a – 18.8; e terceiro nível no ramo da classe social B e latitude maior que – 18.8) ou nem aparecer (como no ramo da classe social A, em que as variáveis significativas foram o número de renovações e o grau de escolaridade). A Figura 2 representa como mapa a estrutura geográfica identificada na Árvore nos ramos da classe social B, correspondendo às caselas em verde escuro, turquesa e vermelho.

Figura 2 – Mapa Correspondente às Caselas Coloridas de Verde Escuro, Turquesa e Vermelho na Figura 1.

Após a definição de uma configuração geográfica inicial, um software de GIS pode ser utilizado para refinar as fronteiras da região, limitadas nas análises de Árvore a serem linhas retas.

Em síntese: no exemplo dos velhinhos, a geografia precisava ser controlada antes, para depois aparecerem relações entre variáveis de população; no exemplo das revistas, a classe social devia ser controlada antes, para depois aparecerem relações geográficas na taxa de renovação. Ou seja, no marketing geográfico, a ordem dos fatores altera o produto.

Leia mais: BERRY, Michael J. and LINOFF, Gordon. Chapter 12: Decision Trees, in Data Mining Techniques for Marketing Sales and Customer Support, New York: Wiley, 1997. Este capítulo não faz a ligação com o GIS mas dá uma boa idéia de como funcionam os algoritmos de árvore.

Francisco Aranha é professor da Escola de Administração de Empresas de São Paulo, da Fundação Getúlio Vargas (Eaesp/FGV), e consultor em Marketing de Precisão pela Paredro Administração (SP). Email: faranha@fgvsp.br