Longa viagem até a esquina

A automatização de métodos analíticos trabalhosos permite revelar os tesouros da vizinhança

Do ponto de vista do marketing, uma das principais diferenças entre a convencional análise de dados relacionais e a análise de dados espacializados é a possibilidade de levar em consideração atributos dos vizinhos de um objeto de interesse.

Assim, por exemplo, procurando identificar potenciais assinantes, as editoras de revistas tradicionalmente atribuem scores a domicílios – com base em, digamos, seu número de moradores, idade, sexo, grau de instrução, renda e produtos consumidos anteriormente. Muito mais difícil, porém altamente eficaz, é também incluir na análise atributos relativos aos domicílios vizinhos. Há casos, como o da adoção de produtos de nova tecnologia, em que o comportamento de compra de uma família é mais afetado pelo que fizeram os Silvas, do apartamento 22, e os Pereiras, do 71, do que pela disponibilidade financeira da própria família.

Numa geografia menos literal, pode-se "localizar" o salário de um executivo com base na "latitute-longitude" de seu grau de instrução e anos de experiência – e também com base nas coordenadas relativas ao salário, grau de instrução e anos de seus amigos pessoais ("vizinhos" por afinidade).

Buscando-se simplicidade de modelagem, pode-se definir "vizinho" em função da proximidade: por exemplo, considerando vizinhos de um domicílio, todos os outros domicílios distantes no máximo 200m; ou apenas os 3 domicílios mais próximos.

Neste contexto, a vizinhança de um domicílio de interesse corresponderia à paisagem avistada de uma janela "centrada" nele. A maioria dos aplicativos de GIS é capaz de fazer esta "janela" passear sobre um mapa e de coletar as características das vizinhanças assim definidas.

No entanto, isso é pouco. Uma definição assim grosseira pode ser inadequada para revelar um fenômeno mais sutil. E pode ser totalmente inútil quando não conhecemos a distância (d) ou o número (k) de objetos mais próximos que deveriam ser adotados na definição. Pior ainda: os valores relevantes de d e k podem variar de uma localidade para a outra no mapa.

Assim, freqüentemente, precisamos de conceitos mais refinados, que incorporem outras dimensões da relação de vizinhança entre dois objetos A e B: pelo menos as relações de "topologia" (A disjunto B; A toca B; A intercepta B; A contém B; etc), de "direção" (A fica ao Noroeste de B; A fica a Leste de B; A fica a Leste de B; etc) e de "teste lógico" (teste de f(A,B) é verdadeiro ou falso). Associados à tradicional teoria de análise de redes, estes conceitos permitem identificar e tratar relações de vizinhança bastante complexas, como, por exemplo, "lojas que se afastam de um ponto pela direção aproximada NE, e em que pelo menos 60% dos artigos comercializado são comuns".

Finalmente, associando conceitos de "vizinhança complexa" a algoritmos de data mining que filtram as explosivamente numerosas combinações possíveis dos objetos de interesse, submetendo à análise final apenas as vizinhanças relevantes para a identificação de padrões, podemos descobrir classificações, tendências espaciais e caracterizações extremamente úteis ao desenho de políticas de marketing.

Quem se interessa por este assunto, num contexto entre estatístico e de tecnologia da informação, não pode deixar de ler o artigo Spatial Data Mining: Database Primitives, Algorithms and Efficient DBMS Support, de Ester, Frommelt, Kriegel e Sander, publicado no número de Julho último da revista Data Mining and Knowledge Discovery, da Kluwer Academic Publishers. O artigo além de interessante por si, indica na bibliografia uma "trilha" de vários outros artigos esclarecedores.

A implementação das funções primitivas propostas pelos autores – testadas com um pacote de GIS comercial, permite identificar padrões do tipo:

"Se uma vizinhança tem alta taxa de pessoas aposentadas, então
apartamentos por edifício = muito baixo;
taxa de estrangeiros = muito baixa;
taxa de pós-graduados = média;
tamanho das empresas locais = pequeno;
tipo de localização = montanha."

Note que o padrão identificado descreve vizinhanças geograficamente desconhecidas no início da análise. Elas foram primeiramente identificadas e delimitadas por algoritmo, depois tiveram sua taxa de aposentados calculada, em seguida foram separadas em grupos segundo a taxa de aposentados e, finalmente, foram caracterizadas por meio das variáveis mais discriminantes. Estas variáveis incluem atributos geográficos e não geográficos.

Seria ideal que os aplicativos de GIS já trouxessem este tipo de funcionalidade nos módulos de marketing. É urgente fazê-los progredir para além da mera descrição de dados, principalmente quando a sofisticação conceitual e o nível de automação hoje disponíveis nos algoritmos de data mining são impressionantes.

As empresas deveriam aproveitar ao máximo este tipo de recurso. Afinal, tivemos que evoluir muito para poder viajar tão perto – e redescobrir as vizinhanças.

Francisco Aranha
é professor da Escola de Administração de Empresas de São Paulo, da Fundação Getúlio Vargas (Eaesp/FGV), e consultor em Marketing de Precisão pela Paredro Administração (SP). Email: faranha@fgvsp.br