Na plataforma DataCEM é possível encontrar os microdados disponíveis para todos os Censos Demográficos

O Centro de Estudos da Metrópole (CEM-Cepid/Fapesp) está lançando uma nova plataforma que disponibiliza os microdados dos Censos Demográficos realizados pelo Instituto Brasileiro de Geografia e Estatística (IBGE) entre 1960 e 2010. A plataforma visa transferir conhecimentos à sociedade e reduzir os custos dos pesquisadores no tratamento de dados censitários. Ao disponibilizar os microdados, o DataCEM permite ao pesquisador produzir suas próprias tabelas, com base nos microdados do Censo.

Microdados são bancos de dados que contém o maior detalhamento possível das informações coletadas. No caso do Censo, são os registros das pessoas e domicílios entrevistados no Censo. Os microdados podem ser agregados para obter informações sobre unidades maiores, conforme desejado pelo usuário: distritos, municípios, microrregiões, mesorregiões, unidades da federação etc. A plataforma contém ainda não apenas as variáveis originais, como também versões harmonizadas e padronizadas que permitem maximizar a comparabilidade da série histórica.

O desenvolvimento do DataCEM foi coordenado pelo pesquisador do CEM, Rogério Barbosa. “Criamos uma plataforma na qual é possível a consulta e extração de microdados dos Censos. Temos bancos de dados com as informações individuais – no entanto, com anonimato e sigilo garantidos, sem nenhum tipo de identificador”, destaca.

O DataCEM tem como público-alvo os pesquisadores, em especial aqueles que procuram estudar e compreender os processos socioeconômicos, políticos e demográficos no Brasil. “São dados de caráter bastante técnico, e a pessoa que o utiliza precisa conhecer um pouco de Estatística e ter domínio de algum software de análise de dados”, diz. A plataforma reflete o trabalho e conhecimento acumulado pelo núcleo de pesquisadores altamente capacitados reunidos no CEM.

A primeira novidade trazida pelo DataCEM é a divulgação das edições mais antigas dos Censos, de 1960 a 1991 – o portal do IBGE só disponibiliza microdados dos dois Censos mais recentes. A amostra do Censo de 1960, a mais rara, passou por extenso processo de revisão e consistência. Contém informações para todas as unidades da federação; sendo, assim, difere das divulgações públicas até então existentes (como a do IPUMS, consórcio de dados da Universidade de Minnesota).

“O DataCEM é mais completo, permite falar de uma maior representatividade, do que acontece nos municípios, dentro dos municípios em áreas específicas. Acaba sendo a única plataforma em que se pode encontrar todos os Censos Demográficos do IBGE para os quais existem microdados no período de 1960 a 2010”, afirma.

Além disso, o IBGE distribui as informações em um formato extremamente técnico, que pode ser de difícil compreensão e acesso para pesquisadores, especialmente os que não são muito experientes com dados quantitativos. “No DataCEM, já fizemos um pré-processamento dos dados do Censo e podemos disponibilizar apenas as variáveis que os pesquisadores precisam”, conta. O DataCEM também ajuda o usuário no uso de recurso computacional, já que o arquivo contendo um Censo pode ter 20 gigabytes de tamanho. Softwares estatísticos geralmente abrem um arquivo inteiro do Censo Demográfico, que será armazenado na memória do computador do usuário.

Outra vantagem no uso do plataforma está na oferta de mais variáveis do que as produzidas pelo IBGE. São as chamadas variáveis harmonizadas. Elas envolvem a padronização dos códigos e categorias utilizadas ao longo do tempo, além harmonização conceitual.

A plataforma conta também com o WikiDados, um repositório de informações para consulta e textos explicativos. O WikiDados é desdobramento de alguns dos relatórios técnicos feitos pela equipe de pesquisadores do Centro de Estudos da Metrópole. Nele se explica o processo de harmonização das variáveis, se oferece um panorama do que existe em cada Censo, além de ter um guia sobre a utilização dos dados. “É como uma pequena Wikipedia, uma enciclopédia sobre o DataCEM”, diz. Há um glossário de conceitos essenciais utilizados pelo IBGE no Censo, artigos e resumos sobre várias áreas, falando sobre as possibilidades de harmonização, chegando até a orientações para os pesquisadores sobre como adaptar os dados para finalidades específicas.

Transferência de conhecimento

O DataCEM nasceu do esforço de uma equipe de seis pessoas, coordenadas por Barbosa, que tinham como responsabilidade levantar e tratar dados que seriam utilizados pelos pesquisadores que estavam trabalhando nos capítulos do livro “Trajetórias das Desigualdades: Como o Brasil Mudou nos Últimos 50 Anos”, publicação do CEM organizada pela cientista política Marta Arretche, diretora do Cepid-Fapesp. Nessa etapa de produção do livro, o trabalho desse grupo foi chamado de Projeto Censo.

Para esse levantamento de dados, foram produzidos modelos estatísticos e tabelas, que precisavam ter os mesmos recortes e definições, e que fossem sempre comparáveis. “Montamos essa força-tarefa que buscava padronizações e harmonizações dos dados das diversas edições do Censo Demográfico, trabalho necessário porque nem sempre os entrevistadores do Censo colhem informações da mesma forma, ou podem tratar do mesmo tema, mas com variações”, explica.

Um exemplo pode ser retirado no tema sobre trabalho. Nos Censos de 1960 e 1970, alguém que realizasse trabalho voluntário por menos de 15 horas semanais não era considerada como “ocupada”, mas sim como não economicamente ativa. Já o Censo de 1980 em diante inclui essas pessoas como ocupadas. “São pequenas variações desse tipo que fazem com que uma série de dados não seja consistente. O que nossa equipe fez foi identificar essas situações e fazer uma padronização, uma harmonização”, recorda. “Inicialmente fizemos esse trabalho para subsidiar o livro “Trajetórias”, contando com o conhecimento dos autores dos capítulos, que são especialistas em suas respectivas áreas. Isso deu consistência ao nosso trabalho”, acrescenta.

Depois da publicação do livro, o CEM passou a contar com uma ampla base de dados que era usada, até então, apenas pelos próprios pesquisadores. “Então veio a ideia de disponibilizar para o público externo esse trabalho, de forma que pesquisadores externos ao CEM não precisassem fazer esse trabalho de novo. Foi uma forma de transferir o conhecimento produzido pelo CEM para a sociedade”, ressalta.

“Com o DataCEM, estamos reduzindo os custos de entrada no uso dos Censos Demográficos. Se todos os pesquisadores precisarem fazer sua harmonização, podem demorar muito e despender muita energia. Além disso, sem uma padronização, suas análises podem chegar a conclusões diferentes devidas mais às variações nas decisões operacionais do que a mudanças empíricas no fenômeno social que tenham, de fato, ocorrido”, finaliza.

Imagem: Pixabay