A espera da evolução

Preservação de documentos digitais ainda é um problema para usuários

Participei, poucos dias atrás, da banca de defesa da tese de doutorado de uma aluna do curso de Ciência da Informação da Universidade Federal de Minas Gerais (UFMG), Kátia Thomaz. O tema da tese foi a preservação de documentos digitais, algo de grande importância e que vem sendo pouco explorado, tanto academicamente quanto no meio empresarial. O conteúdo do trabalho e a apresentação causaram-me muito impacto, pois pude perceber a seriedade do problema e a ausência de soluções rápidas e simples. Espero, com esta coluna, poder sensibi-lizar os leitores para esta questão, considerando principalmente o impacto sobre o nosso campo de atuação.

Sabemos que a produção de documentos vem sendo intensivamente transferida do meio convencional (papel) para o meio eletrônico. Grande parte da comunicação escrita entre pessoas e empresas e do registro formal de fatos e eventos já é feita usando alguma tecnologia digital, como o e-mail ou a web, e usa elementos mais recentes, como a certificação digital e a criptografia, para garantir a autenticidade, assegurar a privacidade, e determinar a autoria dos documentos. No entanto, na maioria dos casos não há, tecnologicamente falando, nenhuma garantia de que o conteúdo desses documentos se mantenha íntegro e acessível por um longo período de tempo. Com a evolução tecnológica, não se tem nem mesmo a garantia de que o suporte (a mídia) utilizado dure pelo tempo necessário. Enquanto a mídia dura é sempre possível que o dispositivo necessário para ler essa mídia se torne obsoleto muito rapidamente. E enquanto o dispositivo ainda puder ser usado, é em geral necessário contar com algum software especializado para ler e interpretar corretamente o conteúdo dos arquivos digitais.

Para exemplificar melhor, podemos pensar no histórico recente da microinformática. Quando o PC foi lançado pela IBM, em 1981, a mídia utilizada era o disquete de 5 ¼", com capacidade de 360 kB em face dupla. Em 1985, a mídia predominante em micros já era o disquete de 5 ¼" de alta densidade, capaz de armazenar até 1,2 MB. Cinco anos depois, passamos a contar com os disquetes de 3 ½", e os drives de 5 ¼" começaram a desaparecer dos micros desktop. Em 1995, com a capacidade dos discos rígidos aumentando rapidamente, os disquetes de 3 ½" tornaram-se inviáveis para grandes backups.

Daí surgiram alternativas efêmeras, como os ZIP disks, com capacidade de 100 MB. Em se-guida, os gravadores de CD começaram a custar cada vez menos, com a mídia CD-R também reduzindo-se rapidamente de preço. E assim chegamos no ano 2000 com a predominância dos CD-R de 650 MB.

A tecnologia de GIS no
sentido da preservacao de dados historicos
precisa evoluir

No momento, estamos às vésperas da populari-zação dos DVD-R e variações, com capacidades que chegam a 9,7 GB. Os drives capazes de gravar em duas cama das, ainda limitados a poucos fornecedores, já custam menos de US$100, mas a mídia de duas camadas ainda é relativamente cara. Com tudo isso, o que fazer com documentos digitais gravados em 1990, meros 15 anos atrás, em disquetes de 5 ¼", por um programa de backup baseado em MS-DOS cujo desenvolvedor faliu anos atrás? Quem teria hoje um drive de dis-quetes de 5 ¼" alta densidade confiável ainda em operação? Mesmo que o drive exista, como restaurar o backup em uma máquina atual?

Com todos esses problemas, muitas empresas optam por transformar esses documentos digitais em documentos físicos, imprimindo, por exemplo, cópias para arquivo ou microfilmagem. Pelo menos o suporte tem condições de durar o tempo necessário, sem que a tecnologia de leitura fique obsoleta.

Trazendo o problema para o universo do geoprocessamento, é necessário destacar mais alguns desdobramentos. Quando se preserva mapas e plantas em papel, tem-se registrado neles a realidade (aproximada) de uma determinada região em um determinado período de tempo, na ocasião em que foram coletados os dados primários para o mapeamento. Em seguida, pode-se promover atualizações sobre o registro em papel, mas é fácil manter uma cópia correspondente à situação original. Em seguida, periodicamente, produz-se um novo mapa, com uma consolidação das atualizações e uma nova data de referência.

Essa problematica
virou tema de pesquisa no curso de mestrado da PUC-MG

Quando passamos a consolidar esses dados em um GIS (Sistema de Informação Geográfica em inglês), tal prática de reemissão periódica de um documento cartográfico é, em geral, descontinuada: passa-se a ter a possibilidade de emitir documentos impressos na medida da necessidade, com base no estado atual do banco de dados geográfico. Mas, a prática da manutenção do banco de dados geográfico sempre substitui dados antigos por novos, eliminando totalmente os antigos. Não havendo uma cópia em papel, o interessado em verificar a situação passada de uma região mapeada digitalmente precisaria recorrer a backups do banco de dados como um todo. Porém, mesmo os backups não são preservados, pois são realizados com freqüência para garantir que não se perca a base operacional, não para registro histórico. Além disso, esses backups são dependentes da tecnologia usada no momento, ou seja, do GIS empregado (incluindo sua versão) e do conjunto formado por hardware e software básico, e nada garante que o backup realizado hoje seria utilizável em, digamos, dez anos.

Com isso, percebemos com clareza a necessidade da evolução da tecnologia de GIS no sentido da preservação de dados históricos. As limitações históricas e custos associados ao armazenamento on-line (em discos rígidos) estão rapidamente desaparecendo diante do crescimento da capacidade de armazenamento e da diminuição do custo dos dispositivos. Passa, agora, a ser um problema para o software e para as organizações o desenvolvimento de GIS capazes de manter disponíveis versões obsoletas de objetos geográficos. Imagino uma situação em que um objeto geográfico correspondente a algo que foi modificado no mundo real não seria simplesmente deletado ou substituído, mas ficaria "morto" no banco de dados. De uma maneira muito simples, podemos imaginar que cada objeto poderia ter uma "data de nascimento" e uma "data de falecimento"; ao substituir um objeto por outro, preenchemos a "data de falecimento" do antigo e, consequentemente, determinamos a "data de nascimento" do outro. Para operar um sistema desses, imaginem um controle na interface, como uma barra de scroll, no qual pudéssemos determinar o período de tempo que se deseja visualizar na tela. Para períodos passados, nenhum objeto com data de nascimento mais recente seria apresentado, enquanto objetos "falecidos" e que estavam "vivos" no período selecionado seriam resgatados e apresentados normalmente.

É lógico que o problema de representação temporal em GIS é mais complexo do que isso, mas talvez um enfoque simplificado como o que proponho possa ser o início de um processo de preservação de objetos geográficos digitais como parte de um banco de dados geográficos on-line. Esse é, inclusive, um dos temas de pesquisa que estou levando para o recém criado Mestrado em Informática da Pontifícia Universidade Católica de Minas Gerais (PUC-MG), que começa em março de 2005.

Clodoveu Davis
Engenheiro civil, doutor em Ciência da Com-putação, pesquisador da Prodabel – Empresa de Informática e Informação do Município de Belo Horizonte e professor da PUC-MG.
clodoveu.davis@terra.com.br