sábado, 8 de junho de 2013

Humanidades Digitais e trabalho colaborativo

Declaração de interesses: esta entrada no blogue, não o sendo formalmente, é também assinada pela Ana Isabel Queiroz, colega que idealizou e coordena o projecto de que vou falar aqui: LITESCAPE.PT. Ela e a Cristina Joanaz dinamizam a linha de investigação em História do Ambiente do IHC, para a qual o texto e mapas seguintes pretendem ser apenas um pequeno contributo da minha parte.

Mas antes gostaria de falar sobre algo que está subjacente ao referido projecto e que em muito tem sido potenciado pelo crescimento das Humanidades Digitais, o trabalho colaborativo, que de alguma forma foi, no projecto referido, associado ao chamado “crowdsourcing”, apesar de não serem conceitos exactamente equivalentes. Tentarei explicar a seguir.

Como vários autores têm referido, análises quantitativas e métodos digitais são extremamente úteis para trabalhar com corpus de textos de grandes dimensões e de grande diversidade, permitindo observar e comparar padrões, definir metas e testar hipóteses. Franco Moretti (Moretti. 2000. “Conjectures on World Literature.” New Left Review: 54–68), usando um exemplo extraído da História Social, defendeu a importância de, nos estudos sobre Literatura, o investigador se afastar de algum modo da metodologia de “close reading” que provavelmente continua a ser a principal metodologia usada nos estudos literários de vários meios académicos. Contudo, o conceito de “close reading” que nós usamos no projecto referido é diferente, uma vez que não compreende uma abordagem linguística, filológica ou de outro tipo especializada e focada num reduzido número de obras literárias, mas mantém a necessidade de uma análise detalhada ao conteúdo dos textos, executada através de uma protocolo de leitura específico, que é seguido por académicos, investigadores e alunos de estudos literários, sobre um grande volume de textos. O processo usado pretende manter todas as vantagens de uma análise detalhada, ou de uma leitura tradicional, e desta forma evitar algumas das desvantagens associadas a abordagens do tipo “distant reading”, como sejam a necessidade de desambiguar nomes de locais, nomes próprios e outros erros que normalmente emergem de processos computacionais de pesquisa e extracção automática de textos (Gregory e Hardie. 2011. “Visual GISting: Bringing Together Corpus Linguistics and Geographical Information Systems.” Literary and Linguistic Computing 26, 5–9), mas de algum modo pretende estabelecer pontes com os métodos digitais e quantitativos que permitam ultrapassar as limitações inerentes à abordagem “close reading”, sejam elas relacionadas com o tempo de pesquisa ou com o volume de dados a tratar. O objectivo é potenciar o estabelecimento de relações ou conexões entre vários excertos dos textos literários e entre vários textos literários à medida que estes são lidos e introduzidos numa base de dados relacional.

Ao pensar nesta abordagem particular, é necessário prestar atenção a alguns problemas específicos colocados pelos textos portugueses e nas dificuldades na utilização de técnicas mais avançadas na sua exploração, como a linguística computacional, por exemplo. Apenas uma diminuta amostra do corpus literário português se encontra digitalizado e validado na íntegra, o que cria dificuldades em termos de tempo gasto e dos recursos financeiros necessários para o desenvolvimento de um corpus estável e de qualidade suficiente para sobre ele ser possível aplicar metodologias automáticas ou semi-automáticas de extracção e análise de texto. Além disso, software de linguística computacional está disponível essencialmente para inglês e embora actualmente uma equipa de investigação portuguesa esteja dedicada a construção de uma versão para português, esta ainda não está totalmente disponível, o que coloca problemas quando estamos a lidar com textos publicados desde o século XIX até ao presente, com todas as variações ortográficas introduzidas numa língua que passou por várias reformas ortográficas desde o início do século XX (Hendrickx e Marquilhas. 2012. “From Old Texts to Modern Spellings: An Experiment in Automatic Normalisation.” In Proceedings of the Workshop on Annotation of Corpora for Research in the Humanities, 1-12. Germany: Heideberg University). Além de tudo isso, era necessário também levar em conta a capacidade de resposta da comunidade académica portuguesa, nem sempre muito aberta ao desafio das Humanidades Digitais, é preciso confessá-lo.

Com isso em mente, tentando superar as limitações ao nível do tempo consumido pelo processo de leitura atenta, as limitações quanto à extensão do corpus literário que aquele processo normalmente abrange e, em simultâneo, mantendo um ambiente de investigação “controlado”, optou-se por uma abordagem que se pode chamar de “crowdsourcing” controlado. O método de “crowdsourcing”, como uma forma eficaz, em termos de tempo, custos e qualidade de resultados, de lidar com a transcrição digital de grandes quantidades de texto a partir do suporte analógico, tem sido abordado em vários trabalhos. Tem a vantagem financeira de se basear principalmente no trabalho voluntário; de ser eficaz porque une o trabalho colaborativo de várias pessoas focadas num conjunto de metas ou objectivos comuns; e, aparentemente, é também capaz de gerar resultados muito interessantes em termos de qualidade final, mesmo tendo em conta que estes resultados emergem essencialmente de trabalho voluntário (Causer, Tonra e Wallace. 2012. “Transcription Maximized; Expense Minimized? Crowdsourcing and Editing The Collected Works of Jeremy Bentham.” Literary and Linguistic Computing 27 (2) (June 1): 119–137).

Uma vez que se pretendia lidar com a questão do tempo e da quantidade de excertos literários usados, num projecto não financiado e onde a possibilidade de utilizar exclusivamente uma abordagem baseada em ferramentas digitais apresentava alguns problemas, a abordagem de “crowdsourcing” controlado parecia fazer sentido. O projecto, contudo, não recorreu ao esforço voluntário do público em geral, como é normal neste tipo de metodologia, mas a um trabalho colaborativo entre professores, investigadores, estudantes e bolseiros de investigação que, através de uma leitura atenta das obras literárias escolhidas, realizaram a selecção dos excertos, elaboraram a sua classificação de acordo com um conjunto de descritores geográficos, temporais e temáticos pré-definidos, e registaram os mesmos numa base de dados relacional, elaborada especificamente para o efeito. Os leitores associados ao projecto têm origem essencialmente no meio académico, entre investigadores e docentes, no corpo de estudantes de graduação e pós-graduação universitária, bem como no meio docente das escolas básicas e secundárias com ligação às disciplinas de Língua Portuguesa, Geografia, História e Ciências. Todos seguiram um protocolo de leitura que visou garantir a coerência e qualidade do processo que foi sofrendo uma validação contínua pelos membros da equipa de investigação.

A base de dados foi desenvolvida em PostgreSQL e conectada aos portáteis dos leitores através de ODBC (Open Database Connectivity). Deste modo, só foi dado acesso à base de dados aos voluntários do projecto, que asseguram uma alta qualidade no processo de leitura e registo dos excertos literários. Uma vez que a base de dados é partilhada entre todos, o tempo consumido na entrada de dados foi substancialmente melhorado, porque qualquer informação registada por um leitor, seja um nome de um escritor, um local geográfico ou um descritor de flora, por exemplo, fica automaticamente disponível para ser usado por todos os outros. Esta funcionalidade permite também reduzir alguma da ambiguidade e subjectividade inerente ao processo de leitura, um aspecto que também é conseguido pelo protocolo referido.

Entre outros, alguns dos objectivos do processo de leitura foram os de identificar os nomes de lugares ou localizações ficcionais e não-ficcionais, e estabelecer a relação destes com a ocupação humana do território, com a caracterização dos diferentes tipos de usos do solo (composição e configuração), com a identificação das transformações da paisagem ao longo do tempo e com o inventário de espécies vegetais e animais presentes em cenários literários. Para todas estas informações, foi estabelecida a correspondente identificação de uma unidade geográfica como o critério mínimo para o registo de um excerto literário na base de dados. Foram consideradas três divisões territoriais. A mais abrangente refere-se aos chamados NUT-III (Nomenclatura das Unidades Territoriais, nível III), territórios formados por um conjunto de municípios, com fins estatísticos, num total de 28 em Portugal continental. Sempre que possível, o processo de identificação geográfica registou outras referências, como municípios ou freguesias. Em alguns casos, nomeadamente em centros urbanos, ou em obras literárias muito descritivas, foi usada uma localização precisa, confrontando ruas e lugares mencionados nos textos, com dados sobre a latitude e a longitude armazenados em gazetteers, uma abordagem metodológica aplicada em várias trabalhos (Southall, Mostern e Berman. 2011. “On Historical Gazetteers.” International Journal of Humanities and Arts Computing 5 (October): 127–145), e já utilizada nos anteriores contributos para este blogue.

O que aqui se apresenta é apenas um exemplo possível retirado dos resultados do LITESCAPE.PT, neste caso sobre a distribuição geográfica das menções a sobreiros e azinheiras nas obras literárias registadas na base de dados.

Sobreiro_Azinheira_1

A todos os excertos literários podem depois ser aplicados critérios de pesquisa padronizados que permitem encontrar, seleccionar e extrair toda a informação e associá-la a dados geográficos.

Sobreiro_Azinheira_2

Neste caso, tendo em conta que estamos a lidar com dados literários, com representações sobre essas duas espécies de Quercus, há todo o interesse em verificar se as mesmas têm uma distribuição geográfica de algum modo comparável com a realidade. Para testar isso foram usados dados do Atlas do Ambiente, da Agência Portuguesa do Ambiente.

Sobreiro_Azinheira_3

A informação “literária” e “ambiental” foi trabalhada no já conhecido SIG…

Sobreiro_Azinheira_4

… dando origem a várias representações gráficas sobre a distribuição de azinheiras…

Azinheira

… sobreiros…

Sobreiro

… e do conjunto de sobreiros e azinheiras.

Sobreiro_Azinheira

Depois, as mesmas podem ser comparadas com a cartografia do Atlas do Ambiente, sendo possível verificar a quase exacta correspondência entre os dois tipos de geografias, a extraída dos textos literários portugueses e a que resulta dos levantamentos realizados pelo Ministério da Agricultura na década de 1980.

Sobreiro_Azinheira_Atlas_Ambiente

Feitos em apenas alguns minutos, como é óbvio, a realização destes mapas, se pensarmos no que lhes deu origem, demorou muito mais do que algumas horas. Eles são o resultado de toda uma equipa de investigação da FCSH (do Instituto de Estudos de Literatura Tradicional e do Instituto de História Contemporânea), que de forma voluntária e colaborativa foram lendo e introduzindo na base de dados milhares de excertos literários, que permitem agora realizar investigação, produzir novos conhecimentos em áreas tão distintas como a Literatura, a História, os Estudos Ambientais, a Geografia, os Estudos Urbanos, a Antropologia, entre outras, mas todas cruzadas através das potencialidades das Humanidades Digitais.

Sem comentários:

Enviar um comentário