sábado, 8 de junho de 2013

Humanidades Digitais e trabalho colaborativo

Declaração de interesses: esta entrada no blogue, não o sendo formalmente, é também assinada pela Ana Isabel Queiroz, colega que idealizou e coordena o projecto de que vou falar aqui: LITESCAPE.PT. Ela e a Cristina Joanaz dinamizam a linha de investigação em História do Ambiente do IHC, para a qual o texto e mapas seguintes pretendem ser apenas um pequeno contributo da minha parte.

Mas antes gostaria de falar sobre algo que está subjacente ao referido projecto e que em muito tem sido potenciado pelo crescimento das Humanidades Digitais, o trabalho colaborativo, que de alguma forma foi, no projecto referido, associado ao chamado “crowdsourcing”, apesar de não serem conceitos exactamente equivalentes. Tentarei explicar a seguir.

Como vários autores têm referido, análises quantitativas e métodos digitais são extremamente úteis para trabalhar com corpus de textos de grandes dimensões e de grande diversidade, permitindo observar e comparar padrões, definir metas e testar hipóteses. Franco Moretti (Moretti. 2000. “Conjectures on World Literature.” New Left Review: 54–68), usando um exemplo extraído da História Social, defendeu a importância de, nos estudos sobre Literatura, o investigador se afastar de algum modo da metodologia de “close reading” que provavelmente continua a ser a principal metodologia usada nos estudos literários de vários meios académicos. Contudo, o conceito de “close reading” que nós usamos no projecto referido é diferente, uma vez que não compreende uma abordagem linguística, filológica ou de outro tipo especializada e focada num reduzido número de obras literárias, mas mantém a necessidade de uma análise detalhada ao conteúdo dos textos, executada através de uma protocolo de leitura específico, que é seguido por académicos, investigadores e alunos de estudos literários, sobre um grande volume de textos. O processo usado pretende manter todas as vantagens de uma análise detalhada, ou de uma leitura tradicional, e desta forma evitar algumas das desvantagens associadas a abordagens do tipo “distant reading”, como sejam a necessidade de desambiguar nomes de locais, nomes próprios e outros erros que normalmente emergem de processos computacionais de pesquisa e extracção automática de textos (Gregory e Hardie. 2011. “Visual GISting: Bringing Together Corpus Linguistics and Geographical Information Systems.” Literary and Linguistic Computing 26, 5–9), mas de algum modo pretende estabelecer pontes com os métodos digitais e quantitativos que permitam ultrapassar as limitações inerentes à abordagem “close reading”, sejam elas relacionadas com o tempo de pesquisa ou com o volume de dados a tratar. O objectivo é potenciar o estabelecimento de relações ou conexões entre vários excertos dos textos literários e entre vários textos literários à medida que estes são lidos e introduzidos numa base de dados relacional.

Ao pensar nesta abordagem particular, é necessário prestar atenção a alguns problemas específicos colocados pelos textos portugueses e nas dificuldades na utilização de técnicas mais avançadas na sua exploração, como a linguística computacional, por exemplo. Apenas uma diminuta amostra do corpus literário português se encontra digitalizado e validado na íntegra, o que cria dificuldades em termos de tempo gasto e dos recursos financeiros necessários para o desenvolvimento de um corpus estável e de qualidade suficiente para sobre ele ser possível aplicar metodologias automáticas ou semi-automáticas de extracção e análise de texto. Além disso, software de linguística computacional está disponível essencialmente para inglês e embora actualmente uma equipa de investigação portuguesa esteja dedicada a construção de uma versão para português, esta ainda não está totalmente disponível, o que coloca problemas quando estamos a lidar com textos publicados desde o século XIX até ao presente, com todas as variações ortográficas introduzidas numa língua que passou por várias reformas ortográficas desde o início do século XX (Hendrickx e Marquilhas. 2012. “From Old Texts to Modern Spellings: An Experiment in Automatic Normalisation.” In Proceedings of the Workshop on Annotation of Corpora for Research in the Humanities, 1-12. Germany: Heideberg University). Além de tudo isso, era necessário também levar em conta a capacidade de resposta da comunidade académica portuguesa, nem sempre muito aberta ao desafio das Humanidades Digitais, é preciso confessá-lo.

Com isso em mente, tentando superar as limitações ao nível do tempo consumido pelo processo de leitura atenta, as limitações quanto à extensão do corpus literário que aquele processo normalmente abrange e, em simultâneo, mantendo um ambiente de investigação “controlado”, optou-se por uma abordagem que se pode chamar de “crowdsourcing” controlado. O método de “crowdsourcing”, como uma forma eficaz, em termos de tempo, custos e qualidade de resultados, de lidar com a transcrição digital de grandes quantidades de texto a partir do suporte analógico, tem sido abordado em vários trabalhos. Tem a vantagem financeira de se basear principalmente no trabalho voluntário; de ser eficaz porque une o trabalho colaborativo de várias pessoas focadas num conjunto de metas ou objectivos comuns; e, aparentemente, é também capaz de gerar resultados muito interessantes em termos de qualidade final, mesmo tendo em conta que estes resultados emergem essencialmente de trabalho voluntário (Causer, Tonra e Wallace. 2012. “Transcription Maximized; Expense Minimized? Crowdsourcing and Editing The Collected Works of Jeremy Bentham.” Literary and Linguistic Computing 27 (2) (June 1): 119–137).

Uma vez que se pretendia lidar com a questão do tempo e da quantidade de excertos literários usados, num projecto não financiado e onde a possibilidade de utilizar exclusivamente uma abordagem baseada em ferramentas digitais apresentava alguns problemas, a abordagem de “crowdsourcing” controlado parecia fazer sentido. O projecto, contudo, não recorreu ao esforço voluntário do público em geral, como é normal neste tipo de metodologia, mas a um trabalho colaborativo entre professores, investigadores, estudantes e bolseiros de investigação que, através de uma leitura atenta das obras literárias escolhidas, realizaram a selecção dos excertos, elaboraram a sua classificação de acordo com um conjunto de descritores geográficos, temporais e temáticos pré-definidos, e registaram os mesmos numa base de dados relacional, elaborada especificamente para o efeito. Os leitores associados ao projecto têm origem essencialmente no meio académico, entre investigadores e docentes, no corpo de estudantes de graduação e pós-graduação universitária, bem como no meio docente das escolas básicas e secundárias com ligação às disciplinas de Língua Portuguesa, Geografia, História e Ciências. Todos seguiram um protocolo de leitura que visou garantir a coerência e qualidade do processo que foi sofrendo uma validação contínua pelos membros da equipa de investigação.

A base de dados foi desenvolvida em PostgreSQL e conectada aos portáteis dos leitores através de ODBC (Open Database Connectivity). Deste modo, só foi dado acesso à base de dados aos voluntários do projecto, que asseguram uma alta qualidade no processo de leitura e registo dos excertos literários. Uma vez que a base de dados é partilhada entre todos, o tempo consumido na entrada de dados foi substancialmente melhorado, porque qualquer informação registada por um leitor, seja um nome de um escritor, um local geográfico ou um descritor de flora, por exemplo, fica automaticamente disponível para ser usado por todos os outros. Esta funcionalidade permite também reduzir alguma da ambiguidade e subjectividade inerente ao processo de leitura, um aspecto que também é conseguido pelo protocolo referido.

Entre outros, alguns dos objectivos do processo de leitura foram os de identificar os nomes de lugares ou localizações ficcionais e não-ficcionais, e estabelecer a relação destes com a ocupação humana do território, com a caracterização dos diferentes tipos de usos do solo (composição e configuração), com a identificação das transformações da paisagem ao longo do tempo e com o inventário de espécies vegetais e animais presentes em cenários literários. Para todas estas informações, foi estabelecida a correspondente identificação de uma unidade geográfica como o critério mínimo para o registo de um excerto literário na base de dados. Foram consideradas três divisões territoriais. A mais abrangente refere-se aos chamados NUT-III (Nomenclatura das Unidades Territoriais, nível III), territórios formados por um conjunto de municípios, com fins estatísticos, num total de 28 em Portugal continental. Sempre que possível, o processo de identificação geográfica registou outras referências, como municípios ou freguesias. Em alguns casos, nomeadamente em centros urbanos, ou em obras literárias muito descritivas, foi usada uma localização precisa, confrontando ruas e lugares mencionados nos textos, com dados sobre a latitude e a longitude armazenados em gazetteers, uma abordagem metodológica aplicada em várias trabalhos (Southall, Mostern e Berman. 2011. “On Historical Gazetteers.” International Journal of Humanities and Arts Computing 5 (October): 127–145), e já utilizada nos anteriores contributos para este blogue.

O que aqui se apresenta é apenas um exemplo possível retirado dos resultados do LITESCAPE.PT, neste caso sobre a distribuição geográfica das menções a sobreiros e azinheiras nas obras literárias registadas na base de dados.

Sobreiro_Azinheira_1

A todos os excertos literários podem depois ser aplicados critérios de pesquisa padronizados que permitem encontrar, seleccionar e extrair toda a informação e associá-la a dados geográficos.

Sobreiro_Azinheira_2

Neste caso, tendo em conta que estamos a lidar com dados literários, com representações sobre essas duas espécies de Quercus, há todo o interesse em verificar se as mesmas têm uma distribuição geográfica de algum modo comparável com a realidade. Para testar isso foram usados dados do Atlas do Ambiente, da Agência Portuguesa do Ambiente.

Sobreiro_Azinheira_3

A informação “literária” e “ambiental” foi trabalhada no já conhecido SIG…

Sobreiro_Azinheira_4

… dando origem a várias representações gráficas sobre a distribuição de azinheiras…

Azinheira

… sobreiros…

Sobreiro

… e do conjunto de sobreiros e azinheiras.

Sobreiro_Azinheira

Depois, as mesmas podem ser comparadas com a cartografia do Atlas do Ambiente, sendo possível verificar a quase exacta correspondência entre os dois tipos de geografias, a extraída dos textos literários portugueses e a que resulta dos levantamentos realizados pelo Ministério da Agricultura na década de 1980.

Sobreiro_Azinheira_Atlas_Ambiente

Feitos em apenas alguns minutos, como é óbvio, a realização destes mapas, se pensarmos no que lhes deu origem, demorou muito mais do que algumas horas. Eles são o resultado de toda uma equipa de investigação da FCSH (do Instituto de Estudos de Literatura Tradicional e do Instituto de História Contemporânea), que de forma voluntária e colaborativa foram lendo e introduzindo na base de dados milhares de excertos literários, que permitem agora realizar investigação, produzir novos conhecimentos em áreas tão distintas como a Literatura, a História, os Estudos Ambientais, a Geografia, os Estudos Urbanos, a Antropologia, entre outras, mas todas cruzadas através das potencialidades das Humanidades Digitais.

quarta-feira, 5 de junho de 2013

"Humanidades Digitais" e interdisciplinaridade

Este palavrão que me custa sempre a escrever (interdisciplinaridade) – e que o corrector ortográfico online não reconhece – tem sido um dos principais resultados da ligação entre o Digital e a História. Só esta relação entre a Informática e a História é já de si interdisciplinar, mas o certo é que o crescente cruzamento de saberes e metodologias entre as disciplinas das Humanidades e entre estas e as outras ciências, Sociais, Naturais ou Exactas, em muito tem beneficiado da globalização tecnológica. Dizer isto não é negar, nem esquecer a forte conexão entre as várias ciências sociais e humanas potenciada pela Escola dos Annales, entre outros. O ritmo e a abrangência agora é que são diferentes.

Por exemplo, a Geografia é cada vez mais chamada a outras área do saber, como a História (algo que não é novo!), a Literatura (que é mais recente), a Saúde, a Política, a Sociologia, a Biologia, etc., etc.. E muito disto, não sendo novidade absoluta, tem sido potenciado pelo incremento no uso dos Sistemas de Informação Geográfica (SIG). A História dá-se muito bem com os Estudos Políticos, com a Literatura, sempre se deu bem com a Geografia, mas até com a Medicina, a Matemática ou os Estudos Ambientais têm sido construídas pontes, para as quais o Digital tem sido uma forte fundação.

No que me diz respeito, julgo que tenho feito uma parte deste caminho. Começando na História e “afunilando” para a História Económica e Social do século XIX, as ligações à Sociologia e aos seus métodos, por exemplo, estiveram sempre presentes, mas desde cedo que a importância da Geografia foi fundamental, fosse através das leituras de Orlando Ribeiro para a tese de mestrado, fosse através do recurso aos SIG, a partir desse momento. O certo é que o Digital, em vez de tornar mais evidentes as diferenças de métodos e perspectivas de análise que resultam da comparação entre o trabalho desse mestre da Geografia portuguesa e as tendências dos modernos geógrafos, tem permitido aproximações e releituras desses dois mundos, na aparência tão distantes, que aproveitam muito para a História, em particular, nas abordagens de longa duração. Mas os caminhos são vários e a ligação ao Digital permitiu sair com muito facilidade do casulo oitocentista e navegar por outros temas e épocas, desde a Idade Média, à Revolução do 25 de Abril. Ao mesmo tempo, possibilitou ligações à Biologia, ao Ambiente, à Economia, aos Estudos Religiosos e à Literatura.

O Digital até podia não ter acrescentado mais nada à História, ou no geral às Humanidades, que só esta maior flexibilidade para o cruzamento de saberes constituiria, por si, uma marca de sucesso.

O que aqui apresentei de uma forma quase idílica, sem entraves, foi sofrendo profundas resistências da/na Academia, em grande medida geradas pelo mesmo factor que travou na década de 1980 a aproximação à Estatística: um excessivo peso dado aos métodos em detrimento dos resultados e um quase monopólio das fontes de cariz quantitativo. Pois o que parece ter aproximado em definitivo esses dois mundos, o Digital e as Humanidades, foi a coincidência de dois factores nos últimos anos. Por um lado, a crescente disponibilização em formato digital de grandes volumes de textos, fonte primária para muitas das disciplinas das Humanidades e fundamental para a História ou a Literatura (de que aqui se falará mais à frente). Por outro, a crescente capacidade das ferramentas digitais tratarem de forma eficaz essa informação não estruturada ou, pelo menos, não estruturada de acordo com as regras da Matemática.

Nesta perspectiva, a ligação entre textos e mapas, feita através do Digital (via bases de dados relacionais, Linguística Computacional, ferramentas Web 2.0, SIG, etc., etc.) tem sido das que mais destaque tem tido nos últimos anos, sendo vários os projectos, nacionais, de âmbito europeu, americanos ou globais que procuram, de várias formas, com vários objectivos e dentro de áreas disciplinares diversas uma nova forma de ler essa imensa volumetria de dados.

O que aqui apresento é apenas mais um exemplo do que é possível fazer, neste caso ligando Literatura, bases de dados relacionais e SIG. No exemplo anterior, o trabalho subjacente à transposição dos textos para os mapas foi relativamente simples, pois a fonte sobre os jornais e revistas portuguesas do século XIX apresentava a informação já razoavelmente estruturada (e as máquinas adoram esse tipo de informação e lidam bem com ela). O próprio objectivo do trabalho ajudava, pois pretendia-se apenas uma análise sobre a evolução cronológica e geográfica da imprensa de oitocentos.

Contudo, noutros casos, nem a fonte apresenta uma estrutura mais “matemática”, nem os objectivos do trabalho se ficam pela simplicidade da descrição. É, por vezes, necessário analisar o conteúdo, extrair dele sentido e significado e, nestes casos, o casamento entre o Digital e as competências de investigação próprias do Humanista tem de ser mais profundo. Na gíria recente das Humanidades Digitais, aplicável quer à Literatura, quer à História ou outra qualquer disciplina que recorra, em massa, à fonte textual, estamos na presença da necessidade de compatibilizar dois métodos: a leitura atenta e a leitura de distância, ou o que os ingleses chamam de “close reading” versus “distant reading” (a tradução está muito livre, obviamente).

Optei por aquilo que me é próximo, conhecido e que facilitaria a “leitura atenta”: o romance “O crime do Padre Amaro” de Eça de Queirós. Para a “leitura de distância” optei também por aquilo que era mais fácil, que melhor dominava: as bases de dados relacionais e os SIG. Objectivo: fazer um mapa de localização e também de algum significado das geografias presentes nesta obra do século XIX. Metodologia: fazê-lo procurando conciliar rigor na análise com rapidez na execução, “close reading” com “distant reading”.

Fica aqui o resultado, partindo de uma versão em PDF do referido texto, que já li há alguns anos na versão papel do Círculo de Leitores, mas que não queria voltar a ler (pelo menos, da forma tradicional), para através dessa leitura produzir um mapa, no fundo, o objectivo deste blogue.

Crime_Padre_Amaro_1

É sabido que a acção decorre, em boa medida, em Leiria, mas são muitas outras as referências geográficas usadas por Eça no seu romance.

Crime_Padre_Amaro_2

Todas podiam ser extraídas, criando uma lista de locais mencionados que depois se poderiam comparar com os já referidos gazetteers (neste caso, com a listagem de locais da carta militar portuguesa).

Crime_Padre_Amaro_3

Para simplificar, foram usados apenas cerca de 4000 locais, correspondendo aos nomes das freguesias portuguesas (o objectivo era produzir um teste).

Era depois necessário encontrar um meio de fazer essa comparação sem ter de ler atentamente toda a obra, mas conjugando a leitura feita pela “máquina” com a leitura de proximidade feita pelo investigador. A solução chama-se VBA (Visual Basic for Applications), uma linguagem “estranha” que aprendi há já alguns anos (na altura sem saber bem para quê, a não ser que poderia ser uma porta de saída para alguma precariedade laboral) e que permite colocar a “máquina” (uma bases de dados relacional) a executar um conjunto de tarefas que se assemelham ao trabalho de leitura atenta de um texto.

Crime_Padre_Amaro_4

Daqui, após seis horas de trabalho (cinco para o código, uma para a leitura), resultou a extracção de 155 referências a locais mencionados na obra (apenas referências a nomes de freguesias e, por vezes, várias para cada freguesia).

O resto já é sabido: importação para o SIG…

Crime_Padre_Amaro_5

… e produção de mapas.

Crime_Padre_Amaro_locais

Desta feita com uma nuance, pois além da localização, procurou-se perceber, através de um mapa de densidades, que locais eram importantes ou pareciam ser relevantes no enredo do romance (os que têm uma cor mais carregada) e aqueles que eram referidos apenas de forma esporádica (os que têm a cor menos carregada). As etiquetas apresentadas referem-se aos nomes dos concelhos de onde vinham maior número de referências às freguesias respectivas.

Crime_Padre_Amaro_densidades

Por fim, perguntar-se-á: mas foram precisas seis horas para extrair essa informação, que ainda por cima não analisa todas as referências geográficas do romance, apenas uma parte? Qualquer bom leitor de Eça consegue fazer isso sem precisar recorrer ao digital! Para além de ter as minhas dúvidas sobre esse possível conhecimento geográfico do leitor “médio” de Eça, é preciso dizer que, a partir do momento em que a base de dados fica preparada para a “leitura”, todos os outros romances de Eça podem passar pelo mesmo crivo, diminuindo consideravelmente o tempo de “leitura”. E neste caso a metodologia é explícita, a margem de erro é controlada e a capacidade de recolha de informação ultrapassa em muito o que qualquer par de olhos bem treinado consegue realizar em tempo útil, ou seja, num dia de trabalho, num Dia das Humanidades Digitais.

Para a próxima, já prometi a uma amiga, falaremos de sobreiros!

terça-feira, 4 de junho de 2013

Workshop "Bases de Dados para as Ciências Humanas"

O workshop "Bases de Dados para as Ciências Humanas" é uma iniciativa do projecto De Todas as Partes do Mundo: O Património do 5º Duque de Bragança, D. Teodósio I, sediado no Centro de História de Além-Mar (FCSH-UNL/UAç), em colaboração com várias instituições. Esta iniciativa pretende discutir a utilização de bases de dados como ferramenta de trabalho para a investigação histórica, pelo que esperamos que seja do interesse de alunos, investigadores e colegas.

O evento terá lugar no próximo dia 18 de Junho, na Sala Multiusos 3, piso 4, do edifício ID da Faculdade de Ciências Sociais e Humanas (UNL).

A entrada é livre, mas mediante inscrição obrigatória (até 17 de Junho) para o email: teodosio.cham@gmail.com.

Programa: http://atlas.fcsh.unl.pt/docs/workshop_base_de_dados.pdf

O evento reúne vários projectos de investigação onde as bases de dados relacionais foram uma das metodologias usadas. Em alguns desses projectos dei o meu contributo, colaborando com a planificação e concepção da respectiva bases de dados, na maior parte dos casos recorrendo a software open source PostGreSQL. Foi muito curioso e proveitoso interagir com equipas de investigação com enfoques temáticos e cronológicos tão afastados do "meu" século XIX, como sejam os oficiais régios medievais, o património de uma grande casa senhorial da época moderna ou a ligação entre literatura e ambiente na contemporaneidade, entre outros.

A minha comunicação no workshop será sobre a evolução da aplicação de bases de dados à investigação em História e sobre as vantagens e desvantagens da utilização de uma linguagem estruturada para recolher, analisar e disponibilizar informação ambígua, lacunar e imprecisa, como é, na maior parte dos casos, a informação histórica. Depois vai ser muito interessante ouvir experiências dos investigadores que efectivamente trabalharam com essas ferramentas e partilhar ideias com outros projectos que recorreram, ou ainda recorrem, à mesma perspectiva digital sobre as fontes e os problemas históricos.