O blogue "Clio sabe surfar!" foi descontinuado :)
As suas funções estão agora atribuídas a outro blogue, na rede de blogues académicos "Hypotheses", onde continuarei a publicar informação sobre a aplicação de métodos e ferramentas digitais à investigação em História. Todas as mensagens publicadas aqui foram transferidas para o novo blogue.
Visitem aqui: http://dhhistory.hypotheses.org/
sábado, 6 de fevereiro de 2016
sexta-feira, 13 de junho de 2014
Doing History in the Digital World
No ano em que foi formalizada a criação da linha temática de investigação do IHC “Humanidades Digitais e Investigação Histórica”, a coincidência de ver publicado um número especial da revista IJHAC com resultados de um workshop organizado na FCSH em 2011!
Looks v. useful: Doing History in the Digital World -special issue International Jnl Humanities & Arts Computing http://t.co/yZDqLUMusi
— Helen Rogers (@helenrogers19c) June 13, 2014
Doing History in the Digital World - special of International Journal of Humanities & Arts Computing http://t.co/CJ4lb8EGrJ via @EdinburghUP
— Transcribe Bentham (@TranscriBentham) June 13, 2014
Doing History in the Digital World http://t.co/LYRtNGJyf2 via @EdinburghUP
— Edinburgh UniPress (@EdinburghUP) June 13, 2014
sábado, 23 de novembro de 2013
Fundação da Associação das Humanidades Digitais
No passado mês de Outubro estive na Universidade de São Paulo, a convite do Grupo de Humanidades Digitais daquela universidade, dinamizado pela Maria Clara Paixão de Sousa. O objectivo foi a participação no I Seminário de Humanidades Digitais do Brasil, que contou com a presença de investigadores de várias disciplinas das Humanidades, do Brasil, Portugal e de outros países. As apresentações e discussões foram muito interessantes, abordando temas tão variados como o Open Access, as bibliotecas digitais, a investigação em Linguística, História e outras disciplinas com recurso a métodos e fontes digitais, entre outros temas e abordagens.
Contudo, quero destacar o que aconteceu no final do encontro, a fundação da Associação das Humanidades Digitais, em Língua Portuguesa. As discussões para a fundação da AHDig começaram ainda antes do seminário, reforçaram-se em reuniões na espectacular Biblioteca Brasiliana da USP e terminaram com o anúncio oficial no dia 25 de Outubro, juntamente com o lançamento do site http://ahdig.org/.
O objectivo é procurar estabelecer redes de investigadores, projectos e metodologias que cruzem Humanidades e Digital, em língua portuguesa ou sobre o espaço que fala português. Cada vez mais a perspectiva multilingue está a ser discutida e estimulada no seio da comunidade de praticantes das chamadas Humanidades Digitais, pelo que a criação desta rede pretende ser também um contributo para a afirmação internacional da investigação em português ou sobre o mundo que fala português.
Juntem-se a nós!
Contudo, quero destacar o que aconteceu no final do encontro, a fundação da Associação das Humanidades Digitais, em Língua Portuguesa. As discussões para a fundação da AHDig começaram ainda antes do seminário, reforçaram-se em reuniões na espectacular Biblioteca Brasiliana da USP e terminaram com o anúncio oficial no dia 25 de Outubro, juntamente com o lançamento do site http://ahdig.org/.
O objectivo é procurar estabelecer redes de investigadores, projectos e metodologias que cruzem Humanidades e Digital, em língua portuguesa ou sobre o espaço que fala português. Cada vez mais a perspectiva multilingue está a ser discutida e estimulada no seio da comunidade de praticantes das chamadas Humanidades Digitais, pelo que a criação desta rede pretende ser também um contributo para a afirmação internacional da investigação em português ou sobre o mundo que fala português.
Juntem-se a nós!
terça-feira, 10 de setembro de 2013
Inquérito sobre métodos de visualização de dados
As ferramentas e métodos de visualização de dados são hoje em dia um dos vectores mais dinâmicos das Humanidades Digitais. Importantes não só pela riqueza e beleza que podem conferir à apresentação final dos resultados de uma investigação (e quantas ideias não ficaram mal defendidas devido a um gráfico mal elaborado, por exemplo?!), estas técnicas são cada vez mais encaradas como fazendo parte da própria análise da informação que se está a investigar. Através de uma boa visualização podemo-nos aperceber de novos padrões sobre os dados, lançar novas hipóteses de trabalho, obter respostas que os dados "planos" não nos mostravam e, claro, abrilhantar as nossas apresentações.
No âmbito das actividades da NeDiMAH (Network for Digital Methods in the Arts and Humanities - http://www.nedimah.eu/) tive oportunidade de colaborar na elaboração de um questionário sobre "visualização" nas Digital Humanities. O objectivo é procurar perceber o impacto e importância destas ferramentas/metodologias nas actividades dos investigadores que de algum modo incorporam os métodos digitais nos seus estudos.
É um formulário simples e curto e seria muito interessante poder contar com os contributos e/ou na divulgação do mesmo por todos os interessados nesta matéria. Este é o endereço do questionário: https://www.surveymonkey.com/ s/R3KNWG9. Desde já agradeço.
No âmbito das actividades da NeDiMAH (Network for Digital Methods in the Arts and Humanities - http://www.nedimah.eu/) tive oportunidade de colaborar na elaboração de um questionário sobre "visualização" nas Digital Humanities. O objectivo é procurar perceber o impacto e importância destas ferramentas/metodologias nas actividades dos investigadores que de algum modo incorporam os métodos digitais nos seus estudos.
É um formulário simples e curto e seria muito interessante poder contar com os contributos e/ou na divulgação do mesmo por todos os interessados nesta matéria. Este é o endereço do questionário: https://www.surveymonkey.com/
sexta-feira, 26 de julho de 2013
Mais uma "zoterice"!
Antes de ir de férias gostava de fazer alguma publicidade ao curso de bases de dados bibliográficas e Zotero que vou dar na Escola de Verão da FCSH, entre 2 a 4 de Setembro (http://verao.fcsh.unl.pt/Cursos/Bibliografias%20Zotero.html).
Para os mais distraídos, o Zotero é um programa de gestão de informação bibliográfica, gratuito, feito por historiadores (é verdade!!!) e que permite gerir todas as nossas referências bibliográficas (e não só!) à medida que navegamos na Internet.
Hoje em dia, uma parte substancial do nosso tempo de investigação é passado online, seja à procura de informação, seja a comunicar. O Zotero trabalha precisamente onde é mais necessário e depois permite gerir toda a informação para nos ajudar a executar tarefas sempre tão aborrecidas e morosas como as notas de rodapé num artigo ou tese, os estilos de citação bibliográfica e a elaboração de bibliografias.
Ao Zotero, neste curso, junto um conjunto de dicas de exploração de recursos bibliográficos online, como sejam as grandes bibliotecas nacionais e estrangeiras, as bases de dados de revistas científicas, motores de pesquisa especializados para as áreas académicas, entre outros.
Para mais informação podem consultar a página do curso: http://verao.fcsh.unl.pt/Cursos/Bibliografias%20Zotero.html
Boas férias!
segunda-feira, 8 de julho de 2013
Textos e mapas digitais em Lancaster
O dia 8 de Julho de 2013 foi um dia produtivo a falar sobre textos e mapas digitais na Universidade de Lancaster. A minha apresentação em colaboração com a Ana Isabel Queiroz está disponível aqui http://atlas.fcsh.unl.pt/docs/From_close_reading_to_spatial_analysis.pdf (com alguns resultados das nossas viagens pela literatura portuguesa dos dois últimos séculos).
sábado, 8 de junho de 2013
Humanidades Digitais e trabalho colaborativo
Declaração de interesses: esta entrada no blogue, não o sendo formalmente, é também assinada pela Ana Isabel Queiroz, colega que idealizou e coordena o projecto de que vou falar aqui: LITESCAPE.PT. Ela e a Cristina Joanaz dinamizam a linha de investigação em História do Ambiente do IHC, para a qual o texto e mapas seguintes pretendem ser apenas um pequeno contributo da minha parte.
Mas antes gostaria de falar sobre algo que está subjacente ao referido projecto e que em muito tem sido potenciado pelo crescimento das Humanidades Digitais, o trabalho colaborativo, que de alguma forma foi, no projecto referido, associado ao chamado “crowdsourcing”, apesar de não serem conceitos exactamente equivalentes. Tentarei explicar a seguir.
Como vários autores têm referido, análises quantitativas e métodos digitais são extremamente úteis para trabalhar com corpus de textos de grandes dimensões e de grande diversidade, permitindo observar e comparar padrões, definir metas e testar hipóteses. Franco Moretti (Moretti. 2000. “Conjectures on World Literature.” New Left Review: 54–68), usando um exemplo extraído da História Social, defendeu a importância de, nos estudos sobre Literatura, o investigador se afastar de algum modo da metodologia de “close reading” que provavelmente continua a ser a principal metodologia usada nos estudos literários de vários meios académicos. Contudo, o conceito de “close reading” que nós usamos no projecto referido é diferente, uma vez que não compreende uma abordagem linguística, filológica ou de outro tipo especializada e focada num reduzido número de obras literárias, mas mantém a necessidade de uma análise detalhada ao conteúdo dos textos, executada através de uma protocolo de leitura específico, que é seguido por académicos, investigadores e alunos de estudos literários, sobre um grande volume de textos. O processo usado pretende manter todas as vantagens de uma análise detalhada, ou de uma leitura tradicional, e desta forma evitar algumas das desvantagens associadas a abordagens do tipo “distant reading”, como sejam a necessidade de desambiguar nomes de locais, nomes próprios e outros erros que normalmente emergem de processos computacionais de pesquisa e extracção automática de textos (Gregory e Hardie. 2011. “Visual GISting: Bringing Together Corpus Linguistics and Geographical Information Systems.” Literary and Linguistic Computing 26, 5–9), mas de algum modo pretende estabelecer pontes com os métodos digitais e quantitativos que permitam ultrapassar as limitações inerentes à abordagem “close reading”, sejam elas relacionadas com o tempo de pesquisa ou com o volume de dados a tratar. O objectivo é potenciar o estabelecimento de relações ou conexões entre vários excertos dos textos literários e entre vários textos literários à medida que estes são lidos e introduzidos numa base de dados relacional.
Ao pensar nesta abordagem particular, é necessário prestar atenção a alguns problemas específicos colocados pelos textos portugueses e nas dificuldades na utilização de técnicas mais avançadas na sua exploração, como a linguística computacional, por exemplo. Apenas uma diminuta amostra do corpus literário português se encontra digitalizado e validado na íntegra, o que cria dificuldades em termos de tempo gasto e dos recursos financeiros necessários para o desenvolvimento de um corpus estável e de qualidade suficiente para sobre ele ser possível aplicar metodologias automáticas ou semi-automáticas de extracção e análise de texto. Além disso, software de linguística computacional está disponível essencialmente para inglês e embora actualmente uma equipa de investigação portuguesa esteja dedicada a construção de uma versão para português, esta ainda não está totalmente disponível, o que coloca problemas quando estamos a lidar com textos publicados desde o século XIX até ao presente, com todas as variações ortográficas introduzidas numa língua que passou por várias reformas ortográficas desde o início do século XX (Hendrickx e Marquilhas. 2012. “From Old Texts to Modern Spellings: An Experiment in Automatic Normalisation.” In Proceedings of the Workshop on Annotation of Corpora for Research in the Humanities, 1-12. Germany: Heideberg University). Além de tudo isso, era necessário também levar em conta a capacidade de resposta da comunidade académica portuguesa, nem sempre muito aberta ao desafio das Humanidades Digitais, é preciso confessá-lo.
Com isso em mente, tentando superar as limitações ao nível do tempo consumido pelo processo de leitura atenta, as limitações quanto à extensão do corpus literário que aquele processo normalmente abrange e, em simultâneo, mantendo um ambiente de investigação “controlado”, optou-se por uma abordagem que se pode chamar de “crowdsourcing” controlado. O método de “crowdsourcing”, como uma forma eficaz, em termos de tempo, custos e qualidade de resultados, de lidar com a transcrição digital de grandes quantidades de texto a partir do suporte analógico, tem sido abordado em vários trabalhos. Tem a vantagem financeira de se basear principalmente no trabalho voluntário; de ser eficaz porque une o trabalho colaborativo de várias pessoas focadas num conjunto de metas ou objectivos comuns; e, aparentemente, é também capaz de gerar resultados muito interessantes em termos de qualidade final, mesmo tendo em conta que estes resultados emergem essencialmente de trabalho voluntário (Causer, Tonra e Wallace. 2012. “Transcription Maximized; Expense Minimized? Crowdsourcing and Editing The Collected Works of Jeremy Bentham.” Literary and Linguistic Computing 27 (2) (June 1): 119–137).
Uma vez que se pretendia lidar com a questão do tempo e da quantidade de excertos literários usados, num projecto não financiado e onde a possibilidade de utilizar exclusivamente uma abordagem baseada em ferramentas digitais apresentava alguns problemas, a abordagem de “crowdsourcing” controlado parecia fazer sentido. O projecto, contudo, não recorreu ao esforço voluntário do público em geral, como é normal neste tipo de metodologia, mas a um trabalho colaborativo entre professores, investigadores, estudantes e bolseiros de investigação que, através de uma leitura atenta das obras literárias escolhidas, realizaram a selecção dos excertos, elaboraram a sua classificação de acordo com um conjunto de descritores geográficos, temporais e temáticos pré-definidos, e registaram os mesmos numa base de dados relacional, elaborada especificamente para o efeito. Os leitores associados ao projecto têm origem essencialmente no meio académico, entre investigadores e docentes, no corpo de estudantes de graduação e pós-graduação universitária, bem como no meio docente das escolas básicas e secundárias com ligação às disciplinas de Língua Portuguesa, Geografia, História e Ciências. Todos seguiram um protocolo de leitura que visou garantir a coerência e qualidade do processo que foi sofrendo uma validação contínua pelos membros da equipa de investigação.
A base de dados foi desenvolvida em PostgreSQL e conectada aos portáteis dos leitores através de ODBC (Open Database Connectivity). Deste modo, só foi dado acesso à base de dados aos voluntários do projecto, que asseguram uma alta qualidade no processo de leitura e registo dos excertos literários. Uma vez que a base de dados é partilhada entre todos, o tempo consumido na entrada de dados foi substancialmente melhorado, porque qualquer informação registada por um leitor, seja um nome de um escritor, um local geográfico ou um descritor de flora, por exemplo, fica automaticamente disponível para ser usado por todos os outros. Esta funcionalidade permite também reduzir alguma da ambiguidade e subjectividade inerente ao processo de leitura, um aspecto que também é conseguido pelo protocolo referido.
Entre outros, alguns dos objectivos do processo de leitura foram os de identificar os nomes de lugares ou localizações ficcionais e não-ficcionais, e estabelecer a relação destes com a ocupação humana do território, com a caracterização dos diferentes tipos de usos do solo (composição e configuração), com a identificação das transformações da paisagem ao longo do tempo e com o inventário de espécies vegetais e animais presentes em cenários literários. Para todas estas informações, foi estabelecida a correspondente identificação de uma unidade geográfica como o critério mínimo para o registo de um excerto literário na base de dados. Foram consideradas três divisões territoriais. A mais abrangente refere-se aos chamados NUT-III (Nomenclatura das Unidades Territoriais, nível III), territórios formados por um conjunto de municípios, com fins estatísticos, num total de 28 em Portugal continental. Sempre que possível, o processo de identificação geográfica registou outras referências, como municípios ou freguesias. Em alguns casos, nomeadamente em centros urbanos, ou em obras literárias muito descritivas, foi usada uma localização precisa, confrontando ruas e lugares mencionados nos textos, com dados sobre a latitude e a longitude armazenados em gazetteers, uma abordagem metodológica aplicada em várias trabalhos (Southall, Mostern e Berman. 2011. “On Historical Gazetteers.” International Journal of Humanities and Arts Computing 5 (October): 127–145), e já utilizada nos anteriores contributos para este blogue.
O que aqui se apresenta é apenas um exemplo possível retirado dos resultados do LITESCAPE.PT, neste caso sobre a distribuição geográfica das menções a sobreiros e azinheiras nas obras literárias registadas na base de dados.
A todos os excertos literários podem depois ser aplicados critérios de pesquisa padronizados que permitem encontrar, seleccionar e extrair toda a informação e associá-la a dados geográficos.
Neste caso, tendo em conta que estamos a lidar com dados literários, com representações sobre essas duas espécies de Quercus, há todo o interesse em verificar se as mesmas têm uma distribuição geográfica de algum modo comparável com a realidade. Para testar isso foram usados dados do Atlas do Ambiente, da Agência Portuguesa do Ambiente.
A informação “literária” e “ambiental” foi trabalhada no já conhecido SIG…
… dando origem a várias representações gráficas sobre a distribuição de azinheiras…
… sobreiros…
… e do conjunto de sobreiros e azinheiras.
Depois, as mesmas podem ser comparadas com a cartografia do Atlas do Ambiente, sendo possível verificar a quase exacta correspondência entre os dois tipos de geografias, a extraída dos textos literários portugueses e a que resulta dos levantamentos realizados pelo Ministério da Agricultura na década de 1980.
Feitos em apenas alguns minutos, como é óbvio, a realização destes mapas, se pensarmos no que lhes deu origem, demorou muito mais do que algumas horas. Eles são o resultado de toda uma equipa de investigação da FCSH (do Instituto de Estudos de Literatura Tradicional e do Instituto de História Contemporânea), que de forma voluntária e colaborativa foram lendo e introduzindo na base de dados milhares de excertos literários, que permitem agora realizar investigação, produzir novos conhecimentos em áreas tão distintas como a Literatura, a História, os Estudos Ambientais, a Geografia, os Estudos Urbanos, a Antropologia, entre outras, mas todas cruzadas através das potencialidades das Humanidades Digitais.
Mas antes gostaria de falar sobre algo que está subjacente ao referido projecto e que em muito tem sido potenciado pelo crescimento das Humanidades Digitais, o trabalho colaborativo, que de alguma forma foi, no projecto referido, associado ao chamado “crowdsourcing”, apesar de não serem conceitos exactamente equivalentes. Tentarei explicar a seguir.
Como vários autores têm referido, análises quantitativas e métodos digitais são extremamente úteis para trabalhar com corpus de textos de grandes dimensões e de grande diversidade, permitindo observar e comparar padrões, definir metas e testar hipóteses. Franco Moretti (Moretti. 2000. “Conjectures on World Literature.” New Left Review: 54–68), usando um exemplo extraído da História Social, defendeu a importância de, nos estudos sobre Literatura, o investigador se afastar de algum modo da metodologia de “close reading” que provavelmente continua a ser a principal metodologia usada nos estudos literários de vários meios académicos. Contudo, o conceito de “close reading” que nós usamos no projecto referido é diferente, uma vez que não compreende uma abordagem linguística, filológica ou de outro tipo especializada e focada num reduzido número de obras literárias, mas mantém a necessidade de uma análise detalhada ao conteúdo dos textos, executada através de uma protocolo de leitura específico, que é seguido por académicos, investigadores e alunos de estudos literários, sobre um grande volume de textos. O processo usado pretende manter todas as vantagens de uma análise detalhada, ou de uma leitura tradicional, e desta forma evitar algumas das desvantagens associadas a abordagens do tipo “distant reading”, como sejam a necessidade de desambiguar nomes de locais, nomes próprios e outros erros que normalmente emergem de processos computacionais de pesquisa e extracção automática de textos (Gregory e Hardie. 2011. “Visual GISting: Bringing Together Corpus Linguistics and Geographical Information Systems.” Literary and Linguistic Computing 26, 5–9), mas de algum modo pretende estabelecer pontes com os métodos digitais e quantitativos que permitam ultrapassar as limitações inerentes à abordagem “close reading”, sejam elas relacionadas com o tempo de pesquisa ou com o volume de dados a tratar. O objectivo é potenciar o estabelecimento de relações ou conexões entre vários excertos dos textos literários e entre vários textos literários à medida que estes são lidos e introduzidos numa base de dados relacional.
Ao pensar nesta abordagem particular, é necessário prestar atenção a alguns problemas específicos colocados pelos textos portugueses e nas dificuldades na utilização de técnicas mais avançadas na sua exploração, como a linguística computacional, por exemplo. Apenas uma diminuta amostra do corpus literário português se encontra digitalizado e validado na íntegra, o que cria dificuldades em termos de tempo gasto e dos recursos financeiros necessários para o desenvolvimento de um corpus estável e de qualidade suficiente para sobre ele ser possível aplicar metodologias automáticas ou semi-automáticas de extracção e análise de texto. Além disso, software de linguística computacional está disponível essencialmente para inglês e embora actualmente uma equipa de investigação portuguesa esteja dedicada a construção de uma versão para português, esta ainda não está totalmente disponível, o que coloca problemas quando estamos a lidar com textos publicados desde o século XIX até ao presente, com todas as variações ortográficas introduzidas numa língua que passou por várias reformas ortográficas desde o início do século XX (Hendrickx e Marquilhas. 2012. “From Old Texts to Modern Spellings: An Experiment in Automatic Normalisation.” In Proceedings of the Workshop on Annotation of Corpora for Research in the Humanities, 1-12. Germany: Heideberg University). Além de tudo isso, era necessário também levar em conta a capacidade de resposta da comunidade académica portuguesa, nem sempre muito aberta ao desafio das Humanidades Digitais, é preciso confessá-lo.
Com isso em mente, tentando superar as limitações ao nível do tempo consumido pelo processo de leitura atenta, as limitações quanto à extensão do corpus literário que aquele processo normalmente abrange e, em simultâneo, mantendo um ambiente de investigação “controlado”, optou-se por uma abordagem que se pode chamar de “crowdsourcing” controlado. O método de “crowdsourcing”, como uma forma eficaz, em termos de tempo, custos e qualidade de resultados, de lidar com a transcrição digital de grandes quantidades de texto a partir do suporte analógico, tem sido abordado em vários trabalhos. Tem a vantagem financeira de se basear principalmente no trabalho voluntário; de ser eficaz porque une o trabalho colaborativo de várias pessoas focadas num conjunto de metas ou objectivos comuns; e, aparentemente, é também capaz de gerar resultados muito interessantes em termos de qualidade final, mesmo tendo em conta que estes resultados emergem essencialmente de trabalho voluntário (Causer, Tonra e Wallace. 2012. “Transcription Maximized; Expense Minimized? Crowdsourcing and Editing The Collected Works of Jeremy Bentham.” Literary and Linguistic Computing 27 (2) (June 1): 119–137).
Uma vez que se pretendia lidar com a questão do tempo e da quantidade de excertos literários usados, num projecto não financiado e onde a possibilidade de utilizar exclusivamente uma abordagem baseada em ferramentas digitais apresentava alguns problemas, a abordagem de “crowdsourcing” controlado parecia fazer sentido. O projecto, contudo, não recorreu ao esforço voluntário do público em geral, como é normal neste tipo de metodologia, mas a um trabalho colaborativo entre professores, investigadores, estudantes e bolseiros de investigação que, através de uma leitura atenta das obras literárias escolhidas, realizaram a selecção dos excertos, elaboraram a sua classificação de acordo com um conjunto de descritores geográficos, temporais e temáticos pré-definidos, e registaram os mesmos numa base de dados relacional, elaborada especificamente para o efeito. Os leitores associados ao projecto têm origem essencialmente no meio académico, entre investigadores e docentes, no corpo de estudantes de graduação e pós-graduação universitária, bem como no meio docente das escolas básicas e secundárias com ligação às disciplinas de Língua Portuguesa, Geografia, História e Ciências. Todos seguiram um protocolo de leitura que visou garantir a coerência e qualidade do processo que foi sofrendo uma validação contínua pelos membros da equipa de investigação.
A base de dados foi desenvolvida em PostgreSQL e conectada aos portáteis dos leitores através de ODBC (Open Database Connectivity). Deste modo, só foi dado acesso à base de dados aos voluntários do projecto, que asseguram uma alta qualidade no processo de leitura e registo dos excertos literários. Uma vez que a base de dados é partilhada entre todos, o tempo consumido na entrada de dados foi substancialmente melhorado, porque qualquer informação registada por um leitor, seja um nome de um escritor, um local geográfico ou um descritor de flora, por exemplo, fica automaticamente disponível para ser usado por todos os outros. Esta funcionalidade permite também reduzir alguma da ambiguidade e subjectividade inerente ao processo de leitura, um aspecto que também é conseguido pelo protocolo referido.
Entre outros, alguns dos objectivos do processo de leitura foram os de identificar os nomes de lugares ou localizações ficcionais e não-ficcionais, e estabelecer a relação destes com a ocupação humana do território, com a caracterização dos diferentes tipos de usos do solo (composição e configuração), com a identificação das transformações da paisagem ao longo do tempo e com o inventário de espécies vegetais e animais presentes em cenários literários. Para todas estas informações, foi estabelecida a correspondente identificação de uma unidade geográfica como o critério mínimo para o registo de um excerto literário na base de dados. Foram consideradas três divisões territoriais. A mais abrangente refere-se aos chamados NUT-III (Nomenclatura das Unidades Territoriais, nível III), territórios formados por um conjunto de municípios, com fins estatísticos, num total de 28 em Portugal continental. Sempre que possível, o processo de identificação geográfica registou outras referências, como municípios ou freguesias. Em alguns casos, nomeadamente em centros urbanos, ou em obras literárias muito descritivas, foi usada uma localização precisa, confrontando ruas e lugares mencionados nos textos, com dados sobre a latitude e a longitude armazenados em gazetteers, uma abordagem metodológica aplicada em várias trabalhos (Southall, Mostern e Berman. 2011. “On Historical Gazetteers.” International Journal of Humanities and Arts Computing 5 (October): 127–145), e já utilizada nos anteriores contributos para este blogue.
O que aqui se apresenta é apenas um exemplo possível retirado dos resultados do LITESCAPE.PT, neste caso sobre a distribuição geográfica das menções a sobreiros e azinheiras nas obras literárias registadas na base de dados.
A todos os excertos literários podem depois ser aplicados critérios de pesquisa padronizados que permitem encontrar, seleccionar e extrair toda a informação e associá-la a dados geográficos.
Neste caso, tendo em conta que estamos a lidar com dados literários, com representações sobre essas duas espécies de Quercus, há todo o interesse em verificar se as mesmas têm uma distribuição geográfica de algum modo comparável com a realidade. Para testar isso foram usados dados do Atlas do Ambiente, da Agência Portuguesa do Ambiente.
A informação “literária” e “ambiental” foi trabalhada no já conhecido SIG…
… dando origem a várias representações gráficas sobre a distribuição de azinheiras…
… sobreiros…
… e do conjunto de sobreiros e azinheiras.
Depois, as mesmas podem ser comparadas com a cartografia do Atlas do Ambiente, sendo possível verificar a quase exacta correspondência entre os dois tipos de geografias, a extraída dos textos literários portugueses e a que resulta dos levantamentos realizados pelo Ministério da Agricultura na década de 1980.
Feitos em apenas alguns minutos, como é óbvio, a realização destes mapas, se pensarmos no que lhes deu origem, demorou muito mais do que algumas horas. Eles são o resultado de toda uma equipa de investigação da FCSH (do Instituto de Estudos de Literatura Tradicional e do Instituto de História Contemporânea), que de forma voluntária e colaborativa foram lendo e introduzindo na base de dados milhares de excertos literários, que permitem agora realizar investigação, produzir novos conhecimentos em áreas tão distintas como a Literatura, a História, os Estudos Ambientais, a Geografia, os Estudos Urbanos, a Antropologia, entre outras, mas todas cruzadas através das potencialidades das Humanidades Digitais.
quarta-feira, 5 de junho de 2013
"Humanidades Digitais" e interdisciplinaridade
Este palavrão que me custa sempre a escrever
(interdisciplinaridade) – e que o corrector ortográfico online não
reconhece – tem sido um dos principais resultados da ligação entre o
Digital e a História. Só esta relação entre a Informática e a História é
já de si interdisciplinar, mas o certo é que o crescente cruzamento de
saberes e metodologias entre as disciplinas das Humanidades e entre
estas e as outras ciências, Sociais, Naturais ou Exactas, em muito tem
beneficiado da globalização tecnológica. Dizer isto não é negar, nem
esquecer a forte conexão entre as várias ciências sociais e humanas
potenciada pela Escola dos Annales, entre outros. O ritmo e a
abrangência agora é que são diferentes.
Por exemplo, a Geografia é cada vez mais chamada a outras área do saber, como a História (algo que não é novo!), a Literatura (que é mais recente), a Saúde, a Política, a Sociologia, a Biologia, etc., etc.. E muito disto, não sendo novidade absoluta, tem sido potenciado pelo incremento no uso dos Sistemas de Informação Geográfica (SIG). A História dá-se muito bem com os Estudos Políticos, com a Literatura, sempre se deu bem com a Geografia, mas até com a Medicina, a Matemática ou os Estudos Ambientais têm sido construídas pontes, para as quais o Digital tem sido uma forte fundação.
No que me diz respeito, julgo que tenho feito uma parte deste caminho. Começando na História e “afunilando” para a História Económica e Social do século XIX, as ligações à Sociologia e aos seus métodos, por exemplo, estiveram sempre presentes, mas desde cedo que a importância da Geografia foi fundamental, fosse através das leituras de Orlando Ribeiro para a tese de mestrado, fosse através do recurso aos SIG, a partir desse momento. O certo é que o Digital, em vez de tornar mais evidentes as diferenças de métodos e perspectivas de análise que resultam da comparação entre o trabalho desse mestre da Geografia portuguesa e as tendências dos modernos geógrafos, tem permitido aproximações e releituras desses dois mundos, na aparência tão distantes, que aproveitam muito para a História, em particular, nas abordagens de longa duração. Mas os caminhos são vários e a ligação ao Digital permitiu sair com muito facilidade do casulo oitocentista e navegar por outros temas e épocas, desde a Idade Média, à Revolução do 25 de Abril. Ao mesmo tempo, possibilitou ligações à Biologia, ao Ambiente, à Economia, aos Estudos Religiosos e à Literatura.
O Digital até podia não ter acrescentado mais nada à História, ou no geral às Humanidades, que só esta maior flexibilidade para o cruzamento de saberes constituiria, por si, uma marca de sucesso.
O que aqui apresentei de uma forma quase idílica, sem entraves, foi sofrendo profundas resistências da/na Academia, em grande medida geradas pelo mesmo factor que travou na década de 1980 a aproximação à Estatística: um excessivo peso dado aos métodos em detrimento dos resultados e um quase monopólio das fontes de cariz quantitativo. Pois o que parece ter aproximado em definitivo esses dois mundos, o Digital e as Humanidades, foi a coincidência de dois factores nos últimos anos. Por um lado, a crescente disponibilização em formato digital de grandes volumes de textos, fonte primária para muitas das disciplinas das Humanidades e fundamental para a História ou a Literatura (de que aqui se falará mais à frente). Por outro, a crescente capacidade das ferramentas digitais tratarem de forma eficaz essa informação não estruturada ou, pelo menos, não estruturada de acordo com as regras da Matemática.
Nesta perspectiva, a ligação entre textos e mapas, feita através do Digital (via bases de dados relacionais, Linguística Computacional, ferramentas Web 2.0, SIG, etc., etc.) tem sido das que mais destaque tem tido nos últimos anos, sendo vários os projectos, nacionais, de âmbito europeu, americanos ou globais que procuram, de várias formas, com vários objectivos e dentro de áreas disciplinares diversas uma nova forma de ler essa imensa volumetria de dados.
O que aqui apresento é apenas mais um exemplo do que é possível fazer, neste caso ligando Literatura, bases de dados relacionais e SIG. No exemplo anterior, o trabalho subjacente à transposição dos textos para os mapas foi relativamente simples, pois a fonte sobre os jornais e revistas portuguesas do século XIX apresentava a informação já razoavelmente estruturada (e as máquinas adoram esse tipo de informação e lidam bem com ela). O próprio objectivo do trabalho ajudava, pois pretendia-se apenas uma análise sobre a evolução cronológica e geográfica da imprensa de oitocentos.
Contudo, noutros casos, nem a fonte apresenta uma estrutura mais “matemática”, nem os objectivos do trabalho se ficam pela simplicidade da descrição. É, por vezes, necessário analisar o conteúdo, extrair dele sentido e significado e, nestes casos, o casamento entre o Digital e as competências de investigação próprias do Humanista tem de ser mais profundo. Na gíria recente das Humanidades Digitais, aplicável quer à Literatura, quer à História ou outra qualquer disciplina que recorra, em massa, à fonte textual, estamos na presença da necessidade de compatibilizar dois métodos: a leitura atenta e a leitura de distância, ou o que os ingleses chamam de “close reading” versus “distant reading” (a tradução está muito livre, obviamente).
Optei por aquilo que me é próximo, conhecido e que facilitaria a “leitura atenta”: o romance “O crime do Padre Amaro” de Eça de Queirós. Para a “leitura de distância” optei também por aquilo que era mais fácil, que melhor dominava: as bases de dados relacionais e os SIG. Objectivo: fazer um mapa de localização e também de algum significado das geografias presentes nesta obra do século XIX. Metodologia: fazê-lo procurando conciliar rigor na análise com rapidez na execução, “close reading” com “distant reading”.
Fica aqui o resultado, partindo de uma versão em PDF do referido texto, que já li há alguns anos na versão papel do Círculo de Leitores, mas que não queria voltar a ler (pelo menos, da forma tradicional), para através dessa leitura produzir um mapa, no fundo, o objectivo deste blogue.
É sabido que a acção decorre, em boa medida, em Leiria, mas são muitas outras as referências geográficas usadas por Eça no seu romance.
Todas podiam ser extraídas, criando uma lista de locais mencionados que depois se poderiam comparar com os já referidos gazetteers (neste caso, com a listagem de locais da carta militar portuguesa).
Para simplificar, foram usados apenas cerca de 4000 locais, correspondendo aos nomes das freguesias portuguesas (o objectivo era produzir um teste).
Era depois necessário encontrar um meio de fazer essa comparação sem ter de ler atentamente toda a obra, mas conjugando a leitura feita pela “máquina” com a leitura de proximidade feita pelo investigador. A solução chama-se VBA (Visual Basic for Applications), uma linguagem “estranha” que aprendi há já alguns anos (na altura sem saber bem para quê, a não ser que poderia ser uma porta de saída para alguma precariedade laboral) e que permite colocar a “máquina” (uma bases de dados relacional) a executar um conjunto de tarefas que se assemelham ao trabalho de leitura atenta de um texto.
Daqui, após seis horas de trabalho (cinco para o código, uma para a leitura), resultou a extracção de 155 referências a locais mencionados na obra (apenas referências a nomes de freguesias e, por vezes, várias para cada freguesia).
O resto já é sabido: importação para o SIG…
… e produção de mapas.
Desta feita com uma nuance, pois além da localização, procurou-se perceber, através de um mapa de densidades, que locais eram importantes ou pareciam ser relevantes no enredo do romance (os que têm uma cor mais carregada) e aqueles que eram referidos apenas de forma esporádica (os que têm a cor menos carregada). As etiquetas apresentadas referem-se aos nomes dos concelhos de onde vinham maior número de referências às freguesias respectivas.
Por fim, perguntar-se-á: mas foram precisas seis horas para extrair essa informação, que ainda por cima não analisa todas as referências geográficas do romance, apenas uma parte? Qualquer bom leitor de Eça consegue fazer isso sem precisar recorrer ao digital! Para além de ter as minhas dúvidas sobre esse possível conhecimento geográfico do leitor “médio” de Eça, é preciso dizer que, a partir do momento em que a base de dados fica preparada para a “leitura”, todos os outros romances de Eça podem passar pelo mesmo crivo, diminuindo consideravelmente o tempo de “leitura”. E neste caso a metodologia é explícita, a margem de erro é controlada e a capacidade de recolha de informação ultrapassa em muito o que qualquer par de olhos bem treinado consegue realizar em tempo útil, ou seja, num dia de trabalho, num Dia das Humanidades Digitais.
Para a próxima, já prometi a uma amiga, falaremos de sobreiros!
Por exemplo, a Geografia é cada vez mais chamada a outras área do saber, como a História (algo que não é novo!), a Literatura (que é mais recente), a Saúde, a Política, a Sociologia, a Biologia, etc., etc.. E muito disto, não sendo novidade absoluta, tem sido potenciado pelo incremento no uso dos Sistemas de Informação Geográfica (SIG). A História dá-se muito bem com os Estudos Políticos, com a Literatura, sempre se deu bem com a Geografia, mas até com a Medicina, a Matemática ou os Estudos Ambientais têm sido construídas pontes, para as quais o Digital tem sido uma forte fundação.
No que me diz respeito, julgo que tenho feito uma parte deste caminho. Começando na História e “afunilando” para a História Económica e Social do século XIX, as ligações à Sociologia e aos seus métodos, por exemplo, estiveram sempre presentes, mas desde cedo que a importância da Geografia foi fundamental, fosse através das leituras de Orlando Ribeiro para a tese de mestrado, fosse através do recurso aos SIG, a partir desse momento. O certo é que o Digital, em vez de tornar mais evidentes as diferenças de métodos e perspectivas de análise que resultam da comparação entre o trabalho desse mestre da Geografia portuguesa e as tendências dos modernos geógrafos, tem permitido aproximações e releituras desses dois mundos, na aparência tão distantes, que aproveitam muito para a História, em particular, nas abordagens de longa duração. Mas os caminhos são vários e a ligação ao Digital permitiu sair com muito facilidade do casulo oitocentista e navegar por outros temas e épocas, desde a Idade Média, à Revolução do 25 de Abril. Ao mesmo tempo, possibilitou ligações à Biologia, ao Ambiente, à Economia, aos Estudos Religiosos e à Literatura.
O Digital até podia não ter acrescentado mais nada à História, ou no geral às Humanidades, que só esta maior flexibilidade para o cruzamento de saberes constituiria, por si, uma marca de sucesso.
O que aqui apresentei de uma forma quase idílica, sem entraves, foi sofrendo profundas resistências da/na Academia, em grande medida geradas pelo mesmo factor que travou na década de 1980 a aproximação à Estatística: um excessivo peso dado aos métodos em detrimento dos resultados e um quase monopólio das fontes de cariz quantitativo. Pois o que parece ter aproximado em definitivo esses dois mundos, o Digital e as Humanidades, foi a coincidência de dois factores nos últimos anos. Por um lado, a crescente disponibilização em formato digital de grandes volumes de textos, fonte primária para muitas das disciplinas das Humanidades e fundamental para a História ou a Literatura (de que aqui se falará mais à frente). Por outro, a crescente capacidade das ferramentas digitais tratarem de forma eficaz essa informação não estruturada ou, pelo menos, não estruturada de acordo com as regras da Matemática.
Nesta perspectiva, a ligação entre textos e mapas, feita através do Digital (via bases de dados relacionais, Linguística Computacional, ferramentas Web 2.0, SIG, etc., etc.) tem sido das que mais destaque tem tido nos últimos anos, sendo vários os projectos, nacionais, de âmbito europeu, americanos ou globais que procuram, de várias formas, com vários objectivos e dentro de áreas disciplinares diversas uma nova forma de ler essa imensa volumetria de dados.
O que aqui apresento é apenas mais um exemplo do que é possível fazer, neste caso ligando Literatura, bases de dados relacionais e SIG. No exemplo anterior, o trabalho subjacente à transposição dos textos para os mapas foi relativamente simples, pois a fonte sobre os jornais e revistas portuguesas do século XIX apresentava a informação já razoavelmente estruturada (e as máquinas adoram esse tipo de informação e lidam bem com ela). O próprio objectivo do trabalho ajudava, pois pretendia-se apenas uma análise sobre a evolução cronológica e geográfica da imprensa de oitocentos.
Contudo, noutros casos, nem a fonte apresenta uma estrutura mais “matemática”, nem os objectivos do trabalho se ficam pela simplicidade da descrição. É, por vezes, necessário analisar o conteúdo, extrair dele sentido e significado e, nestes casos, o casamento entre o Digital e as competências de investigação próprias do Humanista tem de ser mais profundo. Na gíria recente das Humanidades Digitais, aplicável quer à Literatura, quer à História ou outra qualquer disciplina que recorra, em massa, à fonte textual, estamos na presença da necessidade de compatibilizar dois métodos: a leitura atenta e a leitura de distância, ou o que os ingleses chamam de “close reading” versus “distant reading” (a tradução está muito livre, obviamente).
Optei por aquilo que me é próximo, conhecido e que facilitaria a “leitura atenta”: o romance “O crime do Padre Amaro” de Eça de Queirós. Para a “leitura de distância” optei também por aquilo que era mais fácil, que melhor dominava: as bases de dados relacionais e os SIG. Objectivo: fazer um mapa de localização e também de algum significado das geografias presentes nesta obra do século XIX. Metodologia: fazê-lo procurando conciliar rigor na análise com rapidez na execução, “close reading” com “distant reading”.
Fica aqui o resultado, partindo de uma versão em PDF do referido texto, que já li há alguns anos na versão papel do Círculo de Leitores, mas que não queria voltar a ler (pelo menos, da forma tradicional), para através dessa leitura produzir um mapa, no fundo, o objectivo deste blogue.
É sabido que a acção decorre, em boa medida, em Leiria, mas são muitas outras as referências geográficas usadas por Eça no seu romance.
Todas podiam ser extraídas, criando uma lista de locais mencionados que depois se poderiam comparar com os já referidos gazetteers (neste caso, com a listagem de locais da carta militar portuguesa).
Para simplificar, foram usados apenas cerca de 4000 locais, correspondendo aos nomes das freguesias portuguesas (o objectivo era produzir um teste).
Era depois necessário encontrar um meio de fazer essa comparação sem ter de ler atentamente toda a obra, mas conjugando a leitura feita pela “máquina” com a leitura de proximidade feita pelo investigador. A solução chama-se VBA (Visual Basic for Applications), uma linguagem “estranha” que aprendi há já alguns anos (na altura sem saber bem para quê, a não ser que poderia ser uma porta de saída para alguma precariedade laboral) e que permite colocar a “máquina” (uma bases de dados relacional) a executar um conjunto de tarefas que se assemelham ao trabalho de leitura atenta de um texto.
Daqui, após seis horas de trabalho (cinco para o código, uma para a leitura), resultou a extracção de 155 referências a locais mencionados na obra (apenas referências a nomes de freguesias e, por vezes, várias para cada freguesia).
O resto já é sabido: importação para o SIG…
… e produção de mapas.
Desta feita com uma nuance, pois além da localização, procurou-se perceber, através de um mapa de densidades, que locais eram importantes ou pareciam ser relevantes no enredo do romance (os que têm uma cor mais carregada) e aqueles que eram referidos apenas de forma esporádica (os que têm a cor menos carregada). As etiquetas apresentadas referem-se aos nomes dos concelhos de onde vinham maior número de referências às freguesias respectivas.
Por fim, perguntar-se-á: mas foram precisas seis horas para extrair essa informação, que ainda por cima não analisa todas as referências geográficas do romance, apenas uma parte? Qualquer bom leitor de Eça consegue fazer isso sem precisar recorrer ao digital! Para além de ter as minhas dúvidas sobre esse possível conhecimento geográfico do leitor “médio” de Eça, é preciso dizer que, a partir do momento em que a base de dados fica preparada para a “leitura”, todos os outros romances de Eça podem passar pelo mesmo crivo, diminuindo consideravelmente o tempo de “leitura”. E neste caso a metodologia é explícita, a margem de erro é controlada e a capacidade de recolha de informação ultrapassa em muito o que qualquer par de olhos bem treinado consegue realizar em tempo útil, ou seja, num dia de trabalho, num Dia das Humanidades Digitais.
Para a próxima, já prometi a uma amiga, falaremos de sobreiros!
terça-feira, 4 de junho de 2013
Workshop "Bases de Dados para as Ciências Humanas"
O workshop "Bases de Dados para as Ciências Humanas" é uma iniciativa do projecto De Todas as Partes do Mundo: O Património do 5º Duque de Bragança, D. Teodósio I, sediado no Centro de História de Além-Mar (FCSH-UNL/UAç), em colaboração com várias instituições. Esta iniciativa pretende discutir a utilização de bases de dados como ferramenta de trabalho para a investigação histórica, pelo que esperamos que seja do interesse de alunos, investigadores e colegas.
O evento terá lugar no próximo dia 18 de Junho, na Sala Multiusos 3, piso 4, do edifício ID da Faculdade de Ciências Sociais e Humanas (UNL).
A entrada é livre, mas mediante inscrição obrigatória (até 17 de Junho) para o email: teodosio.cham@gmail.com.
Programa: http://atlas.fcsh.unl.pt/docs/workshop_base_de_dados.pdf
O evento reúne vários projectos de investigação onde as bases de dados relacionais foram uma das metodologias usadas. Em alguns desses projectos dei o meu contributo, colaborando com a planificação e concepção da respectiva bases de dados, na maior parte dos casos recorrendo a software open source PostGreSQL. Foi muito curioso e proveitoso interagir com equipas de investigação com enfoques temáticos e cronológicos tão afastados do "meu" século XIX, como sejam os oficiais régios medievais, o património de uma grande casa senhorial da época moderna ou a ligação entre literatura e ambiente na contemporaneidade, entre outros.
A minha comunicação no workshop será sobre a evolução da aplicação de bases de dados à investigação em História e sobre as vantagens e desvantagens da utilização de uma linguagem estruturada para recolher, analisar e disponibilizar informação ambígua, lacunar e imprecisa, como é, na maior parte dos casos, a informação histórica. Depois vai ser muito interessante ouvir experiências dos investigadores que efectivamente trabalharam com essas ferramentas e partilhar ideias com outros projectos que recorreram, ou ainda recorrem, à mesma perspectiva digital sobre as fontes e os problemas históricos.
O evento terá lugar no próximo dia 18 de Junho, na Sala Multiusos 3, piso 4, do edifício ID da Faculdade de Ciências Sociais e Humanas (UNL).
A entrada é livre, mas mediante inscrição obrigatória (até 17 de Junho) para o email: teodosio.cham@gmail.com.
Programa: http://atlas.fcsh.unl.pt/docs/workshop_base_de_dados.pdf
O evento reúne vários projectos de investigação onde as bases de dados relacionais foram uma das metodologias usadas. Em alguns desses projectos dei o meu contributo, colaborando com a planificação e concepção da respectiva bases de dados, na maior parte dos casos recorrendo a software open source PostGreSQL. Foi muito curioso e proveitoso interagir com equipas de investigação com enfoques temáticos e cronológicos tão afastados do "meu" século XIX, como sejam os oficiais régios medievais, o património de uma grande casa senhorial da época moderna ou a ligação entre literatura e ambiente na contemporaneidade, entre outros.
A minha comunicação no workshop será sobre a evolução da aplicação de bases de dados à investigação em História e sobre as vantagens e desvantagens da utilização de uma linguagem estruturada para recolher, analisar e disponibilizar informação ambígua, lacunar e imprecisa, como é, na maior parte dos casos, a informação histórica. Depois vai ser muito interessante ouvir experiências dos investigadores que efectivamente trabalharam com essas ferramentas e partilhar ideias com outros projectos que recorreram, ou ainda recorrem, à mesma perspectiva digital sobre as fontes e os problemas históricos.
quarta-feira, 29 de maio de 2013
Não sou um Humanista Digital, mas…
Provavelmente não serei sequer um Humanista, mas apenas um
historiador, esse ser que navega entre as humanidades e as ciências
sociais. Para piorar o cenário, no meu caso específico, navego entre as
humanidades, as ciências sociais e a informática. Mas é aqui que me
sinto bem, que me sinto à vontade. É neste espaço algo indefinido que
encontro o rumo do meu trabalho, as ferramentas de que preciso e as
colaborações que me ajudam a compreender cada vez melhor o meu lugar no
ofício de historiador.
Dizer que não sou um Humanista Digital num blogue como este é, obviamente, um excesso literário. Pretendo, contudo, reforçar a ideia que, apesar de fazer um uso recorrente e sistemático de materiais, ferramentas e metodologias digitais no meu dia-a-dia de trabalho, é sempre à História que volto no final da jornada. É dos problemas históricos que parto e é através do recurso ao digital que os procuro resolver. Contudo, essa opção é agora tão natural para mim, num momento em que o mundo digital tem cada vez mais para oferecer, como o era há quase vinte anos atrás quando, confrontado com esse ser estranho que era a “base de dados relacional”, optei por mergulhar de cabeça na lógica estruturada da informática e naquilo que ela tinha para oferecer a uma disciplina tão dada a ambiguidades e a interpretações tão pouco binárias.
Como apesar de tudo ainda me considero na transição entre dois mundos, tenho dificuldade em aceitar o rótulo de “digital”, mas também não me sinto um historiador “analógico”!
E então, onde cabem os mapas que constam do título do blogue? Bem, resultam somente de mais uma bifurcação no meu caminho em direcção à investigação histórica. O meu primeiro trabalho de licenciatura, com um saudoso professor que nos deixou precocemente, passou por mapear topónimos religiosos e perceber, através da sua distribuição espacial, a própria evolução e tipologia da presença religiosa na Idade Média e o seu contributo para a construção da identidade nacional. Foi um trabalho muito “analógico”, com muitas fotocópias, muita pintura e desenho, mas provavelmente mais aliciante do que eu pensei na altura, pois não mais deixei de juntar a Geografia à História.
Coincidência ou cabala, o certo é que o digital acabou por permitir a ponte entre as duas disciplinas e veio agora trazer-me de volta ao ponto de partida e à fonte que em 1991 o Professor Luís Krus me indicou, a carta militar de Portugal. É do uso de uma versão da mesma, agora em formato digital, que em boa medida será feito este meu primeiro exemplo de transformação de “textos em mapas”.
O que aqui apresento é apenas uma exploração, feita com uma pequena amostra de dados, de uma investigação que estou a desenvolver com um colega sobre a evolução da imprensa em Portugal durante o século XIX. Ao mesmo tempo pretende ser uma ilustração do potencial do recurso ao digital (é a veia do professor de Informática Aplicada à História a falar mais alto).
Para responder à questão formulada, sobre a evolução e distribuição espacial da imprensa portuguesa, existe já uma excelente fonte, publicada pela Biblioteca Nacional, em dois volumes, mas no velhinho papel. A mesma está parcialmente disponível no Google Books.
Foi então seleccionada uma amostra para transformar as informações textuais sobre a imprensa em mapas interactivos que nos permitam saber quantos, quando e onde foram publicados os jornais.
Da Net apenas se conseguem extrair as imagens digitalizadas do livro, pois o Google Books não disponibiliza esta obra em formato texto. Contudo, um qualquer editor de imagem básico e um razoável programa de reconhecimento de texto (OCR) permitem fazer maravilhas…
… e passar de imagens…
… para texto. Depois de algumas operações de “limpeza” feitas com o Excel (sim, o Excel não serve apenas para calcular os impostos a pagar ou para fazer uns gráficos razoavelmente interessantes, serve também para manipular texto, no bom sentido da palavra), o resultado é uma lista de jornais com mais alguma informação anexa.
Mais umas fórmulas no Excel e é possível passar para uma informação mais estruturada.
E é aqui que entra a carta militar, essa fonte usada por mim, pela primeira vez, no longínquo ano de 1991, pois através da sua versão digital é possível obter as coordenadas geográficas de uma parte muito significativa dos topónimos nacionais e com isso construir um gazetteer.
Juntando a lista de jornais e respectivos locais com o gazetteer obtêm-se as coordenadas para os nossos bocados de texto.
Os mapas ficam então a uma distância de poucos cliques.
E o resultado final de duas horas de trabalho sobre cerca de 30 páginas de texto (entre as letras J e M) é o que aqui se apresenta!
Ainda não é um dia de trabalho, mas é já uma parte do meu Dia das Humanidades Digitais, 2013!
Dizer que não sou um Humanista Digital num blogue como este é, obviamente, um excesso literário. Pretendo, contudo, reforçar a ideia que, apesar de fazer um uso recorrente e sistemático de materiais, ferramentas e metodologias digitais no meu dia-a-dia de trabalho, é sempre à História que volto no final da jornada. É dos problemas históricos que parto e é através do recurso ao digital que os procuro resolver. Contudo, essa opção é agora tão natural para mim, num momento em que o mundo digital tem cada vez mais para oferecer, como o era há quase vinte anos atrás quando, confrontado com esse ser estranho que era a “base de dados relacional”, optei por mergulhar de cabeça na lógica estruturada da informática e naquilo que ela tinha para oferecer a uma disciplina tão dada a ambiguidades e a interpretações tão pouco binárias.
Como apesar de tudo ainda me considero na transição entre dois mundos, tenho dificuldade em aceitar o rótulo de “digital”, mas também não me sinto um historiador “analógico”!
E então, onde cabem os mapas que constam do título do blogue? Bem, resultam somente de mais uma bifurcação no meu caminho em direcção à investigação histórica. O meu primeiro trabalho de licenciatura, com um saudoso professor que nos deixou precocemente, passou por mapear topónimos religiosos e perceber, através da sua distribuição espacial, a própria evolução e tipologia da presença religiosa na Idade Média e o seu contributo para a construção da identidade nacional. Foi um trabalho muito “analógico”, com muitas fotocópias, muita pintura e desenho, mas provavelmente mais aliciante do que eu pensei na altura, pois não mais deixei de juntar a Geografia à História.
Coincidência ou cabala, o certo é que o digital acabou por permitir a ponte entre as duas disciplinas e veio agora trazer-me de volta ao ponto de partida e à fonte que em 1991 o Professor Luís Krus me indicou, a carta militar de Portugal. É do uso de uma versão da mesma, agora em formato digital, que em boa medida será feito este meu primeiro exemplo de transformação de “textos em mapas”.
O que aqui apresento é apenas uma exploração, feita com uma pequena amostra de dados, de uma investigação que estou a desenvolver com um colega sobre a evolução da imprensa em Portugal durante o século XIX. Ao mesmo tempo pretende ser uma ilustração do potencial do recurso ao digital (é a veia do professor de Informática Aplicada à História a falar mais alto).
Para responder à questão formulada, sobre a evolução e distribuição espacial da imprensa portuguesa, existe já uma excelente fonte, publicada pela Biblioteca Nacional, em dois volumes, mas no velhinho papel. A mesma está parcialmente disponível no Google Books.
Foi então seleccionada uma amostra para transformar as informações textuais sobre a imprensa em mapas interactivos que nos permitam saber quantos, quando e onde foram publicados os jornais.
Da Net apenas se conseguem extrair as imagens digitalizadas do livro, pois o Google Books não disponibiliza esta obra em formato texto. Contudo, um qualquer editor de imagem básico e um razoável programa de reconhecimento de texto (OCR) permitem fazer maravilhas…
… e passar de imagens…
… para texto. Depois de algumas operações de “limpeza” feitas com o Excel (sim, o Excel não serve apenas para calcular os impostos a pagar ou para fazer uns gráficos razoavelmente interessantes, serve também para manipular texto, no bom sentido da palavra), o resultado é uma lista de jornais com mais alguma informação anexa.
Mais umas fórmulas no Excel e é possível passar para uma informação mais estruturada.
E é aqui que entra a carta militar, essa fonte usada por mim, pela primeira vez, no longínquo ano de 1991, pois através da sua versão digital é possível obter as coordenadas geográficas de uma parte muito significativa dos topónimos nacionais e com isso construir um gazetteer.
Juntando a lista de jornais e respectivos locais com o gazetteer obtêm-se as coordenadas para os nossos bocados de texto.
Os mapas ficam então a uma distância de poucos cliques.
E o resultado final de duas horas de trabalho sobre cerca de 30 páginas de texto (entre as letras J e M) é o que aqui se apresenta!
Ainda não é um dia de trabalho, mas é já uma parte do meu Dia das Humanidades Digitais, 2013!
Subscrever:
Mensagens (Atom)