Stoa :: USP Notícias :: Blog

março 12, 2009

user icon
Postado por Ewout ter Haar

Recentemente comecei dar o meu email da USP, ewout@usp.br, em todas as circunstâncias em que era apropriado deixar claro a minha condição de "membro da comunidade USP". Como identificador este email é importante para mim e também gosto do fato que o servidor de email da USP é muito bem administrado (não vai sair do ar tantas vezes quanto o email da sua Unidade ou pior ainda, do departamento).

Mas não uso o sistema de ler email da USP. O novo webmail da USP é bem melhor do que o anterior mas prefiro a interface Web do Gmail, com a sua metáfora de conversas, funcionalidade de busca, etc. etc. 

No fundo, os nossos emails tem dois funcionalidades: primeiro como identificador e segundo como meio de receber mensagens. Felizmente, as funcionalidades de identificador e leitura de emails podem ser separadas. Veja como redirecionar email para @usp.br para o seu serviço de email preferido.

[Atualizado 14/32009: Nos comentários o Gabriel lembra que tem uma outra maneira de receber os seus emails da USP na interface do Gmail. Explico em baixo.]

Primeira alternativa: encaminhar

Primeiro, entre na sua conta do webmail e escolhe "Personalizar" (ou "Opções"):

Agora clique em "Redirecionamento":

Clique na frase "Encaminhamento...."

Preenche o email onde emails direcionados a seunome@usp.br serão encaminhados.

Segunda alternativa: buscar email usando POP

O Gmail (talvez outros serviços de webmail também) tem a possibilidade de carregar emails como se fossem o seu cliente no Desktop. Quando use o seu Outlook ou Thunderbird para buscar os seus email do servidor, está usando o protocolo POP. Pois bem, o Gmail pode funcionar como cliente do servidor de email da USP.

Na interface do Gmail, vá para Configurações / Contas / "Receber mensagens de outras contas". Clique no link "Adicionar uma conta de e-mail que você possui" e verá

Preenche o seu email da usp, e na próxima tela terá que preenher a sua senha do email da USP:

Pronto, agora o Gmail checará o seu email de tempos em tempos. 

Acho que prefiro usar primeiro método do redirecionamento, porque tenho a impressão que os meus emails chegam mais rápido. De um ponto de vista filosófico, me sinto melhor encaminhar email para Google do que dar as chaves da minha conta a Google que então vem fuçar na minha casa de tempos em tempos. Mas admito que é uma preocupação um tanto pedante.

Enviar e-mail como

Nos dois casos, e se usar Gmail, é interessante ainda fazer o seguinte passo. Em Settings / Accounts / "Send mail as" ("Enviar email como") adicione a mesma conta. Gmail vai mandar um email de confirmação a seunome@usp.br para você comprovar  que de fato é o dono deste email. A partir deste momento pode mandar emails usando o interface de Gmail, mas os destinatários vão achar que mandou usando o email da USP.

Palavras-chave: email, identidade

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 4 usuários votaram. 4 votos | 8 comentários

fevereiro 23, 2009

user icon
Postado por Ewout ter Haar

Para quem trabalha no uso de tecnologias de informação e comunicação no ensino um passeio pelos caminhos tortuosos da burocracia brasileira é deprimente. Veja o que tive que fazer recentemente, como um dos passos de um processo maior, para comprovar onde nasci:

  1. Pedir o certidão de nascimento na Holanda. Dá para fazer via internet, mas como moro fora do país, tive que fazer uma procuração para o meu pai. Foi mandado para a casa dos meus pais, após o pagamento de uns 10 euros.
  2. Consularizar: ir para o consulado em Roterdã, para que o vice consul coloque um carimbo dizendo que o documento é autêntico. Custo: 18 euros
  3. Holanda é um pais pequena, consciente que nem todo mundo lê holandes. O certidão vem portanto em 10 (!) línguas, entre elas o português. Mas não importa: é preciso fazer uma tradução juramentada holandês - português. Nesta tradução, o tradutor explica que o documento é feito em 10 línguas e explica que os dados são escritos em letras Latinas, exceto para as línguas que não usam letras latinas, etc etc. Rapidamente, estamos indo para o território do absurdismo. Custo: 58 reais.
  4. O certidão e a tradução tem que ser protocolado, microfilmado, digitalizado e registrado num dos 10 cartórios de registro de títulos e documentos. Tem 10 cartórios, todos no mesmo lugar no centro de São Paulo (na Rua 15 de Novembro) mas o atendimento é exclusivamente feito no cartório central. Não existe razão aparente para existirem 10 cartórios (que são identificados pelo nome da pessoa que algum dia conseguiu a concessão). Custo: 54 reais.

E isto foi somente um dos passos para atingir o objetivo final. Repare que no lado brasileiro em nenhum momento a internet entra no processo. Se a sociedade brasileira mantem estas ineficiências na economia, que esperança temos para o uso de tecnologia de rede na educação?

Neste contexto, é interessante ler este relatório (pdf, via Ars Tecnica) que compara a "conectividade" de vários países. A metodologia é mais sofisticada do que simplesmente contar o número de computadores ou largura de banda:

We define “connectivity” in a much broader way to embrace more than just
infrastructure and hardware. The notion of connectivity should be expanded to include also the complementary assets (software) and skills — embodied in people, governments and businesses — that determine just how productively the hardware and infrastructure are used.

In summary, we use the term “connectivity” to refer to the totality of interaction between a nation’s telecommunications infrastructure, hardware, software, networks, and users of these networks, hardware and software.  

Na medida definido no relatório o Brasil fica em 5a lugar com 5,12 pontos (de um máximo de 10), atrás de Chile (6,59), parecido com Argentina e muito na frente da China (3,19) e India (1,88).

Mas antes de comemorar: note bem que o Brasil é classificado no relatório entre os países da segunda divisão, os países em desenvolvimento:

Note: The data and metrics used to assess the resource and efficiency-driven
economies are very different from those used to assess innovation-driven economies. It would be simply incorrect to interpret Malaysia’s score of 7.07 as meaning that Malaysia performs better than the Netherlands or Norway. In fact, Malaysia would finish below Poland if we used the same metrics and benchmarks for Malaysia as used for the innovation-driven economies.

(Na linguágem dos neo-liberais do World Economic Forum, "innovation-driven economies" são o primeiro time e "resource and efficiency-driven economies" são o time de reserva)

Ou seja: para um país de terceiro mundo, o Brasil está bem Triste. Para mim, isto é inaceitável. Não quero viver num país da segunda divisão e vou continuar julgar o Brasil usando padrões e valores absolutas.

Palavras-chave: burocracia, cartórios, conectividade

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 6 usuários votaram. 6 votos | 3 comentários

janeiro 10, 2009

user icon
Postado por Ewout ter Haar

Comunicação a Distância

Desde que interações entre pessoas ocorrem a distância -- seja via sinais de fumaça, pombos, correios ou redes de computadores -- temos dificuldades de saber com quem estamos falando e para se assegurar da privacidade da comunicação. No mundo dos nosso ancestrais nas savanas de Africa era fácil manter uma mensagem confidencial, era só uma questão de falar baixo. Os nossos cérebros, os nossos comportamentos e as nossas intuições não evoluíram para viver num mundo de interações sociais a distância. Evoluímos para ser extremamente bons em reconhecer a identidade da pessoa com quem estamos interagindo, uma coisa essencial em todas as interações sociais. Mas em comunicação à distância não dispomos da rica linguagem corporal necessária para identificar alguém e estabelecer uma relação de confiância. Nas condições de comunicação a distância não podemos mais confiar nas nossas estratégias que evoluíram para avaliar a identidade e até honestidade do nosso interlocutor. Precisamos de tecnologia.

Criptografia pode ser usado para assegurar a privacidade, a integridade da comunicação e da autenticidade da identidade de quem está no outro lado do canal de comunicação. São três objetivos distintos. Para manter privacidade a comunicação deve ser encriptada. Existem outras técnicas criptográficas para se assegurar da proveniência da mensagem e prevenir que elas são alteradas por partes não autorizadas. Em geral a impressão que temos de criptografia é que encriptar é a função principal dela, mas na verdade na grande maioria dos casos é autenticação (da mensagem e da identidade) é muito mais importante. Deste texto, a lição mais importante é que encriptar sem autenticar não tem valor. Se você não sabe com quem está se comunicando, é melhor nem tentar encriptar as suas mensagens porque a sua segurança é ilusório.

Neste post somente discuto criptografia "simétrico", que supõe que uma chave secreta compartilhada existe entre as partes. A distribuição destas chaves hoje em dia muitas vezes é feito usando criptografia assimétrica (ou, "de chave pública") que talvez tratarei mais tarde.

Autenticação simples e segredos compartilhados

A maneira mais simples de convencer alguém no outro lado do canal da sua identidade é mostrar que vocês compartilham um segredo. Isto pode ser feito por meio de

  1. uma coisa que você sabe: um senha como senha1 por exemplo;
  2. uma coisa que você é: os seus impressões digitais por exemplo;
  3. uma coisa que você possui: uma chave ou cartão por exemplo.

Para um segredo compartilhado se manter secreto obviamente este obviamente deve ser difícil de roubar ou adivinhar. Onde guardar os seus segredos? Um segredo guardado na sua cabeça é chamado de senha. A vantagem de senhas é que ninguém pode roubar e que sempre está contigo.

Para ser difícil de adivinhar o segredo tem que ser de uma certa complexidade. Mas senhas guardadas na sua cabeça sofrem das limitações gravíssimas do seu cérebro: como vai se lembrar de uma senha do tipo "@df$8hdghujtrffhced#$"? [Para especialistas: é impossível guardar os 128 bits de entropia (complexidade) necessários para segurança adequada na sua cabeça.] Por outro lado, senhas simples são muito fácil de adivinhar, é só começar com "senha", "1234", "senha1" e continuar tentando com todas as palavras do dicionário, com alguns pre- e pos-fixos até encontrar a senha correta.

Uma solução perfeita não existe, mas uma estratégica boa para guardar uma senha é guardar uma parte (simples) na sua cabeça e uma outra parte num papelzinho na sua carteira.

Segredos compartilhados em geral precisam ser mais complexos do que senhas. Para guardar um segredo de 128 bits como "2de1afe3b45b656eade98034daaa123a" o seu próprio computador parece um bom lugar. Infelizmente computadores são notoriamente inseguros, infestado por vírus, troianos, etc. que podem roubar o segredo. Um smartcard (como o seu cartão da USP) parece interessante, mas como fazer o interface entre o segredo guardado lá e o software que roda o algoritmo? Talvez precisamos colocar os algoritmos de criptografia na própria smartcard. Está ficando um dispositivo cada vez mais parecido com um computador, com todos os seus problemas. Também, um smartcard ou token é fácil de roubar ou perder.

Em suma, para ter um sistema seguro, todos as partes do sistema tem que ser seguro. Não adianta colocar uma grande porta de ferro para proteger uma barraca de lona. Seja com for, em seguida vou descrever como poderia construir a porta de ferro.

Encriptar: algoritmos e chaves

Se usar uma senha para se identificar através de um canal de comunicação, como vai evitar o roubo da senha por qualquer um que está monitorando este canal? De uma maneira geral, precisamos de encriptação para manter a confidencialidade da comunicação. Veja a Alícia querendo falar com Roberto.

Alícia mandando uma mensagem para 	Roberto

O malvado Everton fica sabendo de tudo:

Comunicação com o malvado Everton escutando

O que fazer se Alícia e Roberto precisam se comunicar sobre um canal não seguro como cartões postais ou a internet? Precisamos encriptar a mensagem por meio de uma cifra

Alícia encripta a sua mensagem 	antes de mandar para Roberto

Uma cifra é um algoritmo para encriptar uma mensagem. É uma receita, um conjunto de regras, que transformam a mensagem original. Segredos pequenos e simples são mais simples de guardar. É por isso que o conjunto de regras, os algoritmos de encriptação, sempre são públicos e a segurança somente depende da chave, um número pequeno que junto com o algoritmo determina a encriptação (veja também o Princípio de Kerckhoffs em baixo).

A chave, um segredo pequeno, é usado para guardar o segredo grande, a mensagem. É preciso saber a chave (e o algoritmo) para decifrar a mensagem encriptada. Para criptografia simétrico a mesma chave é usado tanto para encriptar a mensagem como para decriptar ela. Isto significa que tanto quem manda como o receptor da mensagem tem que ter acesso à chave e que temos que distribuir as chaves de uma maneira segura, por algum outro canal. Mas avançamos porque é mais fácil distribuir e guardar segredos pequenos (as chaves) do que segredos grandes (as mensagens).

Integridade da Mensagem

Encriptar a sua mensagem não é suficiente para manter um canal de comunicação seguro. O malvado Everton ainda pode mudar a mensagem, o que pode ser altamente prejudicial. O recipiente precisa se assegurar da integridade da mensagem e da identidade de quem mandou. A solução para ambas os problemas é um MAC ("Message Authentication Code"). É um código ou número, um espécie de impressão digital da mensagem, que é mandado junto com a mensagem. Somente quem está de posse da chave secreta pode fazer o MAC e somente quem está de posse da mesma chave pode verificá-lo.

Authenticação da mensagem por meio 	de um MAC

Um MAC pode ser feito por exemplo usando um hash. Um hash é uma função que transforma uma mensagem numa seguência de bytes de uma maneira imprevisível. Veja por exemplo o hash chamado de SHA-1 de duas mensagens parecidas:

    sha1("senha")  = 7751a23fa55170a57e90374df13a3ab78efe0e99
    sha1("senha1") = adddc25f41289bb0e9da98742a94a861560c1c37

Ou seja, uma pequena mudança na entrada leva a saídas completamente differente. Um MAC simples podia então ser sha1(KM+mensagem). O malvado Everton não pode mudar nenhuma letra da mensagem sem que o MAC correto mude completamente. E para quem não conhece a chave secreta KM é inviável desbrobrir qual MAC corresponde à mensagem falsa. [Este MAC simples não deve ser usado em sistemas reais por razões complicadas ("length extension attacks", veja Ferguson e Scheier, 2003)]

Vale a pena ressaltar mais uma vez o fato talvez surpreendente que a confidencialidade e a autenticidade da mensagem são independentes e tem soluções (encriptação e o MAC) diferentes. A primeira vista parece suficiente encriptar a mensagem. Afinal, o malvado Everton pode mudar a mensagem encriptado, mas sem ter a chave secreta a mensagem decriptado não vai fazer sentido. Mas mesmo mensagens sem sentido podem fazer danos, se Roberto assume erroneamente que vem de Alícia. Uma outra razão porque é útil separar confidencialidade e autenticação é porque assim podemos usar algoritmos especializados e otimizados para cada função. Para uma terceira razão, imagine o caso onde encriptar a mensagem é indesejável (talvez por razões legais). Mesmo assim Roberto gostaria ser capaz de se assegurar que a mensagem veio de Alícia. Com as funções confidencialidade e autenticidade implementados por algorimos diferentes isto é possível.

Autenticação deve ser considerado mais importante do que a encriptação. Pense assim: que mal o malvado Everton pode fazer sabendo do conteúdo da comunicação? Agora, que maldades ele poderia fazer se pudesse manipular as mensagens?

O Canal Seguro

Um canal de comunicação que garante a privacidade, a integridade e a autenticidade da Alícia é chamado de "seguro". Basicamente combina as duas funcionalidades descritos acima. Primeiro a Alícia calcula um MAC (usando uma chave secreta KM) e depois encripta a mensagem e o MAC junto (usando uma outra chave secreta, geralmente). Roberto decripta e verifique a integridade da mensagem.

Não é nada trivial implementar um canal seguro. Por exemplo, para evitar ataques onde Everton usa mensagem antigos ("replay attacks") é necessário numerar as mensagens, ou usar um "nonce", um número usado exatamente uma vez durante a existência do canal. Um outro exemplo é que a chave compartilhada deve valer por uma duração limitado, primeiro para evitar que o Everton retransmite mensagens de uma sessão anterior e segundo porque chaves de uma maneira geral devem ter uma vida curta (se uma "chave de sessão" for comprometida, pelo menos as outras sessões se mantem seguras). Os algoritmos de encriptação e do MAC devem ser usados de uma determinada maneira. Assim tem muitas detalhes que podem comprometer a segurança do canal.

Princípio de Kerckhoffs

É um princípio básico de criptografia que a segurança do sistema deve depender somente do fato que a chave é segredo. O algoritmo deve ser público e transparente. Este princípio é atribuído a Auguste Kerckhoff, um estudioso Holandês de línguas, trabalhando na França no século 19. Uma razão é que um segredo de tamanho pequeno é muito mais fácil de guardar do que um segredo grande (o algoritmo). Quando um sistema criptográfico é usado por mais do que alguns poucos participantes, é ingênuo pensar que o algoritmo pode ficar um segredo. O fato é que é muito mais simples esconder (e distribuir entre os participantes) chaves do que sistemas de criptografia inteiros.

Mas a razão principal é que sistemas, protocolos e algoritmos públicos podem ser submetidas a revisão por pares para descobrir eventuais falhas. Sistemas e algoritmos secretos são revisados somente por um grupo necessariamente pequeno. Com exceção do NSA, é extrememamente improvável que um grupo particular vai produzir sistemas melhor do que os públicamente revisado e testados.

Segue que nunca deve inventar os seus próprios algoritmos ou sistemas de segurança. Sempre deve usar algoritmos públicos e bem-testados.

Distribuição das chaves

Nada falamos ainda sobre como Alícia e Roberto conseguiram o segredo compartilhado. O maior problema de criptografia simétrica é justamente a distribuição segura das chaves. Se temos N pessoas querendo se comunicar deve ter N(N-1)/2 chaves para que cada par de usuários possam se comunicar seguramente. Por exemplo, se um grupo de 10 pessoas querem organizar reuniões sem que as autoridades saibam é preciso distribuir de alguma forma segura 45 chaves secretas. Para 100 pessoas são 4950 chaves. Para computadores em rede, um possível solução é usar um servidor de confiânca e online que distribui chaves. Kerberos é um protocolo que faz isto.

Este tipo de solução requer uma coordenação prévia entre as partes. Existem soluções também para partes que nunca se encontraram ou conheceram antes. Por incrível que parece, existe uma sequência de troca de mensagens (agora conhecido como "Diffie-Hellman") que acaba com Alícia e Roberto tendo o mesmo número, sem que o malvado Everton, que escutou a conversa toda, fica sabendo. Também é possível fazer criptografia onde as chaves secretas não precisam ser as mesmas e compartilhadas. Em criptografia de chave pública Alícia pode manter um segredo e dar uma chave pública a Roberto que então pode ser comunicar seguramente com Alícia. Mas os mesmos problemas de autenticação e identidade surgem, como veremos num próximo post.

Referencias

Applied Cryptography, Bruce Schneier (1996) e Practical Cryptography, Niels Ferguson e Bruce Schneier (2003) são clássicos da área. O livro de Ross Anderson sobre engenharia de segurança é muito bom e o FAQ antigo do RSA vale a pena conferir. Veja também alguns links relacionados com criptografia que colecionei.

Este texto e o arquivo das imagens estão disponível para remix (cc-by).

Palavras-chave: autenticação, cifras, criptografia, encriptação, identidade, segurança, senhas

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 6 usuários votaram. 6 votos | 0 comentário

dezembro 16, 2008

user icon
Postado por Ewout ter Haar

Um comentário resgatado de um blog de alguém que quer apagar os seu perfil no Stoa. A discussão era sobre o uso de tecnologia em sala de aula: "Podemos concluir que o uso da tecnologia em sala de aula é feito de forma errada na maioria das vezes  [...].

Sim, é preciso usar as possibilidades novas e complementares de mídias digitais. Não adiante projetar um livro na parede. Na aula, dei o exemplo do formato PDF: é legal que pode copiar, mandar via email, etc. mas no fundo ainda é um formato legado. É papel em formato de páginas (uma inovação do século 3), que não usa marcação para separar estrutura de forma (impedindo re-uso do texto para outros fins), não usa links e todos as vantagens de hipertexto, etc. etc.

Mas veja o que acontece quando todas as possibilidades de digitilização são usado. Esta apresentação é uma combinação de imagens, som e texto para atingir o seu objetivo. Usa tags para poder achar conteúdo relacionado, Usa algoritmos para achar conteúdo relacionado e usa funcionalidade de redes sociais para poder navegar pelo seu grafo de contatos para achar conteúdo relevante. É disso que estou falando quando quero investigar as novas possibilidades que mídia social pode proporcionar para ambientes de educação.

 

Palavras-chave: fap0459, pdf, preservação digital

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 2 usuários votaram. 2 votos | 1 comentário

novembro 22, 2008

user icon
Postado por Ewout ter Haar

Segunda-feira Everton e eu apresentamos o Stoa a um público de cientistas de informação no CIPECC de 2008. Veja a minha apresentação:

Stoa: A Web Social na USP
View SlideShare presentation or Upload your own. (tags: sns stoa)

Parte 1: Digitalização e Abundância de Informação

Nesta primeira parte quero mostrar como a digitalização de mídia resulta numa abundância de informação e que precisamos criar novos mecanismos para achar conteúdo relevante. Afirmo que da mesma maneira que Google usou a Web como plataforma para rankear documentos, vamos ter que criar em cima da Web convencional uma nova plataforma, a Web Social, que por sua vez pode ser usado para criar estes novos mecanismos. 

Estamos no equivalente do incunábulo  da era digital. Para cada transição tecnológica tem  um período onde se busca como melhor realizar as novas possibilidades desta tecnologia.   A invenção da página (que possibilita referenciar um trecho no meio de um texto) no século 3 permitiu Orígenes fazer análises críticos de texto. A invenção da imprensa permitiu Cervantes inventar a novela (quando livros não são mais objetos únicos pode tratar de assuntos fictícios e leves).

Assim, a digitalização de mídia requer repensar modelos de negócios baseados em direitos autorais (porque informação digital intrinsicamente e naturalmente tem custo zero para redistribuir). Precisamos repensar a classificação e organização de Informação porque em forma digital não ocupa espaço e podemos experimentar com novas maneiras de organização como folksonomies. 

Mas a mudança mais revolucionário é como mídia digital facilitou a criação de novos recursos. Na Web em particular  é extremamente fácil criar um novo post, subir uma nova foto num site de compartilhamento de fotos, etc. etc. Para ter uma idéia: são subidas 60 fotos por segundo no flickr.com e nos últimos 6 meses foram colocados o mesmo número de horas de vídeo que nos últimos 40 anos pelas redes de televisão tradicionais.

Como lidar desta abundância de informação? A solução deve envolver a Web Social (ver próxima seção) que permite usar a sua rede de contatos para funcionar como filtro e para fazer recomendações. A analogia é com Google que usa o número de links apontando para um determinado documento  para avaliar a sua "relevância". (Na verdade, links a partir de documentos com relevância alta vão conferir por sua vez relevância alta). Em comparação com Altavista, que somente analisava o conteúdo dos documentos esta maneira de buscar documentos relevantes era muito mais eficaz.

Note que Google usa a Web (no caso, hipertexto) como plataforma em cima de qual é construído uma aplicação inovadora. Na segunda parte analisaremos melhor como isto é possível.

Recomendações como as do Amazon ou Netflix em parte são baseado na similaridade do conteúdo mas também via a "rede social" de pessoas que compraram conteúdo parecido que eu. Rankear conteúdo colaborativamente também é muito usado para sites como Digg ou Reddit. Mas em nenhum destes casos é possível realmente personalizar as recomendações.

Nos últimos anos vemos florescer o uso de "mídia social" onde pessoas podem ativamente "seguir" as atividades e interesses de outras pessoas e usar a sua rede de contatos para achar material relevante. Dou o exemplo do site de compartilhamento de documentos na Web delicious.com. Em primeiro lugar, posso seguir o que os meus contatos acham interessante. Mas posso também achar outras pessoas e assim ampliar o meu horizonte. Se marco um determinado documento como interesante, posso ver neste site outras pessoas com as mesmas interesses e achar outros documentos relacionados. É uma maneira muito eficaz de achar conteúdo parecido e relevante.

Afirmo que repositórios de mídia digital e sistema de gestão de conhecimento em geral vão precisar usar este tipo de funcionalidade para atender às necessidades do seu público e para poder oferecer material minimamente relevante, do mar quase-infinito de conteúdo disponível.

Parte 2: A Web como Plataforma

A Web é o sistema de informação mais bem sucedido na história da humanidade. Se quisermos criar novos sistemas, sejam educacionais, sejam de gestão de informação, certamente devemos tentar abstrair as razões pelo qual a Web tive tanto sucesso e aplicá-los aos nosso sistemas.

Uma primeira lição é que devemos construir os nossos sistemas para que exibem "efeitos de rede", a idéia que o sistema fique mais útil quanto mais pessoas usam. Isto nos ensina o valor de interoperabilidade e o uso de padrões abertas (para que o maior número possível de pessoas podem participar. 

A Web é uma plataforma neutra e aberta com arquitetura distribuída. Isto quer dizer que nenhuma entidade controla sozinha a Web e que ninguém precisa pedir permissão para participar e criar novas aplicações usando a plataforma. Isto é a receita para aplicações inovadoras. A Web é construída em cima da Internet, que tem uma arquitetura parecida. Nos dois casos se dá nomes às entidades importantes (servidores e documentos respectivamente) e define um protocolo de comunicação entre elas (HTTP e o atributo href resp.).

Uma arquitetura que dá nomes às entidades importantes e dutos de comunicação "burros" entre elas às vezes é chamado do tipo "end to end" ou "ponta a ponta". Neste tipo de arquitetura não deve tentar controlar como as entidades usam a rede. A inovação é permitido acontecer na "beira da rede". 

Da mesma maneira, precisamos construir a Web Social de forma que vire uma plataforma distribuída, neutra e aberta, identificando pessoas de alguma forma, permitindo conexões entre elas, para que possam ser construídas aplicações inovadores em cima desta plataforma. Software Social já existe, mas este tipo de plataforma distribuído ainda não.Talvez as padrões emergentes OpenSocial, OpenID e iniciativas como Diso são passos na direção certa. 

Parte 3: A Rede Social Acadêmica Stoa

O projeto Stoa é uma implementação de software social (ou, como prefiro, "a Web moderna") na USP. Os objetivos principais são oferecer ferramentas a comunidade USP que facilitam o compartilhamento da produção acadêmica, possibilitam a gestão de identidade digital e que criam uma plataforma de aprendizagem. A idéia também é criar o equivalente virtual de espaços públicos como corredores e lanchonetes para que os membros da comunidade USP podem interagir. Aprendizagem é um processo social, além de cognitivo.

Num ano e meio de operação tivemos da ordem de 5000 cadastros, dos quais a metade customizou o seu perfil. Foram criados 3000 posts, 6000 comentários. A maioria dos participantes tem menos do que 25 anos. Não existem usuários "típicos": as distribuições de vários indicadores de atividades são altamente desigual e "skewed".

Recentemente houve uma discussão acerca do papel que este tipo de plataforma pode e deve ter num ambiente educacional  e institucional. Como o conteúdo disseminado na plataforma deve ser moderado? A minha visão pessoal do Stoa é que é uma plataforma onde cada usuário é responsável pelo seu espaço. Qualquer moderação, nesta visão, deve acontecer num nível superior, em cima desta plataforma, de preferência de forma distribuida. Gostaria de em construir uma plataforma em vez de uma aplicação. Não é óbvio que isto é o modelo melhor ou possível para um sistema institucional.

Palavras-chave: stoa, usp, web, web social

Postado por Ewout ter Haar | 6 usuários votaram. 6 votos | 1 comentário

user icon
Postado por Ewout ter Haar

Anúncio de utilidade pública: achei um verme na salada do restaurante "Clube do Churrasco" em Butantã agora a pouco as 13h30 no dia 22/11/2008. Não lavam a salada, pelo jeito.

Não existe algum tipo de serviço de inspeção sanitária da prefeitura? Este site não funciona para mim.

Tem alguém em São Paulo capaz de criar um serviço como este?

Era só isto.

[Atualizado 8/1/2009]: Não deixe de conferir a discussão em baixo, em particular o comentário número 9 da Suzana e o comentário 19 do Guilherme, para ouvir o outro lado da questão!

Palavras-chave: Clube do Churrasco, Higiene de Alimentos, restaurantes

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 2 usuários votaram. 2 votos | 22 comentários

novembro 03, 2008

user icon
Postado por Ewout ter Haar

Comprei um chip do Oi no sábado dia 1/11, em algum lugar na Santa Ifigênia (estava lá para comprar mais pixels. Agora tenho 3074720 distribuido sobre 2 monitores em casa). No final deste dia coloquei o chip no meu celular e cadastrei o meu CPF usando o sistema automático deles. Após 24 horas ainda não foi liberado o chip.

Hoje liguei o *144 (uma mensagem disse que era para ter o endereço e cpf em mãos) mas o atendente (que reclamava várias vezes que a linha estava muito ruim (!)) precisava do número do chip, que obviamente estava dentro do aparelho. Disse que podia ligar o número 1057 a partir de um número fixo.

Tirei o chip, liguei o número acima e após 3 níveis de menus sou orientado a ligar #144 a partir de um aparelho celular desbloqueado. Vou tentar daqui a pouco. Já está ficando engraçado, vou manter vcs a posto aqui sobre . Parece que um milhão de chips foram vendidos (não tenho ref.), todo mundo se cadastrou? Sou único que não está conseguindo?

Alias, que tal de uma mapa colaborativa de cobertura? Talvez um Google Maps que pode ser anotado por todo mundo com a qualidade do sinal. O ideal seria se tivesse  campos para os usuários contribuir a posição, número de pauzinhos representando o sinal, marca do celular (para poder normalizar), a operadora, a data. Teria que bolar uma visualação em função do tempo também. Quem se arrisca um projetinho ágil usando RoR ou Django (que vem um módulo GIS distribuido junto com o core)

[Atualizado 3/11, 10:49]. Tentei mais uma vez via #144, mas a atendente não estava conseguindo me ouvir, dizendo que a ligação estava muito ruim. Estranho, consegui ouvir ela muito bem. O número de pauzinhos do sinal flutua de 1 até 4, aleatoriamente.

Atualizado 3/11, 19:34] Consegui fazer o cadastro.  Em casa o sinal estava bem melhor e consegui ouvir muito bem a atendente. A atentendente ainda teve muitas dificulades de me ouvir, talvez porque tinha muito barulho no callcenter dela, ou, simplesmente porque ninguém entende o português que falo (gritava, neste caso). Não seria a primeira vez. Como disse o cara em Cool Hand Luke: what we have here, is failure to comunicate (tem que imaginar o sotaque dum redneck americano sulista aqui)

Palavras-chave: gsm, oi

Postado por Ewout ter Haar | 1 usuário votou. 1 voto | 61 comentários

outubro 23, 2008

user icon
Postado por Ewout ter Haar

Deixei este comentário num post do Michael Nielsen onde ele denuncia a tendência de físicos tomar crédito pela invenção da Web. Parece que o CERN não era nada receptivo às idéias do Tim Berners Lee, que teve que implementar o protótipo no seu tempo livre. Mas acredito que (como escrevi no comentário)

I think it is fair to mention the decision of CERN to put TBL's work in the public domain (see http://news.bbc.co.uk/2/hi/technology/7375703.stm , especially the image ). This is often mentioned as an important factor (over and above the technical ones) in accounts of how the Web won (over Gopher, for example).

Large organizations being not receptive to innovation is not news. Doing the right thing with respect to intellectual property is news, especially 15 years ago when open source was still a radical idea and the idea that the mistreatment of IP issues as an enormous obstacle to innovation was not yet mainstream.

 Hoje é quase consenso a idéia que regras que visam proteger "propriedade" intellectual na verdade atrapalham o processo de inovação. Acho que Físicos podem se orgulhar no papel que tiveram na disseminação desta idéia (veja também o papel pioneiro do Ginsparg no movimento de Acesso Aberto: http://physicsworld.com/cws/article/print/35983 )

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 3 usuários votaram. 3 votos | 0 comentário

outubro 14, 2008

user icon
Postado por Ewout ter Haar

A maioria das pessoas devem associar a expressão "Tecnologia Educacional" ao uso de computadores e software para fazer simulações com fins didáticas. Na minha disciplina Fap0459 falamos até agora sobretudo sobre as possibilidades pedagógicas das novas tecnologias de comunicação e colaboração que a Web moderna proporciona, mas finalmente chegamos então no tópico desta semana: "Uso e construção de applets e simulações".

Para a parte estruturada do tópico dei um resumo do projeto PhET da universidade de Colorado, como exposto neste artigo recentemente publicado no Amercian Jornal of Physics. (Veja outras publicações do grupo)

Carl Wieman

O Projeto PhET (Physics Educational Technology) foi iniciado pelo Carl Wieman , o prêmio Nobel em Física de 2001 por conseguir a condensação de Bose-Einstein. Wieman usava um applet de Martin Goldman  (do site physics2000, um projeto anterior e muito famoso da mesma Universidade) nas suas palestras e ficou impressionado com o fato que geralmente a única coisa que o público se lembrava era a simulação. Sendo Nobel, ficou um pouco mais fácil conseguir financiamento (do NSF, as fundações Kavli e Hewlett e também o dinheiro do seu prêmio) e Wieman resolveu investigar e produzir sistematicamente o uso de simulações interativas para ensinar física.

Java

No espectro entre aplicativos "nativos da Web" (HTML e Javascript) por um lado e aplicativos nativos de um determinado sistema operacional (para qual é necessário instalar software), simulações escritos em Flash e Java ficam no lado da Web, no sentido que são multi-plataforma, não requerem instalação e são extremamente fácil de distribuir e usar via a Web. Como a empresa de "televisão via internet" Joost recentemente descobriu, a instalação de software é uma barreira que pode prejudicar a adoção enormemente.

As simulações do Phet são escritos sobretudo em Java e distribuido usando a tecnologia "Web Start", uma alternativa mais robusta às tradicionais applets. Java é multi-plataforma e tem muito mais performance (por ser uma linguagem estática e compilada) do que flash ou Javascript. Mesmo assim, na minha máquina pelo menos o Java tem dificuldades acessar os drivers de som (e do Webcam), mas para as simulações do PhET isto não faz muita diferença. É notável porém a diferença dos widgets do interface do usuário: não é nem a Web, nem GTK ou Windows nativo.

Produção de simulações interativas baseada em resultados de pesquisa

O principal objetivo das simulações é proporcionar aprendizagem ativa por meio de exploração, dando a possibilidade ao aluno construir o seus próprios significados e entendimentos. As simulações são feitos por um equipe de 4 até 6 engenheiros de software, pesquisadores da área e especialistas de educação. Não é a toa que custam de 10 até 40 mil reais por simulação (!) Todas as simulações são testados em alunos e os seus interfaces mudados conforme os resultados deste feedback. Alguns resultados destes testes são

  •  Estudantes percebam e pensam diferente que especialistas. Não conseguem distinguir ainda detalhes relevantes de irrelevantes. A lição é que é importante apresentar as possibilidades da simulação aos poucos e não querer demonstrar, logo ao iniciar a simulação, todas as suas funcionalidades.
  • Simulações podem ser prejudical a aprendizagem. Inicialmente uma das simulações usava um objeto de 1 kg na Terra para demonstrar o conceito de trabalho e um outro de 1650 kg na Lua. O rendimento dos estudantes em avaliações de compreensão da matéria diminuiu porque não perceberam a mudança da massa nas duas situações.
  • As simulações tem de longe o maior eficácia quando são usados pelos estudantes. Demonstrações são muito pouco eficaz. 
  • Usado pelos alunos, de modo que permite a construção própria de compreensão e significado dos conceitos, as simulações podem ter até mais valor do que um laboratório real. A razão é que simulações podem visualizar elementos do modelo teórico invisíveis. Simulações permitem focar no modelo, tirando elementos periféricos e não-essenciais que inevitavelmente atrapalham a interpretação de experimentos reais.

Vale a pena observar aqui o contra-ponto, muito bem formulado por Alan Kay, que é muito perigoso ensinar somente o modelo aos alunos, sem deixar claro como chegamos no modelo. Para cientistas a relação entre o modelo e a realidade é claro, mas para alunos é necessário enfatizar a natureza aproximada e os limites de aplicação de modelos teóricos.

Uso, Reuso e Redistribuição

As simulações do Projeto PhET são modular suficiente para que possam ser usados em vários contextos, desde aulas do ensino médio até o ensino superior. O código é livre (GPL) e a licença para redistribuição do conteúdo do site é Creative Commons não-comercial. Certamente é por isto que quase todas as simulações estão disponíveis e muitas línguas (tem 54 applets em português. É possível baixar o site inteiro ou simulações individuais para uso offline, recurso indispensável para o uso em salas de aula sem conexão com internet.

Este projeto me impressionou muito e espero que muitos professores vão incorporar as simulações nas suas aulas.

Palavras-chave: Applets, phet

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 0 comentário

setembro 28, 2008

user icon
Postado por Ewout ter Haar

Quase um ano atrás já expliquei como usar as "planilhas dentro do seu navegador" do Google Docs para divulgar de uma maneira conveniente as notas dos seus alunos (ou outras informações). Semana passada apliquei uma provinha via Web para os meus alunos. É espantoso como ficou fácil fazer isto sem usar software especializado. Com algumas limitações dá para preparar a provinha usando somente software "off the shelve", no caso, o Google Docs.

É claro que isto implica limitações graves ao tipo de pergunta que pode ser formulado. Somente alguns tipos de respostas  são permitidos por exemplo e não é fácil para alunos "mostrar as contas" por exemplo. Uma outra limitação é inherente ao formato Web: como vai impedir os seus alunos usar todos os recursos disponíveis na Web para responder as suas questões? É melhor desenhar as sua prova para que avalie conhecimento e não meros fatos. E também não tem como impedir a "colaboração" entre alunos via os meios de comunicação disponível. Paradoxalmente, por não ser  feito especificamente para o ensino, este tecnologia força o uso de uma pedagogia menos convencional ou  instrucional

1. Abrir a planilha e fazer questões

Hoje em dia, o Google Docs tem um item no menu especial para a criação de um formulário. Vai começar Imediatamente escrevendo as questões. Os tipos de pergunta são texto (respostas textuais curtos), texto de parágrafo (respostas mais longas), múltipla escolha, caixas de seleção (permite respostas com mais do que uma escolha), escolha de uma lista e uma escala (para simples respostas numéricas).  

2.  Aplicar a prova

Pode mandar o URL do formulário para os seus alunos via email, ou disponibilizar o mesmo em algum fórum. A seguinte figura mostra o que os alunos vão ver. Não é necessário para os alunos ter uma conta Google. Para associar respostas a alunos, simplesmente inclui uma questão pedindo o nome, número USP e email.

Talvez seja uma boa idéia orientar os alunos salvar as suas respostas num editor de texto temporariamente, para evitar eventuais problemas na hora de mandar o formulário.

3. Corrigir as respostas

É deste maneira que as respostas chegam à planilha associado ao formulário:

Realmente senti falta de uma maneira mais fácil de dar feedback. Tive que colar manualmente as respostas no meu cliente de email e escrever os meus comentários inline.  Seria muito bom se o formulário tivesse uma pergunta especificamente para o email e se tivesse uma integração melhor com Gmail.

 

Palavras-chave: fap0459, Google Docs, provas

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 1 usuário votou. 1 voto | 5 comentários

setembro 15, 2008

user icon
Postado por Ewout ter Haar

Em 2004 o Chris Anderson usou a expressão "long tail" ou "cauda longa" para descrever a idéia que na Web hoje tem espaço mesmo para produtos com pouca demanda. Neste sentido, a expressão se refere a grande maioria numa distribuição de popularidade por exemplo. Mas a expressão "long tail" ou "heavy tail" tem um outro sentido bem definido na estatística. Aqui a cauda longa se refere justamente ao outro lado da distribuição, os eventos muito raros.

Vou mostrar como as duas caudas são relacionados e que a confusão decorre de duas maneiras equivalentes de apresentar uma distribuição de probabilidade. A primeira é a convencional distribuição acumulada em função do valor da variável aleatória também chamado de gráfico "ranking-frequência" por motivos históricos. A segunda maneira é comum entre economistas, sociólogos, marqueteiros. Troca-se os eixos verticais e horizontais e grafica-se o valor da variável aleatória em funçaõ do ranking

A primeira Cauda Longa

A Cauda Longa então, com maiusculos para indicar que estamos falando do conceito do Anderson. Sem as limitações do mundo físico, empresas modernas seriam capaz de comercializar a grande quantidade de produtos para qual o público é muito pequeno e assim poderiamos se livrar da tirrania dos "hits" e a necessidade se focar nos produtos mais populares. A idéia pode ser visualizado da seguinte maneira. Pegamos todos os produtos colandando-os em ordem de popularidade. Grafique a popularidade em função do ranking:

popularidade em função de ranking

A baixa barreira de entrada que a Web proprociona faz com que vemos caudas longas neste sentido em todo que é lugar: para Amazon é viável comercializar produtos de baixa demanda, blogs permitem a distribuição de notícias de interesse somente para grupos pequenos, os vídeos caseiros de youtube tem na sua grande maioria uma audiência de muito pouco pessoas, etc. etc.

Histogramas

Graficar variáveis como popularidade, vendas, número de links ou tamanho da audiência no eixo vertical contra a posição no ranking no eixo horizontal na verdade é uma maneira de visualizar a distribuição destas variáveis. É interessante ver a relação com a maneira mais convencional de apresentar uma distribuição (convencional nas ciências exatas pelo menos). Normalmente o gráfico é do número de ocorrências (ou probabilidade) no eixo vertical contra a variável aleatória no eixo horizontal. Veja o exemplo quando a variável aleatória é o número de contatos no Stoa. O histograma a seguir mostra o número de ocorrências em função desta variável. Tem 1136 usuários com 1 contato, 539 com 2 contatos e, no outro lado do gráfico, 1 usuário com 204 contatos.

histograma dos contatos do Stoa

Vemos que a distribuição desta variável em particular é altamente assimétrica, larga e desigual. Tanto os valores no eixo vertical como os no eixo horizontal variam tanto que é interessante usar escalas logarítmicas (isto é equivalente a plotar o logarítmo dos dados em escalas normais). Esta distribuição é bem diferente do que as distribuições "normais" como por exemplo a de altura numa população, onde os valores da variável (altura) flutuam ligeiramente em volta de um valor típica, a média

Mas a distribuição de contatos no Stoa tem uma distribuição mais parecido com por exemplo a do tamanho de cidades. Existem muitos cidades pequenas e poucas grandes e não faria muito sentido falar de um tamanho típico. Claro que existe uma média aritmética mas a distribuição não é bem resumida (ou caracterizada) pelos seus valores da média e variância.

A segunda Cauda Longa

histograma dos contatos do Stoa, escalas logarítmicos

A distribuição tem mais uma característica interessante. Os valores altos da variável aleatória (número de contatos neste caso) ocorrem poucas vezes, mas mais vezes do que esperado se a distribuição decaisse exponencialmente (linha verde), como seria no caso de uma distribuição Gaussiana ou "normal". Isto é a definição de uma distribuição com cauda longa ou cauda pesada no contexto de estatística.

Mark Liberman descreve como o estudo por John Tukey nos anos 60 deste tipo de distribuição e as suas consequências começou nos anos 60. Mandelbrot recentemente escreveu um livro sobre o perigo de modelos financeiros que assumem distribuições Gaussianas e como em mercados eventos na cauda são mais prováveis do que estes modelos preveem.

Os dois sentidos da expressão "cauda longa" ou long tail estão falando de lados opostos da distribuição. Na estatística, estamos falando do lado direito do gráfico acima: os itens com pouca ocorrência e alto valor do variável aleatório (contatos neste caso, mas poderia ser capacidade, conexões, riqueza, popularidade, etc. etc.)

Por outro lado, no gráfico do Anderson o variável aleatório (popularidade no exemplo dele) está agora no eixo vertical. Está graficado contra a posição no ranking. A "Cauda Longa" do que estamos falando de novo e lado direito do gráfico: as ocorrências com baixo valor do variável aleatório: (popularidade no exemplo do Anderson).

Não importa a mudança de terminologia introduzido por Anderson (e Clay Shirky antes dele). Mas temos que ser claros em do que estamos falando. O long tail do Anderson trata de democratização, acesso a informação, a grande massa de produtos, indivíduos e itens que antes não tinham vez. O long tail no sentido antigo (estatístico) se trata de eventos raros, os mais ricos, as exceções, em suma, exatamente o outro lado da distribuição.

Apresentações de Distribuições

Finalmente, vamos ver como a apresentação de uma distribuição colocando a variável aleatória no eixo vertical contra a posição no ranking no eixo horizontal é equivalente a graficar a chamada distribuição acumulada. Acontece que esta última, que te diz para cada valor da variável aleatório a probabilidade para achar um valor maior do que esta valor, é proporcional ao posição no ranking. Veja:

Coloque ou "ranqueia" os itens da sua amostra em ordem decrescrente. Para os nossos dados do número de contatos no Stoa para cada usuário, a lista começa assim: (ranking, número de contatos) = (1, 204), (2,80), (3, 73), (4, 39) ... Por definição, existe na amostra exatamente 1 item com valor maior ou igual ao valor do primeiro item na lista (204 contatos). Da mesma maneira, existem exatamente 2 itens com valor maior ou igual ao segundo item na lista (o usuário de 80 contatos e o usuário de 204 contatos). Existem 3 itens com valor >= o valor do terceiro item.

Se graficamos então o ranking contra a variável aleatória na verdade estamos graficando para cada valor da variável no eixo horizontal, o número de itens com valor maior ou igual deste valor. Esta é a definição da distribuição acumulada (complementar, para ser exato). Em termos de probabilidades (o número de ocorrências dividido pelo número total de ocorrências): a distribuição acumulada complementar (fda) é (para um determinado valor X) a probabilidade que o variável aleátório tem um valor maior ou igual este valor X. Se a distribuição da densidade de probabilidade é p(x) então a fda P(x) =
  \int_{x_\mathtext{min}}^{\infty}p(x^{\prime})dx^{\prime}}.

No gráfico a seguir coloquei a posição no ranking em função do número de contatos:

fda dos contatos do Stoa

Agora a relação entre as duas visualizações da distribuição é claro: para obter um da outra simplesmente troque o eixo x e y do gráfico:

fda dos contatos do Stoa

Como diz o Mark Newman:

Cumulative distributions with a power-law form are sometimes said to follow Zipf ’s law or a Pareto distribution, af- ter two early researchers who championed their study. Since power-law cumulative distributions imply a power- law form for p(x), “Zipf’s law” and “Pareto distribu- tion” are effectively synonymous with “power-law distribution”. (Zipf’s law and the Pareto distribution differ from one another in the way the cumulative distribution is plotted—Zipf made his plots with x on the horizon- tal axis and P (x) on the vertical one; Pareto did it the other way around. This causes much confusion in the literature, but the data depicted in the plots are of course identical)

Palavras-chave: cauda longa, long tail

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 2 usuários votaram. 2 votos | 4 comentários

setembro 08, 2008

user icon
Postado por Ewout ter Haar

No conto "o idioma analítico de john wilkins" o escritor Jorge Luiz Borges escreve "sabidamente não há classificação do universo que não seja arbitrária e conjectural". Um dos exemplos dados é "[...] certa enciclopédia chinesa intitulada Empório celestial de conhecimentos benévolos. Em suas remotas páginas está escrito que os animais se dividem em a) pertencentes ao Imperador, b) embalsamados, c) amestrados, d) leitões, e) sereias, f) fabulosos, g) cachorros soltos, h) incluídos nesta classificação, i) que se agitam feito loucos, j) inumeráveis, k) desenhados com um pincel finíssimo de pêlo de camelo, l) et cetera, m) que acabaram de quebrar o jarrão, n) que de longe parecem moscas." [outras inquisições, Jorge Luiz Borges, trad. Davi Arrigucci Jr., São Paulo: Companhia das Letras, 2007]

O Borges emprega o artifício retórica de caricatura para chamar atenção na arbitrariedade das nossas classificações. Somente taxonomistas biólogos tem uma justificativa real para classificar cada espécie num único gênero, classe, etc. Mesmo assim, segundo Richard Dawkins os debates entre taxonomistas são dos mais acrimoniosos. Ao resto de nós cabe lidar com o fato que não existe uma única maneira de descrever o mundo. Podemos no máximo dizer, com Platão, que algumas maneiras são mais "natural" do que outras.

A falta de classificações universais dificulta a vida de bibliotecários, que têm que colocar livros em num único lugar nas estantes. A solução adotada é o uso de índices (em cartões ou, mais tarde, sistemas informatizados) apontando para os livros físicos. Assim, desvinculando a informação sobre o livro da informação contido no livro, qualquer esquema de classificação pode ser implementado.

Informação em forma digital não ocupa espaço. Zillões de índices diferentes podem ser feitos sem custo. Esquemas de classificação por tags (palavras-chave) tem três diferenças em relação a organizações hierarquicas. Primeiro, um documento ou outra forma de informação digital pode ser associado a várias categorias (não ocupa espaço e pode estar em dois "lugares" ao mesmo tempo). Segundo, as classificações são tão baratas que cada indivíduo pode ter o seu. Os chamados folksonomias são classificações pessoais, todo mundo pode construir o seu próprio significado. Terceiro, folksonomias podem construidos colaborativamente. Língua, classificações e conceitos são feitos para se comunicar com outras pessoas e construir significado e compreensão juntos. É essencial combinar folksonomias com as ferramentas de interação social (via a Web por exemplo) para não perder de vista o aspecto social do conhecimento.

Na época que Borges escreveu, classificações do universo individuais eram possíveis somente para Imperadores. Agora todo mundo pode ter o seu Empório celestial de conhecimentos benévolos. Vou taggear as fotos das minhas gatas com "que acabaram de quebrar o jarrão".

Atualização: veja também http://www.w3.org/2001/09/01-borges

 

Palavras-chave: Borges, fap0459, folksonomias, gatos, que acabaram de quebrar o jarrão

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 1 usuário votou. 1 voto | 0 comentário

setembro 02, 2008

user icon
Postado por Ewout ter Haar

O dia antes da nona aula o Prof. Guédon visitou os escritórios do Scielo. Resumiu o que aprendeu: Scielo quer ser uma editora de revistas científicas com acesso aberto sério e internacional. Já tem 500 títulos, o que é um número respeitável, mesmo comparado com Elsevier (~2500 títulos). Segundo Guédon Scielo é o único projeto do "caminho de ouro" ao AA coherente, por ser financiado publicamente.

O fato é que um editor de uma revista Latino-Americana tem que fazer uma escolha bem claro: se adequar às normas de qualidade do Scielo ou procurar o seu próprio financiamento. O Guédon tinha duas sugustões: o Scielo usa uma linha de produção que inclui o uso de um monte de recursos humanos para transformar arquivos do tipo Word, QuarkExpress, etc para arquivos usando linguagens de marcação. O uso de um sistema de publicação baseado em XML é obrigatório (para poder re-usar e analisar os textos por meio de algoritmos) mas seria melhor de convencer os autores usar ODF e folhas de estilo para deixar o processo de conversão menos penoso. A segunda sugestão seria tentar envolver mais a comunidade (de editores, autores, etc.).

A questão da publicação baseado em XML e o uso de linguagens de marcação se insere muito bem no tema principal das aulas, acesso aberto. Recursos digitais naturalmente são "acesso aberto". Pode tentar fechar ou restringir o acesso, mas sempre vai ser um esforço. Tristemente, muitas publicadores ainda preferem usar uma "imitação digital' de papel, que não oferece todas as possibilidades de re-uso e análise de documentos verdadeiramente digitais.

Os desenvolvimento ainda mais importante do que acesso aberto decorrente da transção para o mundo digital será o uso computacional dos documentos recém liberados. Veja por exemplo a visão do Science Common expresso neste vídeo embutido embaixo. No futuro, não vamos necessariamente publicar em forma de "artigos". De qualquer maneira, a restrição ao numero de páginas é um resquício da era analógica, quando espaço físico ainda era uma limitação. 

Em vez de artigos, teremos "canais" ou um seminário virtual global e contínuo. Com a transição para a era digital temos uma oportunidade de modelar o diálogo científico. Podemos incentivar ou desincentivar determinados tipos de interações. O movimento de acesso aberto está no centro destas transformações.

Palavras-chave: acesso aberto, guédon

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 2 usuários votaram. 2 votos | 0 comentário

setembro 01, 2008

user icon
Postado por Ewout ter Haar

A web é o sistema de informação distribuído mais bem sucedido na história. Mas nem todo mundo aprendeu as lições da Web. Viram a última propaganda do Mastercard, aquela que a mulher jovem ensina mexer com a Internet a um grupo de velhinhos? O vídeo está online e queria salvar o link, para depois mostrar aos meus alunos. Queria mandar o link via email, queria dar o link para o vídeo aqui,  mas não posso. Em vez disso, vou ter que dizer: vai para http://www.naotempreco.com.br/ , clique no "Historias premiadas", clique no "Histórias que viraram comerciais na TV" e se tiver sorte, se fizer isto agora (e não, por exemplo, daqui a um ano) vai ver o vídeo. Parece que estamos nos anos 80, usando FTP!

Sites feito em Flash não fazem parte e não querem fazer parte da Web. A arquitetura da Web tem três pilares que sustentam a plataforma toda em cima do qual foram construídas tantas aplicativos: um protocolo, um formato e um esquema de identificação global. HTTP, HTML e URL respectivamente.

O protocolo HTTP define as mensagens com que servidor e cliente (o navegador, geralmente) se comunicam. A especificação do protocolo é aberta (pode ser implementado livremente por todo mundo, como todo protocolo da Internet) e simples, possibilitando a criação de uma grande variedade de software, feito por uma grande variedade de pessoas, para uma grande variedade de finalidades. Uma propriedade mais característica é o fato que o servidor não precisa manter "estado"acerca das mensagens trocados anteriormente com um cliente. Neste aspecto é como a peixe Doris no Procurando Nemo: toda requisição de um cliente é nova. Isto faz sistemas que usam HTPP "escalável" porque pode ter intermediários (cache, proxies) entre o cliente e o servidor.

O formato HTML é uma linguagem de marcação muito simples. A decisão de fazer da Web um espaço distribuído de documentos textuais possibilitou o efeito "ver código". Assim como grandes artistas roubam, milhões de autores iniciantes de sites começam com uma adaptação do código HTML dos outros. Como linguagem de marcação ou formato de hipertexto não é grandes coisas. Em particular, supostamente, hipertexto devia ser feito com ligações entre documentos, links, que são bi-direcionais para evitar links quebrados. Mas a possibilidade de fazer um link sem permissão e sem perguntar o dono do outro documento na verdade é uma grande virtude. Junto com a simplicidade de HTML, isto possibilita o crescimento rápido da Web de documentos inter-ligados.

O pilar mais importante da Web é o URL. É claro que para ter um sistema de informação global é preciso um identificador globalmente único. Mas o URL é mais do que isto: possibilita "endereçar" um recurso. Antes da Web, tinha ftp, um protocolo de transferência de arquivos. Para "endereçar" um arquivo dizia-se algo como "se loga como anônimo no servidor ftp.exemplo.com, vai para o diretório pub/exemplo/foo e inicia a transferência do arquivo bar". Ou seja, embora que o arquivo "bar" tinha, de certo modo, um endereço globalmente único, não tinha como dar facilmente instruções a uma máquina ou programa de buscar o arquivo. 

É isto a idéia fundamental do Tim Berners Lee: dar nomes (globalmente únicos) a recursos e construir sistemas usando estes recursos. Um dos sistemas era o "protocolo" de links entre documento do HTML: <a href="URL">link</a>. E é em cima deste protocolo que Google fez a sua fortuna, usando a estrutura do grafo dos documentos na Web para ranquear resultados de buscas e usando este superioridade para vender audiência a anunciantes de propagandas.

[Note bem: os nomes não indicam necessariamente um determinado "representação" do recurso. Não é como um nome de um arquivo, bar.doc por exemplo, que é o nome de uma determinada sequência de bytes que necessariamente tem que ser interpretado usando Microsoft Word. Não, o URL é o nome de um recurso, que pode ainda ter várias representações. ]

É irônico que Google virou um industria multi-bilionária vendendo uma aplicação da idéia do URL à indústria de propaganda e marqueting e este mesma indústria é o última que se está dando conta da importância do URL. Quem vai dizer aos marqueteiros que estão dando tiro no próprio pé?

Palavras-chave: tiro no pé, URL, web

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 0 comentário

agosto 28, 2008

user icon
Postado por Ewout ter Haar

É interessante ver os efeitos da internet na sociedade de uma maneira abstrata, mas conhecimento não vale nada se não pode colocar na prática as idéias. Segue então, em forma de receita, como registrar o seu domínio e começar a oferecer um serviço na Web.

Resumindo: 1. verficar disponibilidade 2. contratar serviço de hospedagem e 3. registrar o nome.

Verifcar disponibilidade

A primeira coisa a fazer é ter uma idéia (mesmo que seja vaga) para que vai usar o seu serviço Web e ver se o seu nome do domínio pretendido ainda está disponível. Para domínios .com.br, verifique a disponibilidade no Registo.br. Para outros domínios, verifique em qualquer um dos registrantes internacionais. Recomendo fazer via Google, por ser simples e em português (clique em  "Desejo comprar um nome de domínio"). Verificado a disponibilidade, vamos primeiro conseguir hospedagem e depois voltamos no registrante para terminar a compra do domínio.

Contratar hospedagem

Para "estar na Web" é preciso ter acesso a um computador conectado à internet. Mas o seu computador de casa não serve, por razões de confiabilidade e por que o seu proveder de acesso à internet não vai coloborar (o seu micro de casa deve ter IP dinâmica e largura de banda para upload pequena). Precisamos então contratar um serviço de hospedagem. Para começar, pode usar um serviço grátis. Se falar inglês, recomendo (mas aviso: conheço pouco temp) o serviço http://www.000webhost.com/ . Neste serviço, criar um conta e crie um "site" é muito simples e imediato. Para qualquer serviço de hospedagem, é necessário tomar nota dos nomes dos servidores DNS (servidor de nome. Neste caso, é ns01.000webhost.com e ns02.000webhost.co. Procure para o seu hospedagem quais os servidor de nomes deles, que vai precisar no próximo passo.

Registar o domínio

Finalmente, vamos registrar o domínio. No caso de um domínio .com.br faremos isto no registro.br. O primeiro passo é se cadastrar e se logar no site. Use uma senha boa!  O seu cadastro no registro.br é um dos mais importantes porque aqui vai poder controlar o seu domínio. Uma vez logado, escolhe a opção "Novos domínios" / Pessoa Física. Após aceitar o contrato, preenche o formulário. Use os dois nomes dos servidores de nome que pegou no passo anterior. Se tudo deu certo, requisições para oseudominio.com.br vão ser servidos pelo seu serviço de hospedagem do passo 2 dentro de uma hora.

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 0 comentário

agosto 26, 2008

user icon
Postado por Ewout ter Haar

Na aula de hoje investigamos como fazer o cadastro de um domínio na Internet e como ligar o domínio a um serviço de hospedagem. Mas a lição vai além dos detalhes técnicos de servidores Web e o sistema DNS.  A questão é: quem  determina o que você pode e não pode falar.

Acho que pode distinguir razoavelmente três camadas que governam as restrições de comunicação. As leis do país proíbem calúnia e outros crimes. Instituições como editoras de jornais, donos de rede de televisão, reitores de universidades, etc. tem grande poder sobre o que os seus empregados falam usando a infra-estrutura deles. E por fim tem as regras sociais de boa educação que impedem xingar o outro. 

O fato que podemos comprar (na verdade alugar) e  controlar o nosso próprio domínio é significativo na camada intermediária de instituições. Acesso ao serviço stoa.usp.br ou ao espaço web no servidor socrates.if.usp.br ainda implica, em princípio, a submissão às regras da USP e o Instituto da Física respectivamente. Tendo o seu próprio domínio é você que determina o conteúdo "a baixo do"  seu domínio. 

[Atualizado 28/8: na aula do noturno um aluno levou a questão de pedofelia e outros cirmes na rede, Bem lembrado: a internet tem grandes efeitos na camada de legislação também. O sociedade vai ter que lidar com avanços tecnologicas e adequar as Leis do pais às novas realidades. A polícia também tem que se adaptar às novas maneiras de infringir a Lei. Mas para os fins desta aula me concentrei na camada institucional, onde escolas e universidades se encontram]

É um exemplo de como escolhas tecnológicas influenciam diretamente nas estruturas da sociedade. O sistema DNS e os serviços feito em cima deste como email e a Web tem uma arquitetura distribuida e federada, em que a rede é organizado em forma de "servidores" com clientes. Os clientes são subordinados aos servidores que se comunicam entre si. Não tem controle centralizado sobre quem pode criar um servidor. Este é a organização de email, a Web e Mensagens Instantâneas (pelo menos os sistemas que falam XMPP). Creio que vai ser a arquitetura de redes sociais também. É uma maneira de organização intermediária entre estruturas hierárquicas e centralizados por um lado e estruturas completamente distribuidas como redes "peer to peer".

Na aula do diurno sorteiamos, das cinco propostas, experimentosdefisica.com.br para cadastrar. Ligamos o domínio a um serviço de hospedagem grátis (sugestão de Henrique). Agora precisamos decidir que serviços e informação disponibilizar lá...

Atualizado 28/8: No noturno uma sugestão era fisicaparatodos.com.br, mas este domínio já está registrado (por uma editora, aparentemente). Aí, surgiu a idéia de registrar fisicaforro.com.br, mas na última hora turma mudou de idéia e preferiu ensinodefisica.com.br. Liguei este domínio também ao serviço de hospedagem 000webhost.com: agora temos páginas "default" (veja http://ensinodefisica.com e http://experimentosdefisica.com.br) lá e precisamos colocar alguma coisa. 

Palavras-chave: arquitetura federada, DNS, fap0459, meios de comunicação, web

Postado por Ewout ter Haar | 1 usuário votou. 1 voto | 0 comentário

agosto 22, 2008

user icon
Postado por Ewout ter Haar

Na quinta aula tratamos das orígens do movimento de Acesso Aberto e como sempre houve duas visões de como melhor chegar ao objetivo de acesso universal à literatura científica. Na sexta aula foi discutido o caminho do aprimoramento do modelo de publicação via revistas científicas (o chamado "caminho de ouro"). Prof. Guédon discutiu empreendimentos como PLOS, Hindawi mas ressaltou que estes modelos onde o autor paga (até $3000 por artigo) seriam no máximo uma fase de transição. Um modelo melhor para o caminho de ouro é a iniciativa Brasileira Scielo, onde tanto a pesquisa como a sua publicação é financiada publicamente.

Nesta aula investigaremos o chamado "caminho verde": o modelo de repositórios onde o autor deposita o seu trabalho (talvez após ser revisado por pares e publicado numa revista tradicional).

Todo mundo e cientistas em particular compartilham idéias naturalmente. A tradição de compartilhamento, aliado à necessidade de cientistas de ser visível e estabelecer prioridade fazem de repositórios candidatos naturais para ter um papel importante no diálogo científico. Mas não foi isto que ocorreu. Apesar da vantagem de maior visibilidade, cientistas não colocam os seus artigos voluntariamente em repositórios institucionais (em contraste com pequenas e homogêneas comunidades como a de físicos de altas energias que usam repositórios especializados).

Uma explicação para este contradição é a história de repositórios institucionais. Sendo pago com dinheiro da instituição, os administradores começaram colocar todo tipo de conteúdo digital neles, de teses, relatórios, material didático, etc. etc. tornando o repositório menos útil para o pesquisador buscando literatura. Uma recomendação importante para o desenho de repositórios (institucionais em particular) é tornar fácil separar pelo menos três tipos de conteúdo: artigos que passaram pelo processo de revisão por pares, teses e o resto.

Tem várias outras maneiras de melhorar a interface dos repositórios, mas um fator de extrema importância para cientistas é o seu lugar num ranqueamento, já que empregadores, comissões decidindo sobre promoções etc. não gostam de avaliar qualidade em sua forma multi-facetada e preferem usar simples indicadores numéricos. Revistas tradicionais, com a sua reputação, fator de impacto, etc. exercem este papel muito bem. A pergunta para desenvolvedores e administradores de repositórios é como reproduzir a função de ranqueamento.

Na verdade, repositórios representam uma oportunidade para deixar os rankings mais transparente e honestos. Já vimos que a reputação conferida via as revistas tradicionais era altamente influenciado e até determinado pelas escolhas do Science Citation Index. Assim, os rankings favorecem pesquisa em língua inglesa, no mundo occidental, feito segundo os critérios do Thompson, etc. etc.

Repositórios poderiam reverter este quadro. Poderiam publicar as suas estatísticas de acesso, criar outros mecanismos para chamar atenção em determinados artigos, criar sistemas de recomendação. Acesso Aberto se trata de mais do que somente acesso: pode melhorar o nosso sistema de produção de conhecimento e reverter os sistemas de poder que atualmente determinam quem tem acesso a conhecimento e dizem o que vale a pena saber.

Após a pausa Prof. Guédon  discutiu a interessantíssima questão dos mandatos, sistemas onde pesquisadores são obrigados pelos seus financiadores ou instituições de depositar o seu trabalho em repositórios com Acesso Aberto, mas não pude ficar infelizmente.

Palavras-chave: acesso aberto, guédon, repositórios

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 0 comentário

user icon
Postado por Ewout ter Haar

Na quarta aula vimos alguns dos efeitos de digitalização e tecnologia de rede sobre o universo de comunicação científica. Nesta aula veremos como bibliotecas, as editoras e pesquisadores reagiram a estas mudanças.

As Editoras contra as Bibliotecas

Em 1991 Reed-Elsevier entrou no mundo digital com uma experiência nova. TULIP era um sistema de distribuição de revistas por meio de discos óticos. As páginas eram disponibilizadas por meio de arquivos TIFF, um formato de imagens. Assim, as bibliotecas não podiam fazer o seu próprio índ/ice por exemplo e a única utilidade era imprimir as páginas. A restrição ainda mais importante porém era o L no acrônimo: em vez de comprar as revistas, as bibliotecas agora licenciaram as revistas. Em vez de legislação de direitos autorais (que, bem ou mal inda dá certas liberdades ao uso para fins educativos e científicos) agora temos legislação contratual.

O objetivo das editoras é claro: reconheçam as realidades do novo mundo digitalizado mas tentam mesmo assim limitar a re-distribuição, não dão acesso ao texto das revistas e restringem até a impressão dos artigos por causa do formato extremamente pesado (posteriormente PDF, um outro formato relativamente opaco, virou a maneira mais comum de distribuir documentos).

Para as bibliotecas a nova estratégica é perigosa:

  1. Obviamente é perigoso de não ser dono da sua coleção de revistas. O papel tradicional de preservação que bibliotecas sempre tiveram fica agora em mãos de empresas comerciciais com interesses de curto prazo.
  2. Um perigo mas sutil é que agora as bibliotecas tiveram que negociar contratos e licenças em vez de um simples compra. Do ponto de vista de gerência negociar um contrato é muito mais complicado.

É por causa deste último ponto (e o aumento desenfreado dos preços escritos na aula anterior) que surgiram os consórcios de bibliotecas para fazer frente contra as editoras. Como qualquer negociação, sempre uma boa idéia se juntar para fortalecer a sua posição de negociação. Guédon descreve o caso do consórcio de bibliotecas Canadenses. O CLA inicialmente teve alguns sucessos expressivas, conseguindo usar o seu poder de barganha contra o ISI-Thomson por exemplo. Mas na avaliação do Guédon, no final das contas as editoras mantiveram basicamente a sua posição de poder. Por causa de rachaduras na frente e preocupações por parte dos bibliotecários de aparecer "não cooperativos", as editoras ainda fazem basicamente o querem.

Uma exemplo é o chamado "grande negócio", a idéia das editoras de oferecer milhares de títulos para um preço somente um pouco maior do que as bibliotecas estavam pagando anteriormente. A final das contas isto é uma mau negócio porque não sobra dinheiro para as bibliotecas comprar revistas de editoras menores ou associações científicas e assim concentra ainda mais o controle da comunicação científica nas mãos das grandes editoras comerciais.

Pesquisadores contra as Editoras

Tendo visto as conseqüências da digitalização para as bibliotecas e a reação das editoras a pergunta surge: como os pesquisadores foram afetados e como reagiram? Alguns cientistas começaram usar as novas tecnologias imediatamente para disseminar os seus textos em escala global. Afinal das contas, visibilidade interesse muito para cientístas e a Web em particular ofereceu a possibilidade de visibilidade em escala global.

No iníco dos anos noventa surgiram algumas revistas científicas novas publicadas eletronicamente. Por causa desta experiência ficou claro para alguns que acesso unversal à literatura não tinha mais nenhum impedimento técnico ou econômico e que as editoras, em vez de ser aliados na "grande conversa científica" na verdade eram adversários querendo proteger o seu modelo de negócios a qualquer custo. Apesar do sentimento de liberação que as novas tecnologias proporcionaram tinha ainda uma grande frustração por depender das editoras e as suas revistas de grande "impacto" ("publish or perish").

É neste clima que o movimento de Acesso Aberto começa, por volta do ano 2000, com uma petição pedindo o acesso livre um ano após a data de publicação. Em retrospecto a petição foi ingênuo (as editoras simplesmente ignoraram) mas serviu para colocar a questão na mesa. Em dezembro de 2001, numa reunião patrocinado pelo Instituto da Sociedade Aberta do George Soros, um grupo de cientístas fizeram a declaração de Budapest, afirmando que a hora chegou para liberar acesso à literatura científica para todos.

Dois caminhos para Acesso Aberto

Desde o início do movimento AA há pelo menos duas visões de como se aproximar ao ideal de participação de todos às conversas científicas. Um caminho é adequar as revistas científicas às novas realidades da era digital. O outro caminho seria por meio de chamados repositórios*, onde os próprios autores depositam os seus trabalhos.

O caminho do aperfeiçoamento das revistas levou a revistas e editoras completamente novas como PLOS (tendo um modelo de negócios do tipo NGO) e também editoras comerciais como Hindawi (com modelo de negócio comercial). Até as editoras tradicionais tiveram que ceder e em 2008 da ordem de 30% permitam o depósito em repositórios por parte dos autores. Novas questões surgem: qual é a versão canônica do artigo? Se a versão canônica é a versão preparada pela editora, como citar uma
determinada página, se a versão canônica ainda está atrás dos muros das editoras?

Enquanto isso, a tecnologia dos repositórios ficou mais difundido. A partir de 2003 e 2004 as bibliotecas, ao exemplo dos repositórios especializados e pioneiros como Arxiv, começaram implementar repositórios institucionais. Era a volta do papel tradicional de bibliotecas de arquivamento do conhecimento. Mas o que aconteceu foi que para justificar os custos da gestão do sistema todo e qualquer produção das Universidades começou ser depositados nestes repositórios institucinais. Acoplado a interfaces de busca e navegação falhas, isto levou a uma diluição (do ponto do vista do pesquisador) do material "nobre". Já que o que um pesquisador quer e precisa é visibilidade, repositórios instituicionais perderam o sentido para ele.

Resumindo: o movimento para Acesso Aberto é uma das consequências surpreendentes da era de digitalização. Assim como a Imprensa mudou fundamentalmente a sociedade 500 anos atrás a digitalização vai mudar a nossa e o movimento de AA é um dos manifestações destas mudanças.

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 1 usuário votou. 1 voto | 0 comentário

agosto 21, 2008

user icon
Postado por Ewout ter Haar

Veja, no blog do David Weinberger, vinte coisas que ele roubou. Os meus favoritos:

  • 7: When a friend’s cat chose my lap to sit in, I petted it, precisely to discourage it from moving to the lap of its rightful owner.(quando o gato do meu amigo sentou no meu colo, dei carinho, justamente para impedir o gato ir para o colo do seu dono legítimo)
  • 8: I said “What a long, strange trip it’s been” without air quotes. (Não adianta traduzir)
  • 10: I have stared carefully at reproductions of great paintings. (Mirei com atenção reproduções de grandes quadros)
Não tenho mais comigo o primeiro livro de Stephen Fry, "The Liar" (nunca empreste livros) mas o protagonista diz, ao ser desafiado de produzir uma idéia original "ah, vai ser fácil, a biblioteca deve estar cheio delas".

Palavras-chave: propriedade intelectual

Postado por Ewout ter Haar | 3 usuários votaram. 3 votos | 3 comentários

agosto 12, 2008

user icon
Postado por Ewout ter Haar

Na terceira aula vimos como a combinação da invenção do chamado "Science Citation Index" e o surgimento de editoras comerciais criou mercados inelasticos e o grande aumento de preços. Se por um lado as dificuldades para acessar informação científico aumentaram, houve um outro desenvolvimento do final do século 20 com um potencial equilibradora : a digitalização de dcoumentos e tecnologia de redes.

A digitalização de documentos e informação em geral começou após a segunda guerra mundial e ainda estamos sentindo os profundos efeitos na sociedade. Ainda estamos no "incunábulo"  da era digital. Isto quer dizer que a sociedade ainda está se adaptando à nova realidade e vai demorar mais para incorporar a nova maneira de pensar que digitilização de informação possibilita.

É interessante tentar enxergar paralelos entre o século 15 e a invenção da imprensa e a atual digitalização de informação. No século 15 livros eram visto como objetos bem estáveis e representavam a memória de uma cultura. Assim, os primeiros livros que foram feitos após a invenção da imprensa eram livros considerados "importantes" ou "grandes obras" como a bíblia. Mas na verade a nova tecnologia era bem adequada para obras de caráter menos duradouro. A forma particular de ficção que chamamos de Romance foi inventado com o Quixote no início do século 17. Durante pelo menos 200 anos, ficção era visto como um passatempo frívolo e meio escandaloso. Poderíamos fazer uma analogia com jogos de computador e videogame hoje em dia. Veja quanto tempo demora para uma cultura absorver e entender as possibilidades de uma nova tecnologia. Sempre demora mais e as mudanças são mais profundas do que conseguimos imaginar.

Nos anos 80 do século vinte surgiu computação pessoal. No presente contexto o que importa é que de repente virou possível para qualquer um fazer processamento de texto e editoração. O que era uma profissão hermético e especializada virou divertimento de massa. É uma revelação para qualquer um que já usou um programa de editoração de ver como a aparência do texto afeta a sua interpretação. Ao mesmo tempo, impressoras viraram muito baratas, democratizando ainda mais a distribuição de textos impressos.

Alguns pioneiros começam no final dos anos 80 experimentar com tecnologia de publicação pessoal para criar novos jornais
científicos. Nestas alturas era praticamente impossível começar um jornal convencional novo por causa dos altos custos iniciais. Veja a experiência do próprio Prof. Guédon que criou o que deve ser um dos primeiros jornais científicos online (um jornal de crítica literário, ainda por cima!). Começou com um simples espaço num servidor ftp onde colocou arquivos Word, WordPerfect e ASCII. As dificuldades para o seu público (pesquidores da área de ciências humanas!) eram enormes: os leitores precisavam aprender ftp, decodificar os arquivos, ter a versão do processador de texto apropriado, etc. etc. O formato da informação em forma digital é muito mais importante do que em forma impressa. Ironicamento o formato com menos dificuldades de transmissão e preservação era o ASCII.

A tecnologia de rede não estava parada e a revista começou usar outras tecnologias de rede como Gopher (desprezando por enquanto a Web, um competidor na época por usar um formato de documento muito limitado). Descobriram o erro quando a Universidade de Minnesota queria impor licenças sobre o uso do software gopher e tudo mundo começou usar a Web. Migraram então os documentos para HTML mas este formato, embora muito adequado para documentos digitais, estava evoluindo muito rápido. Como manter uma revista científica com a pretensão de funcionar como memória de uma comunidade quando é preciso atualizar o formato dos documentos anualmente?

Aqui entra a questão de preservação digital. Livros e material impresso se conserva relativamente bem (em circuntstâncias de "benign neglect" ou neglicência sem maldade). Mas informação digital precisa ser preservado *ativamente* porque as mídas físicas e formatos lógicos mudam tão rápidamente. Tem duas estratégicas básicas: a migração continuada para formatos novos e virtualização dos tocadores. Mas de um ponto de vista mais abrato é preciso o equivalente de monges: uma cultura em volta dos documentos que mantém eles vivos.

Apesar das dificuldades, o fato surpreendente é que foi possível criar uma revista sem as editoras tradicionais e que o acesso à revista foi muito ampliado pelo uso da tecnologia de rede.

Somente uma das muitas dificuldades era a questão de páginas. Como citar o número de página quando o formato não tem este conceito? Texto em forma digital não precisa ser organizado em forma de páginas mas este resquício da era da impressão continua muito vivo na nossa cultura (e na cultura acadêmica ainda mais).

Veja o caso de PDF (page description format), um formato que nega a sua vocação digital e insiste na tecnologia de páginas inventado no século 3 por Orígenes. Não é por acaso que a velha mídia e as velhas editoras - se são forçados pelo mercado
distribuir os seus produtos em forma digital - preferam usar o formato PDF. É o formato que está mais próxima ao mundo da impressão. É claro que não é somente uma questão de velha mídia contra nova mídia. Os próprios consumidores e público demanda tecnologia de transição. Segundo o autor do livro "Libraries of the Future" (1965) o livro tem ainda uma longa e próspero futuro porque o que importa não é tecnologia mas o interface e a página é um interface muito bom.

Na quinta aula veremos como as editoras, bibliotecas e pesquisadores reagiram às mudanças fundamentais do mundo digitalizado.

Palavras-chave: guédon, preservação digital

Esta mensagem está sob a licença CreativeCommons Atribuição.

Postado por Ewout ter Haar | 1 usuário votou. 1 voto | 0 comentário

<< Anterior Próxima >>