Você já brincou de explorar o Ngram Viewer do Google Labs? É uma ferramenta viciante que permite a você pesquisar por palavras e ideias em u...
Você já brincou de explorar o Ngram Viewer do Google Labs? É uma ferramenta viciante que permite a você pesquisar por palavras e ideias em um banco de dados de 5 milhões de livros através dos séculos. Erez Lieberman Aiden e Jean-Baptiste Michel mostram como funciona, e algumas coisas surpreendentes que podemos aprender de 500 bilhões de palavras.
Erez Lieberman Aiden: Todos sabem que uma imagem vale mil palavras. Mas nós em Harvard estávamos questionando se é mesmo verdade. (Risos) Assim montamos uma equipe de peritos, desde Harvard, MIT, The American Heritage Dictionary, Enciclopédia Britânica e mesmo nossos orgulhosos patrocinadores, o Google.
E pensamos sobre isto por cerca de 4 anos. Chegamos a uma surpreendente conclusão.
De fato, encontramos algumas imagens que valem 500 bilhões de palavras.
Jean-Baptiste Michel: Como chegamos a esta conclusão? Erez e eu pensávamos em maneiras de obter uma grande imagem da cultura e história humana: a mudança através dos tempos.
Muitos livros tem sido escritos ao longo dos anos. Pensávamos, a melhor maneira de aprender com eles é ler todos estes milhões de livros.
Naturalmente, se há uma medida do incrível que isso é, teria que ser colocado lá em cima. O problema é que existe um eixo-X para isso, que é o eixo da praticidade. Que é muito, muito baixa. (Aplausos)
As pessoas costumam usar um método alternativo, que seria pegar algumas fontes e lê-las cuidadosamente. É extremamente prático, mas nem um pouco incrível. O que realmente se quer fazer é alcançar o incrível junto com a parte prática deste espaço.
Aconteceu que havia uma empresa próxima chamada Google que iniciou um projeto de digitalização alguns anos antes que poderia viabilizar este método. Eles haviam digitalizado milhões de livros. O que significa, que alguém poderia usar métodos computacionais para ler todos os livros com um clique de botão.
Isso é muito prático e extremamente incrível.
E.L.A.: Permitam-me contar um pouco de onde os livros vêm. Desde tempos imemoriais, existem os autores. Estes autores tem se esforçado para escrever livros. O que se tornou consideravelmente mais fácil com o desenvolvimento da imprensa alguns séculos atrás. Desde então, os autores venceram em 129 milhões de ocasiões distintas, publicando livros.
Agora, se esses livros não se perderam na história, então eles estão em algum lugar em uma biblioteca, e muitos deles estão sendo recuperados das bibliotecas e digitalizados pelo Google, que escaneou 15 milhões de livros até agora.
Quando o Google digitaliza, eles o colocam em um formato muito legal. Agora temos a informação, e temos os metadados. Temos informações sobre coisas como onde foi publicado, quem era o autor, quando foi publicado.
E o que fazemos é percorrer todos estes registros e excluir tudo que não seja informação de alta qualidade.
O que permanece é uma coleção de 5 milhões de livros, 500 bilhões de palavras, uma sequência de caracteres mil vezes maior que o genoma humano – um texto que, quando escrito, se estenderia daqui até a Lua e de volta mais de 10 vezes – um verdadeiro fragmento de nosso genoma cultural.
Claro que fizemos quando encaramos tal ultrajante hipérbole... (Risos) foi o que qualquer pesquisador com respeito próprio teria feito.
Pegamos uma webcomic do XKCD, e dissemos, "Afastem-se. Vamos tentar a ciência." (Risos)
J.M.: Naturalmente, nós pensamos, primeiro vamos mostrar os dados para que as pessoas façam ciência com eles.
Depois pensamos, que informação podemos liberar? Naturalmente, você quer pegar os livros e liberar o texto completo destes 5 milhões de livros.
Aí o Google, e Jon Orwant em especial, falaram sobre uma equação que devíamos aprender.
Ainda que fosse muito, mas muito incrível, de novo, é extremamente, extremamente impraticável.
(Risos)
Então, nós meio que nos aprofundamos, e fizemos uma alternativa prática, que foi só um pouco menos incrível.
Falamos, ao invés de liberar o texto completo, vamos liberar estatísticas sobre os livros. Peguem, por exemplo, “Um brilho de felicidade”. São 4 palavras: nós chamamos de 4-grama.
Vamos dizer a vocês quantas vezes um 4-grama em especial apareceu nos livros em 1801, 1802, 1803, até chegar em 2008.
Isso nos dá uma linha de tempo da frequência com que esta frase foi utilizada através dos tempos.
Fizemos isso para todas as palavras e frases que aparecem nos livros, o que nos dá uma grande tabela de 2 bilhões de linhas que nos conta como a cultura tem se modificado.
ELA: Essas 2 bilhões de linhas, nós chamamos de 2 bilhões de n-gramas.
O que eles nos dizem? Os n-gramas individuais medem as tendências culturais.
Permitam-me dar um exemplo. Suponhamos que eu esteja prosperando. e amanhã eu queira contar como eu me dei bem.
Em inglês eu diria, “Ontem, eu 'throve'.” Ou eu poderia dizer, “Ontem, eu 'thrived'.” Qual deles eu deveria usar? Como saber? Como cerca de 6 meses atras, o estado de arte nesta matéria seria, por exemplo, ir até este psicólogo com um cabelo fabuloso, e dizer: “Steve, você é um expert em verbos irregulares. O que eu devo fazer?” E ele diria, “Bem a maioria diria 'thrived', mas algumas diriam 'throve'.” E vocês também sabem, talvez, que se voltassem no tempo 200 anos e perguntassem a esse estadista também de cabelo fabuloso, (Risos) “Tom, o que devo falar?” Ele diria, “No meu tempo a maioria dizia 'throve', mas alguns 'thrive'.” Agora o que vou lhes mostrar são dados crus.
Duas linhas desta tabela de 2 bilhões de lançamentos.
O que estão vendo é a frequencia ano a ano de “thrived” e “throve” através dos tempos.
Isso são apenas duas de 2 bilhões de linhas.
Assim o conjunto completo de dados é 2 bilhões de vezes mais incrível que esse slide.
(Risos) (Aplausos)
J.M.: Existem muitas outras imagens que valem 500 bilhões de palavras. Por exemplo, esta aqui.
Se você escolher “influenza”, verá picos nas épocas onde se sabe de grandes epidemias de gripe que mataram pessoas pelo mundo.
E.L.A.: Se vocês ainda não se convenceram, o nível dos mares está subindo, junto com o CO2 na atmosfera e a temperatura global.
J.M.: Vocês também podem querer dar uma olhada neste n-grama, que diz ao Nietzsche que Deus não morreu, apesar que ele podia ter um publicitário melhor.
(Risos)
E.L.A.: Se pode entender alguns conceitos bem abstratos com essa coisa.
Por exemplo, permitam-me contar a história do ano de 1950. Durante todo o transcurso da história, ninguém dava a mínima para 1950.
Em 1700, em 1800, em 1900, ninguém ligava.
Nos anos 30 e 40, ninguém ligava.
De repente, no meio dos anos 40, começou um rumor.
As pessoas perceberam que 1950 viria, e que seria algo grande.
(Risos)
Nada interessou tanto às pessoas em 1950 como o ano 1950.
(Risos)
As pessoas caminhavam obcecadas.
Não podiam parar de falar sobre as coisas que fizeram em 1950, tudo o que estavam planejando para 1950, todos os sonhos que queriam alcançar em 1950.
De fato, 1950 foi tão fascinante que nos anos seguintes, as pessoas continuavam falando sobre as coisas incríveis que aconteceram, em 51, 52, 53.
Finalmente em 1954, alguém acordou e percebeu que 1950 tinha ficado algo 'passé'.
(Risos)
E de repente, a bolha estourou.
(Risos)
A história de 1950 é a história de todo ano que temos registro, com um toque a mais, porque agora temos estes gráficos.
E porque temos estes gráficos bacanas, podemos medir coisas. Podemos dizer, “Quão rápido a bolha estourou?” E acontece que podemos medir muito precisamente.
Equações foram derivadas, gráficos foram produzidos, e o resultado líquido é que descobrimos que a bolha estoura cada vez mais rápido a cada ano que passa.
Perdemos interesse no passado cada vez mais rápido.
J.M.: Agora uma dica para a carreira.
Aqueles de vocês que procuram ser famosos, podemos aprender com as 25 personalidades mais famosas, políticos, autores, atores e demais.
Se você quer se tornar famoso cedo, deveria ser um ator, porque sua fama começa ao final dos vinte anos – você ainda é jovem, é muito bom.
Agora se quiser esperar um pouco, deveria ser autor, porque assim você alcançará grandes alturas, como Mark Twain, por exemplo, extremamente famoso.
Mas se você quiser alcançar mesmo o topo, deveria postergar o reconhecimento e, claro, tornar-se um político.
Assim, você se torna famoso no final dos seus 50, e se torna muito, muito famoso depois.
Cientistas também tendem a ficar famosos quando são mais velhos.
Por exemplo, biólogos e físicos tendem a ser tão famosos quanto atores.
Um erro que vocês devem evitar é serem matemáticos.
(Risos)
Se fizerem isso, podem pensar, "Ótimo. Farei meu melhor trabalho quando estou com 20 anos."
Mas olha só, ninguém quer saber.
(Risos)
E.L.A.: Existem notas mais sérias entre os n-gramas.
Por exemplo, eis a trajetória de Marc Chagall, artista nascido em 1887. Parece a trajetória normal de uma pessoa famosa. Ele fica mais e mais e mais famoso, exceto se pesquisar em alemão.
Se pesquisar em alemão, verá algo totalmente bizarro, algo que nunca se vê, que é ele se tornar extremamente famoso e de repente despenca, chegando ao fundo do poço entre 1933 e 1945, antes de retornar com tudo.
Estes sinais são na verdade tão fortes que não precisamos saber que alguém foi censurado. Podemos ter uma ideia usando até um básico processamento de sinais. Eis um modo simples de fazer.
Uma expectativa razoável é que a fama de alguém em um período de tempo deveria ser mais ou menos a média de sua fama antes e da fama depois.
É algo assim o que esperamos. E comparamos isso com a fama que observamos. E dividimos uma pela outra para produzir algo que chamamos de índice de supressão.
Se o índice é muito, mas muito pequeno, você pode muito bem estar sendo suprimido. Se for muito grande, você pode estar se beneficiando com a propaganda.
J.M.: Agora vocês podem até mesmo ver a distribuição dos índices de supressão de populações inteiras.
Por exemplo, aqui – este índice é para 5.000 pessoas escolhidas em livros ingleses onde não existe supressão conhecida – seria assim, basicamente centrada no 1.
O que se esperava é basicamente o que observamos. Esta é a distribuição vista na Alemanha – bem diferente, é desviada para a esquerda.
As pessoas falaram menos que o dobro do costumeiro. Mais importante, a distribuição é mais extensa.
Existem muitas pessoas que acabaram no lado esquerdo desta distribuição que são faladas cerca de 10 vezes menos do que deveriam ter sido.
E também muitas pessoas bem à direita que parecem ter se beneficiado da propaganda.
Esta imagem é a marca da censura no registro de livros.
E.L.A.: Cultorômica é como chamamos este método.
É como se fosse a genômica. Só que a genômica é uma lente para que a biologia veja através da janela de sequencias das bases no genoma humano.
Cultorômica é parecido.
É aplicação da análise da enorme quantidade de informações coletadas para estudo da cultura humana.
Ao invés de olharmos através das lentes de um genoma, olhamos através de pedaços digitalizados do registro histórico.
O bom da culturômica é que todos podem participar. Por que todos podem? Todos podem porque três caras, Jon Orwant, Matt Gray e Will Brockman no Google, viram o protótipo do Visualizador de N-Gramas, e disseram, “Isso é bem divertido. Temos que disponibilizar para as pessoas.”
Em exatamente 2 semanas – antes de nosso artigo ser publicado – eles programaram uma versão do Visualizador para o público em geral.
Assim vocês podem digitar qualquer palavra ou frase que se interessarem e imediatamente podem ver o n-grama – e também listar exemplos de todos os muitos livros nos quais o seu n-grama aparece.
J.M.: Já foi utilizado mais de um milhão de vezes no primeiro dia, e é de fato a melhor de todas as procuras. As pessoas querem ser as melhores, se destacar.
O que aconteceu, é claro, foi apenas um equívoco. Não é um esforço pela mediocridade, apenas o 'S' costumava ser escrito diferente, quase um 'F'.
Lógico, o Google não pegou isso na ocasião, assim nós relatamos no artigo científico que escrevemos.
Mas se tornou um lembrete de que, mesmo sendo muito divertido, quando se interpreta estes gráficos, temos que ter cuidado, e vocês tem que adotar os métodos básicos da ciência.
E.L.A.: Pessoas o tem utilizado para todo tipo de propósito.
(Risos)
Na verdade, não precisaremos falar, vamos apenas mostrar todos os slides e ficar em silêncio. Esta pessoa estava interessada na história da frustração.
Existem vários tipos de frustração. Se você esfolar o dedo do pé, É um “ai” com um 'A'. Se a Terra é aniquilada pelos Vogons pra dar lugar à um atalho interestelar, é um “aaaaaaaai” com 8 'A's. Esta pessoa estudou todos os “ais”, de 1 até 8 'A's.
E acontece que os “ais” menos frequentes são os que correspondem às coisas mais frustrantes – exceto, curiosamente, no começo dos anos 80.
Achamos que deve ter algo a ver com o Reagan.
(Risos)
J.M.: Existem muitos usos para estas informações, mas o principal é que o registro histórico está sendo digitalizado.
Google começou a digitalizar 15 milhões de livros.
Fonte:
[Visto no Brasil Acadêmico]
Erez Lieberman Aiden: Todos sabem que uma imagem vale mil palavras. Mas nós em Harvard estávamos questionando se é mesmo verdade. (Risos) Assim montamos uma equipe de peritos, desde Harvard, MIT, The American Heritage Dictionary, Enciclopédia Britânica e mesmo nossos orgulhosos patrocinadores, o Google.
E pensamos sobre isto por cerca de 4 anos. Chegamos a uma surpreendente conclusão.
Senhoras e senhores, uma imagem não vale mil palavras.
De fato, encontramos algumas imagens que valem 500 bilhões de palavras.
Jean-Baptiste Michel: Como chegamos a esta conclusão? Erez e eu pensávamos em maneiras de obter uma grande imagem da cultura e história humana: a mudança através dos tempos.
Muitos livros tem sido escritos ao longo dos anos. Pensávamos, a melhor maneira de aprender com eles é ler todos estes milhões de livros.
Naturalmente, se há uma medida do incrível que isso é, teria que ser colocado lá em cima. O problema é que existe um eixo-X para isso, que é o eixo da praticidade. Que é muito, muito baixa. (Aplausos)
As pessoas costumam usar um método alternativo, que seria pegar algumas fontes e lê-las cuidadosamente. É extremamente prático, mas nem um pouco incrível. O que realmente se quer fazer é alcançar o incrível junto com a parte prática deste espaço.
Aconteceu que havia uma empresa próxima chamada Google que iniciou um projeto de digitalização alguns anos antes que poderia viabilizar este método. Eles haviam digitalizado milhões de livros. O que significa, que alguém poderia usar métodos computacionais para ler todos os livros com um clique de botão.
Isso é muito prático e extremamente incrível.
E.L.A.: Permitam-me contar um pouco de onde os livros vêm. Desde tempos imemoriais, existem os autores. Estes autores tem se esforçado para escrever livros. O que se tornou consideravelmente mais fácil com o desenvolvimento da imprensa alguns séculos atrás. Desde então, os autores venceram em 129 milhões de ocasiões distintas, publicando livros.
Agora, se esses livros não se perderam na história, então eles estão em algum lugar em uma biblioteca, e muitos deles estão sendo recuperados das bibliotecas e digitalizados pelo Google, que escaneou 15 milhões de livros até agora.
Quando o Google digitaliza, eles o colocam em um formato muito legal. Agora temos a informação, e temos os metadados. Temos informações sobre coisas como onde foi publicado, quem era o autor, quando foi publicado.
E o que fazemos é percorrer todos estes registros e excluir tudo que não seja informação de alta qualidade.
O que permanece é uma coleção de 5 milhões de livros, 500 bilhões de palavras, uma sequência de caracteres mil vezes maior que o genoma humano – um texto que, quando escrito, se estenderia daqui até a Lua e de volta mais de 10 vezes – um verdadeiro fragmento de nosso genoma cultural.
Claro que fizemos quando encaramos tal ultrajante hipérbole... (Risos) foi o que qualquer pesquisador com respeito próprio teria feito.
Pegamos uma webcomic do XKCD, e dissemos, "Afastem-se. Vamos tentar a ciência." (Risos)
J.M.: Naturalmente, nós pensamos, primeiro vamos mostrar os dados para que as pessoas façam ciência com eles.
Depois pensamos, que informação podemos liberar? Naturalmente, você quer pegar os livros e liberar o texto completo destes 5 milhões de livros.
Aí o Google, e Jon Orwant em especial, falaram sobre uma equação que devíamos aprender.
Você tem 5 milhões, que são, 5 milhões de autores e 5 milhões de queixosos é um processo e tanto.
Ainda que fosse muito, mas muito incrível, de novo, é extremamente, extremamente impraticável.
(Risos)
Então, nós meio que nos aprofundamos, e fizemos uma alternativa prática, que foi só um pouco menos incrível.
Falamos, ao invés de liberar o texto completo, vamos liberar estatísticas sobre os livros. Peguem, por exemplo, “Um brilho de felicidade”. São 4 palavras: nós chamamos de 4-grama.
Vamos dizer a vocês quantas vezes um 4-grama em especial apareceu nos livros em 1801, 1802, 1803, até chegar em 2008.
Isso nos dá uma linha de tempo da frequência com que esta frase foi utilizada através dos tempos.
Fizemos isso para todas as palavras e frases que aparecem nos livros, o que nos dá uma grande tabela de 2 bilhões de linhas que nos conta como a cultura tem se modificado.
ELA: Essas 2 bilhões de linhas, nós chamamos de 2 bilhões de n-gramas.
O que eles nos dizem? Os n-gramas individuais medem as tendências culturais.
Permitam-me dar um exemplo. Suponhamos que eu esteja prosperando. e amanhã eu queira contar como eu me dei bem.
Em inglês eu diria, “Ontem, eu 'throve'.” Ou eu poderia dizer, “Ontem, eu 'thrived'.” Qual deles eu deveria usar? Como saber? Como cerca de 6 meses atras, o estado de arte nesta matéria seria, por exemplo, ir até este psicólogo com um cabelo fabuloso, e dizer: “Steve, você é um expert em verbos irregulares. O que eu devo fazer?” E ele diria, “Bem a maioria diria 'thrived', mas algumas diriam 'throve'.” E vocês também sabem, talvez, que se voltassem no tempo 200 anos e perguntassem a esse estadista também de cabelo fabuloso, (Risos) “Tom, o que devo falar?” Ele diria, “No meu tempo a maioria dizia 'throve', mas alguns 'thrive'.” Agora o que vou lhes mostrar são dados crus.
Duas linhas desta tabela de 2 bilhões de lançamentos.
O que estão vendo é a frequencia ano a ano de “thrived” e “throve” através dos tempos.
Isso são apenas duas de 2 bilhões de linhas.
Assim o conjunto completo de dados é 2 bilhões de vezes mais incrível que esse slide.
(Risos) (Aplausos)
J.M.: Existem muitas outras imagens que valem 500 bilhões de palavras. Por exemplo, esta aqui.
Se você escolher “influenza”, verá picos nas épocas onde se sabe de grandes epidemias de gripe que mataram pessoas pelo mundo.
E.L.A.: Se vocês ainda não se convenceram, o nível dos mares está subindo, junto com o CO2 na atmosfera e a temperatura global.
J.M.: Vocês também podem querer dar uma olhada neste n-grama, que diz ao Nietzsche que Deus não morreu, apesar que ele podia ter um publicitário melhor.
(Risos)
E.L.A.: Se pode entender alguns conceitos bem abstratos com essa coisa.
Por exemplo, permitam-me contar a história do ano de 1950. Durante todo o transcurso da história, ninguém dava a mínima para 1950.
Em 1700, em 1800, em 1900, ninguém ligava.
Nos anos 30 e 40, ninguém ligava.
De repente, no meio dos anos 40, começou um rumor.
As pessoas perceberam que 1950 viria, e que seria algo grande.
(Risos)
Nada interessou tanto às pessoas em 1950 como o ano 1950.
(Risos)
As pessoas caminhavam obcecadas.
Não podiam parar de falar sobre as coisas que fizeram em 1950, tudo o que estavam planejando para 1950, todos os sonhos que queriam alcançar em 1950.
De fato, 1950 foi tão fascinante que nos anos seguintes, as pessoas continuavam falando sobre as coisas incríveis que aconteceram, em 51, 52, 53.
Finalmente em 1954, alguém acordou e percebeu que 1950 tinha ficado algo 'passé'.
(Risos)
E de repente, a bolha estourou.
(Risos)
A história de 1950 é a história de todo ano que temos registro, com um toque a mais, porque agora temos estes gráficos.
E porque temos estes gráficos bacanas, podemos medir coisas. Podemos dizer, “Quão rápido a bolha estourou?” E acontece que podemos medir muito precisamente.
Equações foram derivadas, gráficos foram produzidos, e o resultado líquido é que descobrimos que a bolha estoura cada vez mais rápido a cada ano que passa.
Perdemos interesse no passado cada vez mais rápido.
J.M.: Agora uma dica para a carreira.
Aqueles de vocês que procuram ser famosos, podemos aprender com as 25 personalidades mais famosas, políticos, autores, atores e demais.
Se você quer se tornar famoso cedo, deveria ser um ator, porque sua fama começa ao final dos vinte anos – você ainda é jovem, é muito bom.
Agora se quiser esperar um pouco, deveria ser autor, porque assim você alcançará grandes alturas, como Mark Twain, por exemplo, extremamente famoso.
Mas se você quiser alcançar mesmo o topo, deveria postergar o reconhecimento e, claro, tornar-se um político.
Assim, você se torna famoso no final dos seus 50, e se torna muito, muito famoso depois.
Cientistas também tendem a ficar famosos quando são mais velhos.
Por exemplo, biólogos e físicos tendem a ser tão famosos quanto atores.
Um erro que vocês devem evitar é serem matemáticos.
(Risos)
Se fizerem isso, podem pensar, "Ótimo. Farei meu melhor trabalho quando estou com 20 anos."
Mas olha só, ninguém quer saber.
(Risos)
E.L.A.: Existem notas mais sérias entre os n-gramas.
Por exemplo, eis a trajetória de Marc Chagall, artista nascido em 1887. Parece a trajetória normal de uma pessoa famosa. Ele fica mais e mais e mais famoso, exceto se pesquisar em alemão.
Se pesquisar em alemão, verá algo totalmente bizarro, algo que nunca se vê, que é ele se tornar extremamente famoso e de repente despenca, chegando ao fundo do poço entre 1933 e 1945, antes de retornar com tudo.
Naturalmente, o que vemos é o fato de que Chagall era um artista judeu na Alemanha nazista.
Estes sinais são na verdade tão fortes que não precisamos saber que alguém foi censurado. Podemos ter uma ideia usando até um básico processamento de sinais. Eis um modo simples de fazer.
Uma expectativa razoável é que a fama de alguém em um período de tempo deveria ser mais ou menos a média de sua fama antes e da fama depois.
É algo assim o que esperamos. E comparamos isso com a fama que observamos. E dividimos uma pela outra para produzir algo que chamamos de índice de supressão.
Se o índice é muito, mas muito pequeno, você pode muito bem estar sendo suprimido. Se for muito grande, você pode estar se beneficiando com a propaganda.
J.M.: Agora vocês podem até mesmo ver a distribuição dos índices de supressão de populações inteiras.
Por exemplo, aqui – este índice é para 5.000 pessoas escolhidas em livros ingleses onde não existe supressão conhecida – seria assim, basicamente centrada no 1.
O que se esperava é basicamente o que observamos. Esta é a distribuição vista na Alemanha – bem diferente, é desviada para a esquerda.
As pessoas falaram menos que o dobro do costumeiro. Mais importante, a distribuição é mais extensa.
Existem muitas pessoas que acabaram no lado esquerdo desta distribuição que são faladas cerca de 10 vezes menos do que deveriam ter sido.
E também muitas pessoas bem à direita que parecem ter se beneficiado da propaganda.
Esta imagem é a marca da censura no registro de livros.
E.L.A.: Cultorômica é como chamamos este método.
É como se fosse a genômica. Só que a genômica é uma lente para que a biologia veja através da janela de sequencias das bases no genoma humano.
Cultorômica é parecido.
É aplicação da análise da enorme quantidade de informações coletadas para estudo da cultura humana.
Ao invés de olharmos através das lentes de um genoma, olhamos através de pedaços digitalizados do registro histórico.
O bom da culturômica é que todos podem participar. Por que todos podem? Todos podem porque três caras, Jon Orwant, Matt Gray e Will Brockman no Google, viram o protótipo do Visualizador de N-Gramas, e disseram, “Isso é bem divertido. Temos que disponibilizar para as pessoas.”
Em exatamente 2 semanas – antes de nosso artigo ser publicado – eles programaram uma versão do Visualizador para o público em geral.
Assim vocês podem digitar qualquer palavra ou frase que se interessarem e imediatamente podem ver o n-grama – e também listar exemplos de todos os muitos livros nos quais o seu n-grama aparece.
J.M.: Já foi utilizado mais de um milhão de vezes no primeiro dia, e é de fato a melhor de todas as procuras. As pessoas querem ser as melhores, se destacar.
Mas acontece que no século 18, as pessoas não ligavam pra isso. Elas não queriam ser as 'the best', elas queriam ser 'beft'.
O que aconteceu, é claro, foi apenas um equívoco. Não é um esforço pela mediocridade, apenas o 'S' costumava ser escrito diferente, quase um 'F'.
Lógico, o Google não pegou isso na ocasião, assim nós relatamos no artigo científico que escrevemos.
Mas se tornou um lembrete de que, mesmo sendo muito divertido, quando se interpreta estes gráficos, temos que ter cuidado, e vocês tem que adotar os métodos básicos da ciência.
E.L.A.: Pessoas o tem utilizado para todo tipo de propósito.
(Risos)
Na verdade, não precisaremos falar, vamos apenas mostrar todos os slides e ficar em silêncio. Esta pessoa estava interessada na história da frustração.
Existem vários tipos de frustração. Se você esfolar o dedo do pé, É um “ai” com um 'A'. Se a Terra é aniquilada pelos Vogons pra dar lugar à um atalho interestelar, é um “aaaaaaaai” com 8 'A's. Esta pessoa estudou todos os “ais”, de 1 até 8 'A's.
E acontece que os “ais” menos frequentes são os que correspondem às coisas mais frustrantes – exceto, curiosamente, no começo dos anos 80.
Achamos que deve ter algo a ver com o Reagan.
(Risos)
J.M.: Existem muitos usos para estas informações, mas o principal é que o registro histórico está sendo digitalizado.
Google começou a digitalizar 15 milhões de livros.
Fonte:
[Visto no Brasil Acadêmico]
Comentários