Nessa palestra de 2014, o cientista de dados Jeremy Howard discute o que acontece quando ensinamos um computador a aprender. Partilhando alg...
Nessa palestra de 2014, o cientista de dados Jeremy Howard discute o que acontece quando ensinamos um computador a aprender. Partilhando alguns desenvolvimentos novos e surpreendentes, na área em rápida evolução da aprendizagem profunda, uma técnica que pode dar aos computadores a capacidade de aprender chinês, ou de reconhecer objetos em fotos, ou de ajudar a analisar um diagnóstico médico. (Uma ferramenta de aprendizagem profunda, após horas assistindo o Youtube, ensinou a si própria o conceito de "gatos"). Deixe-se envolver numa área que mudará o comportamento dos computadores à nossa volta... mais cedo do que provavelmente pensamos.
Antigamente se você quisesse que um computador fizesse algo novo, você teria que programar. Pois então, para quem aqui que nunca fez isso, programação é algo que requer estabelecer com riqueza de detalhe cada passo do que você quer que o computador faça para atingir o seu objetivo. Se você quiser fazer algo que ainda não sabe fazer sozinho, isso se torna um grande desafio.
E esse foi o desafio enfrentado por este homem, Arthur Samuel. Em 1956 ele queria que esse computador fosse capaz de vencê-lo no jogo de damas. Como você faz para escrever um programa, estabelecer com riqueza de detalhe, que ele jogue damas melhor que você? Então ele teve uma ideia: ele fez o computador jogar contra si próprio milhares de vezes para aprender a jogar damas. E realmente funcionou, de fato em 1962 esse computador venceu o campeão estadual de Connecticut.
Arthur Samuel foi o pai do aprendizado de máquina, e eu devo muito a ele, porque eu sou um profissional de aprendizado de máquina. Eu fui o presidente da Kaggle, uma comunidade de mais de 200 mil profissionais dessa área. A Kaggle organiza competições para tentar resolver problemas até então sem solução, e tem sido bem sucedida centenas de vezes. Então desse ponto de vista, eu pude descobrir muito sobre o que o aprendizado de máquina conseguiu no passado, hoje, e o que poderia fazer no futuro. Talvez o primeiro grande sucesso comercial de aprendizado de máquina foi o Google. O Google mostrou que é possível encontrar informação usando um algoritmo de computador, e esse algoritmo é baseado no aprendizado de máquina. Desde então houve muitos casos de sucesso comercial de aprendizado de máquina. Empresas como Amazon e Netflix usam aprendizado de máquina para sugerir produtos que você poderia querer, filmes que você poderia querer assistir. Às vezes é quase assustador. Empresas como LinkedIn e Facebook às vezes te dirão quem deveria ser seu amigo e você não tem ideia de como, e isso é porque está usando o poder do aprendizado de máquina. São algoritmos que aprenderam como fazer isso a partir de dados ao invés de serem programados à mão.
Foi assim que a IBM foi bem sucedida em fazer que Watson vencesse dois campeões mundiais em Jeopardy, respondendo questões incrivelmente sutis e complexas como essa: ["O antigo 'Leão de Nimrud' desapareceu do museu nacional dessa cidade em 2003 (junto com um monte de outras coisas)"] Também por isso que agora vemos os primeiros carros auto-guiados. Se você quiser poder diferenciar entre, digamos, uma árvore e um pedestre, bem, isso é muito importante. Não sabemos como escrever esses programas à mão, mas com o aprendizado de máquina isso agora é possível. De fato esse carro já dirigiu mais de um milhão de quilômetros sem qualquer acidente em estradas normais.
Pois bem, agora sabemos que computadores conseguem aprender, e podem aprender a fazer coisas que inclusive nós mesmos não sabemos fazer, ou então fazer melhor que nós. Um dos exemplos mais surpreendentes de aprendizado de máquina que eu já vi aconteceu num projeto que eu organizei na Kaggle onde um time coordenado por alguém chamado Geoffrey Hinton da Universidade de Toronto venceu a competição de descoberta automática de fármacos.
Como eles fizeram isso? Usaram um algoritmo singular chamado aprendizado profundo. Isso foi tão importante que de fato o sucesso foi noticiado no The New York Times num artigo de página frontal semanas depois. Esse é Geoffrey Hinton, aqui no lado esquerdo. Aprendizado profundo é um algoritmo inspirado no cérebro humano, ou seja, é um algoritmo que não tem limitações teóricas para o que pode fazer. Quanto mais dados e tempo você der a ele, melhor ele fica.
(Vídeo)
Richard Rashid: Agora, o último passo que eu pretendo dar nesse processo é realmente falar com vocês em chinês. A chave aqui é que conseguimos levantar uma vasta quantidade de informação de muitos falantes do chinês e produzir um sistema texto-para-fala que pega o texto em chinês e converte para a linguagem chinesa, e então pegamos mais ou menos uma hora da minha própria voz e usamos para modular o sistema texto-para-fala padrão para que possa parecer a minha voz. O resultado não é perfeito. Na verdade há alguns erros. (Em chinês) (Aplausos) Há muito trabalho pela frente nessa área. (Em chinês) (Aplausos)
J. Howard: Isso foi num congresso de aprendizado de máquina na China. Na verdade não é comum escutar aplausos espontâneos em congressos acadêmicos, embora obviamente às vezes acontecer em conferências TEDx, fiquem à vontade. Tudo que vocês viram lá aconteceu com aprendizado profundo. (Aplausos) Obrigado. A transcrição em inglês foi aprendizado profundo. A tradução para chinês e o texto na direita superior, também, e a construção da voz também foi aprendizado profundo.
Nessa competição desconhecida alemã, chamada Modelo de Reconhecimento de Sinais de Trânsito Alemães aprendizado profundo aprendeu a reconhecer sinais de trânsito como esse. Não apenas conseguiu reconhecer os sinais melhor que qualquer outro algoritmo, o ranking na verdade mostrou que era melhor do que gente, quase duas vezes melhor do que gente. Então em 2011 tivemos o primeiro exemplo de computadores que conseguem ver melhor do que pessoas. Desde então muito aconteceu. Em 2012 Google anunciou que havia um algoritmo de aprendizado profundo assistindo vídeos do YouTube e remoendo os dados em 16 mil computadores por mês, e o computador aprendeu sozinho conceitos como pessoas e gatos apenas assistindo aos vídeos. É desse jeito que os humanos aprendem. Os humanos não aprendem com alguém explicando o que viram, aprendem por si próprios. Também em 2012, Geoffrey Hinton, a quem vimos antes, venceu a conhecida competição ImageNet, tentando descobrir a partir de um milhão e meio de imagens o que elas retratam. A partir de 2014 estamos com uma taxa de erro de 6% em reconhecimento de imagem. De novo, isso é melhor que gente.
Então, máquinas estão fazendo um ótimo trabalho e agora está sendo usado na indústria.
Imaginem quanto levaria do jeito que era antes: dúzias de pessoas, muitos anos. Também está acontecendo na China. Baidu é tipo o Google chinês, eu acho, e o que vocês podem ver acima à esquerda é um exemplo de uma imagem que eu subi ao sistema de aprendizado profundo do Baidu, e abaixo você pode ver que o sistema entendeu que imagem é e encontrou imagens similares. As imagens similares de fato têm fundos similares, direções de rostos similares, algumas até com a língua para fora. Claramente não está olhando para o texto da página. Tudo que eu forneci foi uma imagem. Agora temos computadores que realmente entendem o que veem e então buscam em bancos de dados de centenas de milhões de imagens em tempo real.
Então o que significa o fato dos computadores conseguirem ver? Bem, não é só que conseguem ver. De fato, o aprendizado profundo fez mais. Frases matizadas e complexas como esta agora são compreensíveis com algoritmos de aprendizado profundo. Como vocês podem ver aqui, esse sistema de Stanford com o ponto vermelho acima descobriu que esta frase expressa um sentimento negativo. Na verdade o aprendizado profundo está alcançando a performance humana ao entender sobre o que as frases são e o que dizem sobre as coisas. Além disso o aprendizado profundo é usado para ler chinês, de novo no nível do falante nativo. Esse algoritmo, desenvolvido na Suíça por pessoas que não falam chinês. Como eu digo, usar aprendizado profundo é o melhor sistema no mundo para isso, até mesmo comparando ao entendimento do humano nativo.
Esse é um sistema que montamos na minha empresa que mostra tudo isso colocado junto. Essas são imagens sem texto, e enquanto digito frases aqui, ele entende essas imagens em tempo real e descobre sobre o que elas são e encontram imagens similares ao texto que estou escrevendo. Vocês podem ver, está realmente entendendo minhas frases e entendendo essas imagens. Sei que vocês viram algo assim no Google, onde você digita coisas e aparecem imagens, mas na verdade o que acontece é que está buscando o texto na página. Isso é muito diferente de realmente entender as imagens. Isso foi possível acontecer para computadores pela primeira vez somente há alguns poucos meses.
Talvez não seja surpresa o que vou dizer agora: eles sabem escrever. Aqui um texto que eu gerei usando um algoritmo de aprendizado profundo ontem. E aqui um texto que um algoritmo de Stanford criou. Cada uma dessas frases foi criada por um algoritmo de aprendizado profundo para descrever cada uma dessas imagens.
Ainda não chegamos ao patamar do desempenho humano, mas estamos perto. Em testes, humanos preferem a legenda gerada por computador uma a cada quatro vezes. Agora esse sistema tem apenas duas semanas, então provavelmente dentro de um ano, o algoritmo de computador estará além do desempenho humano no ritmo que as coisas vão. E é isso, os computadores conseguem escrever.
Quando juntamos isso tudo, oportunidades muito empolgantes aparecem. Por exemplo, na medicina, uma equipe em Boston anunciou a descoberta de dúzias de novas características clinicamente relevantes de tumores que ajudam os médicos em prognósticos de câncer. De modo semelhante, em Stanford, um grupo lá anunciou que, observando tecidos sob ampliação, desenvolveu um sistema com base em aprendizado de máquina que de fato é melhor que patologistas humanos ao prever índices de sobrevivência para pacientes de câncer. Em ambos os casos, não apenas as previsões eram mais precisas, mas criaram ciência perspicaz. No caso da radiologia, foram indicadores clínicos novos que humanos conseguem entender.
Em cada um desses dois casos, foram sistemas desenvolvidos por um grupo de especialistas médicos e especialistas em aprendizado de máquina, mas desde ano passado, estamos além disso também. Esse é um exemplo de identificação de áreas cancerígenas em tecido humano sob um microscópio. O sistema aqui consegue identificar essas áreas com mais precisão, ou com a mesma precisão, do que patologistas humanos, mas foi construído com aprendizado profundo sem conhecimento médico por pessoas sem antecedentes na área. De modo similar, aqui, essa segmentação de neurônios. Agora podemos segmentar neurônios tão precisamente quanto os humanos, mas esse sistema foi desenvolvido com aprendizado profundo por pessoas sem antecedentes em medicina.
Eu estava meio aterrorizado, mas a teoria sugeria que era possível fazer medicina muito útil usando apenas essas técnicas analíticas de dados. E ainda bem, a reação tem sido fantástica, não apenas da mídia mas da comunidade médica, que tem sido muito favorável. A teoria é que podemos pegar a parte intermediária do precesso médico e torná-la em análise de dados tanto quanto possível, deixando aos médicos o que eles fazem de melhor. Quero dar uma exemplo a vocês. Hoje um novo teste de diagnóstico médico leva uns 15 minutos para ser feito e vou mostrar em tempo real para vocês, mas eu comprimi para três minutos, cortando alguns pedaços. Ao invés de um teste de diagnóstico médico, vou mostrar um teste de diagnóstico de imagens de carros, pois é algo que todos podem entender.
Então aqui estamos iniciando com 1,5 milhão de imagens de carro, e eu quero criar algo que pode separar num ângulo da foto que está sendo tirada. Essas imagens são inteiramente não marcadas, então preciso começar do zero. Com o algoritmo de aprendizado profundo, pode-se automaticamente identificar áreas de estrutura nessas imagens. O legal é que o humano e o computador agora podem trabalhar juntos. Então o humano, como podem ver, diz ao computador as áreas de interesse que o computador então usa para melhorar o algoritmo. Esses sistemas de aprendizado profundo agem num espaço de 16 mil dimensões, dá para ver aqui o computador girando através do espaço, tentando encontrar novas áreas de estrutura. E quando consegue, o humano que está no controle então aponta as áreas de interesse. Aqui o computador encontrou as áreas com sucesso, por exemplo, ângulos. Enquanto seguimos o processo, gradualmente dizendo mais e mais ao computador sobre os tipos de estruturas que estamos buscando.
Se fosse um teste diagnóstico, seria um patologista identificando áreas de condição patológica, por exemplo, ou um radiologista indicando nódulos potencialmente problemáticos. E às vezes pode ser difícil para o algoritmo. Nesse caso, ficou um pouco confuso. As frentes e as traseiras estão todas misturadas. Então temos que ser cuidadosos, manualmente separando as frentes e as traseiras, e dizer ao computador que isso é o tipo de grupo que nos interessa.
Então fizemos isso por um tempo, adiantamos um pouco, e treinamos o algoritmo de aprendizado de máquina com base em algumas centenas de coisas, e esperamos que tenha ficado melhor. Podem ver que agora algumas dessas imagens desapareceram, mostrando que já consegue entender algumas por si próprio. Podemos então usar esse conceito para imagens similares, e usando imagens similares, vocês podem ver, o computador nesse ponto consegue encontrar somente as frentes dos carros. Nesse ponto o humano pode dizer ao computador, “ok, sim, você fez um bom trabalho”.
Claro que às vezes ainda é difícil separar grupos. Nesse caso mesmo depois do computador girar um pouco, ainda vemos que imagens do lado esquerdo e do lado direito estão todas misturadas. Podemos novamente dar dicas ao computador, e dizer, certo, encontre uma projeção que separe os lados esquerdo e direito o melhor possível usando o algoritmo de aprendizado profundo. E dando aquela dica, ah, certo, conseguiu. Encontrou um jeito de pensar nesses objetos que acabou agrupando.
Vocês podem pegar a ideia aqui. Não é o caso de substituir o humano pelo computador, mas sim de trabalharem juntos. O que fazemos aqui é substituir algo que costumava demandar de uma equipe de cinco ou seis pessoas cerca de sete anos com algo que leva apenas 15 minutos para uma pessoa só.
Esse processo demanda cerca de quatro ou cinco iterações. Podemos ver que agora temos 62% de nossas 1,5 milhão de imagens classificadas corretamente. Nesse ponto podemos rapidamente pegar seções inteiras e checar se não há erros. Onde encontramos erros, podemos avisar o computador. Usando esse tipo de processo para cada um dos diferentes grupos, temos agora 80% de índice de sucesso classificando 1,5 milhão de imagens. Nesse ponto é só o caso de encontrar o pequeno número que ainda não está classificado corretamente, e tentar entender o motivo. E com essa abordagem, em 15 minutos temos 97% de índice de classificação.
O Fórum Econômico Mundial diz que há escassez de algo entre 10 e 20 vezes de médicos no mundo em desenvolvimento, e que levaria cerca de 300 anos para treinar gente suficiente para resolver o problema. Imaginem conseguirmos aumentar a eficiência usando essas abordagens de aprendizado profundo?
Por isso estou empolgado com as oportunidades. E estou preocupado com os problemas. O problema aqui é que cada área em azul no mapa é um lugar onde os serviços estão com mais de 80% de emprego. O que são serviços? São esses. São também exatamente o que os computadores aprenderam a fazer.
Não demora muito para cientistas de dados fazerem essas coisas. Por exemplo, os quatro algoritmos foram construídos pelo mesmo cara. Então você pensa, oh, isso já aconteceu antes, já vimos isso antes, quando coisas novas chegam e novos empregos aparecem, como serão esses novos empregos? É muito difícil estimar isso, porque o desempenho humano cresce nesse ritmo gradual, mas agora temos um sistema, o aprendizado profundo, que sabemos crescer em ritmo exponencial. E nós estamos aqui. Então hoje vemos as coisas ao redor e dizemos: “Oh, os computadores são tão burros”. Certo? Mas dentro de cinco anos os computadores estarão fora desse gráfico. Então precisamos começar a pensar nessa capacidade agora mesmo.
Já vimos isso antes, claro. Na Revolução Industrial, vimos uma mudança na capacidade graças aos motores. Acontece que, as coisas foram se achatando. Houve distúrbio social, mas quando os motores foram usados para gerar força em todas as situações as coisas se acalmaram. A Revolução do Aprendizado de Máquina será bem diferente, porque ela nunca se acalma. Quanto mais os computadores conseguem melhorar, mais eles podem construir outros computadores, melhores, então esse será um tipo de mudança que o mundo nunca viveu antes, então sua compreensão anterior do que é possível é diferente.
Isso já está nos afetando. Nos últimos 25 anos, como a produtividade de capital aumentou, a produtividade de mão de obra estacionou, de fato até caiu um pouco.
Então quero que comecemos essa discussão já. Sei que quando eu conto isso para as pessoas, elas podem acabar desdenhando. “Os computadores não sabem pensar, eles não se emocionam, não entendem poesia, nós não sabemos como eles funcionam”. E daí?
Obrigado.
(Aplausos)
Fonte: TED
[Visto no Brasil Acadêmico]
Antigamente se você quisesse que um computador fizesse algo novo, você teria que programar. Pois então, para quem aqui que nunca fez isso, programação é algo que requer estabelecer com riqueza de detalhe cada passo do que você quer que o computador faça para atingir o seu objetivo. Se você quiser fazer algo que ainda não sabe fazer sozinho, isso se torna um grande desafio.
E esse foi o desafio enfrentado por este homem, Arthur Samuel. Em 1956 ele queria que esse computador fosse capaz de vencê-lo no jogo de damas. Como você faz para escrever um programa, estabelecer com riqueza de detalhe, que ele jogue damas melhor que você? Então ele teve uma ideia: ele fez o computador jogar contra si próprio milhares de vezes para aprender a jogar damas. E realmente funcionou, de fato em 1962 esse computador venceu o campeão estadual de Connecticut.
Arthur Samuel foi o pai do aprendizado de máquina, e eu devo muito a ele, porque eu sou um profissional de aprendizado de máquina. Eu fui o presidente da Kaggle, uma comunidade de mais de 200 mil profissionais dessa área. A Kaggle organiza competições para tentar resolver problemas até então sem solução, e tem sido bem sucedida centenas de vezes. Então desse ponto de vista, eu pude descobrir muito sobre o que o aprendizado de máquina conseguiu no passado, hoje, e o que poderia fazer no futuro. Talvez o primeiro grande sucesso comercial de aprendizado de máquina foi o Google. O Google mostrou que é possível encontrar informação usando um algoritmo de computador, e esse algoritmo é baseado no aprendizado de máquina. Desde então houve muitos casos de sucesso comercial de aprendizado de máquina. Empresas como Amazon e Netflix usam aprendizado de máquina para sugerir produtos que você poderia querer, filmes que você poderia querer assistir. Às vezes é quase assustador. Empresas como LinkedIn e Facebook às vezes te dirão quem deveria ser seu amigo e você não tem ideia de como, e isso é porque está usando o poder do aprendizado de máquina. São algoritmos que aprenderam como fazer isso a partir de dados ao invés de serem programados à mão.
Foi assim que a IBM foi bem sucedida em fazer que Watson vencesse dois campeões mundiais em Jeopardy, respondendo questões incrivelmente sutis e complexas como essa: ["O antigo 'Leão de Nimrud' desapareceu do museu nacional dessa cidade em 2003 (junto com um monte de outras coisas)"] Também por isso que agora vemos os primeiros carros auto-guiados. Se você quiser poder diferenciar entre, digamos, uma árvore e um pedestre, bem, isso é muito importante. Não sabemos como escrever esses programas à mão, mas com o aprendizado de máquina isso agora é possível. De fato esse carro já dirigiu mais de um milhão de quilômetros sem qualquer acidente em estradas normais.
Pois bem, agora sabemos que computadores conseguem aprender, e podem aprender a fazer coisas que inclusive nós mesmos não sabemos fazer, ou então fazer melhor que nós. Um dos exemplos mais surpreendentes de aprendizado de máquina que eu já vi aconteceu num projeto que eu organizei na Kaggle onde um time coordenado por alguém chamado Geoffrey Hinton da Universidade de Toronto venceu a competição de descoberta automática de fármacos.
O extraordinário aqui não é apenas que eles bateram todos os algoritmos desenvolvidos pela Merck ou a comunidade acadêmica, mas que ninguém no time tinha qualquer antecedente em biologia ou química, e fizeram isso em duas semanas.
Como eles fizeram isso? Usaram um algoritmo singular chamado aprendizado profundo. Isso foi tão importante que de fato o sucesso foi noticiado no The New York Times num artigo de página frontal semanas depois. Esse é Geoffrey Hinton, aqui no lado esquerdo. Aprendizado profundo é um algoritmo inspirado no cérebro humano, ou seja, é um algoritmo que não tem limitações teóricas para o que pode fazer. Quanto mais dados e tempo você der a ele, melhor ele fica.
O The New York Times mostrou nesse artigo também outro resultado singular do aprendizado profundo que eu vou mostrar para vocês agora. Mostra que os computadores conseguem escutar e entender.
(Vídeo)
Richard Rashid: Agora, o último passo que eu pretendo dar nesse processo é realmente falar com vocês em chinês. A chave aqui é que conseguimos levantar uma vasta quantidade de informação de muitos falantes do chinês e produzir um sistema texto-para-fala que pega o texto em chinês e converte para a linguagem chinesa, e então pegamos mais ou menos uma hora da minha própria voz e usamos para modular o sistema texto-para-fala padrão para que possa parecer a minha voz. O resultado não é perfeito. Na verdade há alguns erros. (Em chinês) (Aplausos) Há muito trabalho pela frente nessa área. (Em chinês) (Aplausos)
J. Howard: Isso foi num congresso de aprendizado de máquina na China. Na verdade não é comum escutar aplausos espontâneos em congressos acadêmicos, embora obviamente às vezes acontecer em conferências TEDx, fiquem à vontade. Tudo que vocês viram lá aconteceu com aprendizado profundo. (Aplausos) Obrigado. A transcrição em inglês foi aprendizado profundo. A tradução para chinês e o texto na direita superior, também, e a construção da voz também foi aprendizado profundo.
Então, aprendizado profundo é essa coisa extraordinária. É um único algoritmo que parece fazer quase tudo, e um ano antes eu descobri que ele também aprendeu a ver.
Nessa competição desconhecida alemã, chamada Modelo de Reconhecimento de Sinais de Trânsito Alemães aprendizado profundo aprendeu a reconhecer sinais de trânsito como esse. Não apenas conseguiu reconhecer os sinais melhor que qualquer outro algoritmo, o ranking na verdade mostrou que era melhor do que gente, quase duas vezes melhor do que gente. Então em 2011 tivemos o primeiro exemplo de computadores que conseguem ver melhor do que pessoas. Desde então muito aconteceu. Em 2012 Google anunciou que havia um algoritmo de aprendizado profundo assistindo vídeos do YouTube e remoendo os dados em 16 mil computadores por mês, e o computador aprendeu sozinho conceitos como pessoas e gatos apenas assistindo aos vídeos. É desse jeito que os humanos aprendem. Os humanos não aprendem com alguém explicando o que viram, aprendem por si próprios. Também em 2012, Geoffrey Hinton, a quem vimos antes, venceu a conhecida competição ImageNet, tentando descobrir a partir de um milhão e meio de imagens o que elas retratam. A partir de 2014 estamos com uma taxa de erro de 6% em reconhecimento de imagem. De novo, isso é melhor que gente.
Então, máquinas estão fazendo um ótimo trabalho e agora está sendo usado na indústria.
Por exemplo, o Google anunciou ano passado (2013) que mapearam cada local da França em duas horas, e fizeram isso fornecendo imagens das ruas para o algoritmo de aprendizado profundo reconhecer e ler os números das ruas.
Imaginem quanto levaria do jeito que era antes: dúzias de pessoas, muitos anos. Também está acontecendo na China. Baidu é tipo o Google chinês, eu acho, e o que vocês podem ver acima à esquerda é um exemplo de uma imagem que eu subi ao sistema de aprendizado profundo do Baidu, e abaixo você pode ver que o sistema entendeu que imagem é e encontrou imagens similares. As imagens similares de fato têm fundos similares, direções de rostos similares, algumas até com a língua para fora. Claramente não está olhando para o texto da página. Tudo que eu forneci foi uma imagem. Agora temos computadores que realmente entendem o que veem e então buscam em bancos de dados de centenas de milhões de imagens em tempo real.
Então o que significa o fato dos computadores conseguirem ver? Bem, não é só que conseguem ver. De fato, o aprendizado profundo fez mais. Frases matizadas e complexas como esta agora são compreensíveis com algoritmos de aprendizado profundo. Como vocês podem ver aqui, esse sistema de Stanford com o ponto vermelho acima descobriu que esta frase expressa um sentimento negativo. Na verdade o aprendizado profundo está alcançando a performance humana ao entender sobre o que as frases são e o que dizem sobre as coisas. Além disso o aprendizado profundo é usado para ler chinês, de novo no nível do falante nativo. Esse algoritmo, desenvolvido na Suíça por pessoas que não falam chinês. Como eu digo, usar aprendizado profundo é o melhor sistema no mundo para isso, até mesmo comparando ao entendimento do humano nativo.
Esse é um sistema que montamos na minha empresa que mostra tudo isso colocado junto. Essas são imagens sem texto, e enquanto digito frases aqui, ele entende essas imagens em tempo real e descobre sobre o que elas são e encontram imagens similares ao texto que estou escrevendo. Vocês podem ver, está realmente entendendo minhas frases e entendendo essas imagens. Sei que vocês viram algo assim no Google, onde você digita coisas e aparecem imagens, mas na verdade o que acontece é que está buscando o texto na página. Isso é muito diferente de realmente entender as imagens. Isso foi possível acontecer para computadores pela primeira vez somente há alguns poucos meses.
Vemos que agora os computadores conseguem não apenas ver, mas ler também, e claro, mostramos aqui que podem entender o que escutam.
Talvez não seja surpresa o que vou dizer agora: eles sabem escrever. Aqui um texto que eu gerei usando um algoritmo de aprendizado profundo ontem. E aqui um texto que um algoritmo de Stanford criou. Cada uma dessas frases foi criada por um algoritmo de aprendizado profundo para descrever cada uma dessas imagens.
Esse algoritmo nunca tinha visto um homem de camiseta preta tocando violão. Ele já viu um homem antes, já viu a cor preta, já viu um violão antes, mas criou independentemente essa descrição inédita para essa imagem.
Ainda não chegamos ao patamar do desempenho humano, mas estamos perto. Em testes, humanos preferem a legenda gerada por computador uma a cada quatro vezes. Agora esse sistema tem apenas duas semanas, então provavelmente dentro de um ano, o algoritmo de computador estará além do desempenho humano no ritmo que as coisas vão. E é isso, os computadores conseguem escrever.
Quando juntamos isso tudo, oportunidades muito empolgantes aparecem. Por exemplo, na medicina, uma equipe em Boston anunciou a descoberta de dúzias de novas características clinicamente relevantes de tumores que ajudam os médicos em prognósticos de câncer. De modo semelhante, em Stanford, um grupo lá anunciou que, observando tecidos sob ampliação, desenvolveu um sistema com base em aprendizado de máquina que de fato é melhor que patologistas humanos ao prever índices de sobrevivência para pacientes de câncer. Em ambos os casos, não apenas as previsões eram mais precisas, mas criaram ciência perspicaz. No caso da radiologia, foram indicadores clínicos novos que humanos conseguem entender.
Nesse caso de patologia, o sistema de computador descobriu que as células ao redor do câncer são tão importantes quanto as próprias células cancerígenas para se fazer um diagnóstico. Isso é o oposto do que os patologistas tinham aprendido por décadas.
Em cada um desses dois casos, foram sistemas desenvolvidos por um grupo de especialistas médicos e especialistas em aprendizado de máquina, mas desde ano passado, estamos além disso também. Esse é um exemplo de identificação de áreas cancerígenas em tecido humano sob um microscópio. O sistema aqui consegue identificar essas áreas com mais precisão, ou com a mesma precisão, do que patologistas humanos, mas foi construído com aprendizado profundo sem conhecimento médico por pessoas sem antecedentes na área. De modo similar, aqui, essa segmentação de neurônios. Agora podemos segmentar neurônios tão precisamente quanto os humanos, mas esse sistema foi desenvolvido com aprendizado profundo por pessoas sem antecedentes em medicina.
Então eu mesmo, que não tenho antecedentes em medicina, posso parecer inteiramente qualificado para iniciar uma empresa médica, que foi o que eu fiz.
Eu estava meio aterrorizado, mas a teoria sugeria que era possível fazer medicina muito útil usando apenas essas técnicas analíticas de dados. E ainda bem, a reação tem sido fantástica, não apenas da mídia mas da comunidade médica, que tem sido muito favorável. A teoria é que podemos pegar a parte intermediária do precesso médico e torná-la em análise de dados tanto quanto possível, deixando aos médicos o que eles fazem de melhor. Quero dar uma exemplo a vocês. Hoje um novo teste de diagnóstico médico leva uns 15 minutos para ser feito e vou mostrar em tempo real para vocês, mas eu comprimi para três minutos, cortando alguns pedaços. Ao invés de um teste de diagnóstico médico, vou mostrar um teste de diagnóstico de imagens de carros, pois é algo que todos podem entender.
Então aqui estamos iniciando com 1,5 milhão de imagens de carro, e eu quero criar algo que pode separar num ângulo da foto que está sendo tirada. Essas imagens são inteiramente não marcadas, então preciso começar do zero. Com o algoritmo de aprendizado profundo, pode-se automaticamente identificar áreas de estrutura nessas imagens. O legal é que o humano e o computador agora podem trabalhar juntos. Então o humano, como podem ver, diz ao computador as áreas de interesse que o computador então usa para melhorar o algoritmo. Esses sistemas de aprendizado profundo agem num espaço de 16 mil dimensões, dá para ver aqui o computador girando através do espaço, tentando encontrar novas áreas de estrutura. E quando consegue, o humano que está no controle então aponta as áreas de interesse. Aqui o computador encontrou as áreas com sucesso, por exemplo, ângulos. Enquanto seguimos o processo, gradualmente dizendo mais e mais ao computador sobre os tipos de estruturas que estamos buscando.
Se fosse um teste diagnóstico, seria um patologista identificando áreas de condição patológica, por exemplo, ou um radiologista indicando nódulos potencialmente problemáticos. E às vezes pode ser difícil para o algoritmo. Nesse caso, ficou um pouco confuso. As frentes e as traseiras estão todas misturadas. Então temos que ser cuidadosos, manualmente separando as frentes e as traseiras, e dizer ao computador que isso é o tipo de grupo que nos interessa.
Então fizemos isso por um tempo, adiantamos um pouco, e treinamos o algoritmo de aprendizado de máquina com base em algumas centenas de coisas, e esperamos que tenha ficado melhor. Podem ver que agora algumas dessas imagens desapareceram, mostrando que já consegue entender algumas por si próprio. Podemos então usar esse conceito para imagens similares, e usando imagens similares, vocês podem ver, o computador nesse ponto consegue encontrar somente as frentes dos carros. Nesse ponto o humano pode dizer ao computador, “ok, sim, você fez um bom trabalho”.
Claro que às vezes ainda é difícil separar grupos. Nesse caso mesmo depois do computador girar um pouco, ainda vemos que imagens do lado esquerdo e do lado direito estão todas misturadas. Podemos novamente dar dicas ao computador, e dizer, certo, encontre uma projeção que separe os lados esquerdo e direito o melhor possível usando o algoritmo de aprendizado profundo. E dando aquela dica, ah, certo, conseguiu. Encontrou um jeito de pensar nesses objetos que acabou agrupando.
Vocês podem pegar a ideia aqui. Não é o caso de substituir o humano pelo computador, mas sim de trabalharem juntos. O que fazemos aqui é substituir algo que costumava demandar de uma equipe de cinco ou seis pessoas cerca de sete anos com algo que leva apenas 15 minutos para uma pessoa só.
Esse processo demanda cerca de quatro ou cinco iterações. Podemos ver que agora temos 62% de nossas 1,5 milhão de imagens classificadas corretamente. Nesse ponto podemos rapidamente pegar seções inteiras e checar se não há erros. Onde encontramos erros, podemos avisar o computador. Usando esse tipo de processo para cada um dos diferentes grupos, temos agora 80% de índice de sucesso classificando 1,5 milhão de imagens. Nesse ponto é só o caso de encontrar o pequeno número que ainda não está classificado corretamente, e tentar entender o motivo. E com essa abordagem, em 15 minutos temos 97% de índice de classificação.
Então esse tipo de técnica nos permite resolver um grande problema, que é a falta de especialização médica no mundo.
O Fórum Econômico Mundial diz que há escassez de algo entre 10 e 20 vezes de médicos no mundo em desenvolvimento, e que levaria cerca de 300 anos para treinar gente suficiente para resolver o problema. Imaginem conseguirmos aumentar a eficiência usando essas abordagens de aprendizado profundo?
Por isso estou empolgado com as oportunidades. E estou preocupado com os problemas. O problema aqui é que cada área em azul no mapa é um lugar onde os serviços estão com mais de 80% de emprego. O que são serviços? São esses. São também exatamente o que os computadores aprenderam a fazer.
Então 80% do emprego no mundo no mundo desenvolvido é algo que computadores já aprenderam a fazer. O que isso significa? Ficaremos bem. Serão substituídos por outros empregos. Por exemplo serão mais empregos para cientistas de dados. Na verdade não.
Não demora muito para cientistas de dados fazerem essas coisas. Por exemplo, os quatro algoritmos foram construídos pelo mesmo cara. Então você pensa, oh, isso já aconteceu antes, já vimos isso antes, quando coisas novas chegam e novos empregos aparecem, como serão esses novos empregos? É muito difícil estimar isso, porque o desempenho humano cresce nesse ritmo gradual, mas agora temos um sistema, o aprendizado profundo, que sabemos crescer em ritmo exponencial. E nós estamos aqui. Então hoje vemos as coisas ao redor e dizemos: “Oh, os computadores são tão burros”. Certo? Mas dentro de cinco anos os computadores estarão fora desse gráfico. Então precisamos começar a pensar nessa capacidade agora mesmo.
Já vimos isso antes, claro. Na Revolução Industrial, vimos uma mudança na capacidade graças aos motores. Acontece que, as coisas foram se achatando. Houve distúrbio social, mas quando os motores foram usados para gerar força em todas as situações as coisas se acalmaram. A Revolução do Aprendizado de Máquina será bem diferente, porque ela nunca se acalma. Quanto mais os computadores conseguem melhorar, mais eles podem construir outros computadores, melhores, então esse será um tipo de mudança que o mundo nunca viveu antes, então sua compreensão anterior do que é possível é diferente.
Isso já está nos afetando. Nos últimos 25 anos, como a produtividade de capital aumentou, a produtividade de mão de obra estacionou, de fato até caiu um pouco.
Então quero que comecemos essa discussão já. Sei que quando eu conto isso para as pessoas, elas podem acabar desdenhando. “Os computadores não sabem pensar, eles não se emocionam, não entendem poesia, nós não sabemos como eles funcionam”. E daí?
Hoje computadores fazem coisas que passamos a maior parte do tempo sendo pagos pra fazer, então chegou a hora de pensar em como vamos ajustar nossas estruturas sociais e econômicas para essa nova realidade.
Obrigado.
(Aplausos)
Fonte: TED
[Visto no Brasil Acadêmico]
Comentários