Você se considera bom em identificar vídeos falsos, em que pessoas famosas dizem coisas que nunca disseram na vida real? Veja como eles são ...
Você se considera bom em identificar vídeos falsos, em que pessoas famosas dizem coisas que nunca disseram na vida real? Veja como eles são feitos nesta palestra surpreendente e demonstração de tecnologia.
O cientista da computação Supasorn Suwajanakorn mostra como, como estudante de graduação, ele usou a inteligência artificial e a modelagem em 3D para criar vídeos falsos fotorrealistas de pessoas sincronizados com áudio. Saiba mais sobre as implicações éticas e as possibilidades criativas dessa tecnologia e os passos que estão sendo tomados para lutar contra o seu uso indevido.
Olhem para estas imagens. Agora, digam-me qual desses Obama aqui é real.
(Vídeo)
Barack Obama: Para ajudar a refinanciar moradias, para investir em coisas como produção de alta tecnologia, energia limpa e a infraestrutura que cria bons novos empregos.
Supasorn Suwajanakorn: Alguém? A resposta é: nenhum deles.
(Risos)
Minha inspiração por este trabalho foi um projeto para preservar nossa última chance de aprender sobre o holocausto a partir dos sobreviventes.
É chamado “New Dimensions in Testimony”, e permite conversas interativas com um holograma de um sobrevivente real do holocausto.
(Vídeo)
Homem: Como o senhor sobreviveu ao holocausto? (Vídeo)
Holograma: Como sobrevivi? Eu sobrevivi, creio eu, porque Deus me protegeu.
SS: Acontece que essas respostas foram pré-gravadas em um estúdio.
Mas o efeito é surpreendente. Você se sente muito ligado à história dele e a ele como pessoa.
Acredito que há algo especial sobre a interação humana que a torna muito mais profunda e pessoal do que os livros, as palestras ou os filmes jamais poderiam nos ensinar.
Vi isso e comecei a me perguntar:
Comecei a ver se isso poderia ser feito e, finalmente, propus uma nova solução para construir um modelo de uma pessoa usando nada além disso: fotos e vídeos existentes de uma pessoa.
Se for possível aprimorar esse tipo de informação passiva, fotos e vídeos que estão por aí, esse é o segredo para representar qualquer um.
A propósito, esse é Richard Feynman, que, além de ser ganhador do Prêmio Nobel de física, também era conhecido como um professor extraordinário.
Não seria ótimo se pudéssemos trazê-lo de volta para dar suas palestras e inspirar milhões de crianças, talvez não apenas em inglês, mas em qualquer idioma? Ou se pudéssemos pedir conselhos a nossos avós e ouvir palavras de conforto mesmo que não estejam mais conosco? Ou talvez, usando essa ferramenta, os autores de livros, vivos ou não, poderiam ler todos os seus livros em voz alta para qualquer interessado.
As possibilidades criativas aqui são infinitas, e, para mim, isso é muito empolgante.
E é assim que está funcionando até agora.
Primeiro, apresentamos uma nova técnica que pode reconstruir um modelo facial em 3D altamente detalhado a partir de qualquer imagem, sem nunca fazer um exame em 3D da pessoa.
Aqui está o mesmo modelo de saída a partir de visões diferentes.
Também funciona para vídeos, executando o mesmo algoritmo para cada quadro de vídeo e gerando um modelo em 3D em movimento.
Aqui está o mesmo modelo de saída a partir de ângulos diferentes.
Acontece que esse problema é muito desafiador, mas o truque principal é que iremos analisar de antemão uma grande coleção de fotos da pessoa.
Para George W. Bush, podemos simplesmente procurar no Google, e, a partir daí, podemos construir um modelo médio, iterativo e refinado para recuperar a expressão em detalhes distintos, como marcas e rugas.
O fascinante sobre isso é que a coleção de fotos pode vir de suas fotos comuns.
Ainda falta cor aqui.
Então, a seguir, desenvolvemos uma nova técnica de mistura que aperfeiçoa um método único de obter a média e produz texturas faciais e cores definidas.
Isso pode ser feito para qualquer expressão.
Agora temos o controle de um modelo de uma pessoa, por meio de uma sequência de fotos estáticas.
Reparem como as rugas vêm e vão dependendo da expressão.
Também podemos usar um vídeo para conduzir o modelo.
(Vídeo)
Daniel Craig: Certo, mas, por alguma razão, temos conseguido atrair algumas das pessoas mais incríveis.
SS: Aqui está outra demo divertida.
O que vemos aqui são modelos controláveis de pessoas criadas a partir de suas fotos da internet.
Agora, se transferirmos o movimento do vídeo de entrada podemos, na verdade, conduzir o grupo todo.
George W.
Bush: É difícil aprovar o projeto, porque há muitas partes móveis, e os processos legislativos podem ser desagradáveis.
(Aplausos)
SS: Voltando um pouquinho, nosso objetivo final, ao contrário, é capturar seus trejeitos ou a maneira única como cada uma dessas pessoas fala e sorri.
Para isso, será que conseguimos ensinar o computador a imitar a maneira como alguém fala mostrando apenas imagens de vídeo da pessoa? O que fiz exatamente foi deixar um computador assistir a 14 horas do autêntico Barack Obama dando palestras.
Aqui está o que podemos produzir apenas com o áudio dele.
(Vídeo)
BO: Os resultados são claros.
Os negócios dos Estados Unidos criaram 14,5 milhões de novos empregos mais de 75 meses consecutivos.
SS: O que está sendo combinado aqui é apenas a região da boca, e é assim que fazemos.
Nosso canal usa uma rede neural para converter e entrar com áudio nestes pontos da boca.
(Vídeo)
BO: Conseguimos isso por meio do trabalho, do Medicare ou do Medicaid.
SS: Então, combinamos a textura, aprimoramos os detalhes e os dentes, e integramos isso no início e no fundo de um vídeo de origem.
(Vídeo)
BO: As mulheres têm direito a exames gratuitos e não se pode cobrá-las a mais por serem mulheres.
Os jovens podem permanecer no plano dos pais até completarem 26 anos.
SS: Considero esses resultados muito realistas e intrigantes, mas, ao mesmo tempo, assustadores, até para mim.
Nosso objetivo foi construir um modelo exato de uma pessoa e não desvirtuá-la.
As pessoas têm considerado esse problema há muito tempo, desde que o Photoshop chegou ao mercado.
Como pesquisador, também trabalho com tecnologia de medida preventiva, e faço parte de um esforço contínuo na AI Foundation, que usa uma combinação de aprendizado de máquina e moderadores humanos para detectar imagens e vídeos falsos, lutando contra meu próprio trabalho.
Uma das ferramentas que planejamos lançar é chamada “Reality Defender”, um “plug-in” de navegador da web que pode sinalizar conteúdo potencialmente falso automaticamente, direto no navegador.
(Aplausos)
Apesar de tudo isso, vídeos falsos podem causar muitos prejuízos, mesmo antes de alguém ter a chance de verificar.
Por isso, é muito importante que conscientizemos todos do que é possível atualmente para que possamos supor de forma correta e ser críticos sobre o que vemos.
Mas estou animado e esperançoso, porque, se usarmos de forma correta e cuidadosa, essa ferramenta pode permitir que o impacto positivo de qualquer indivíduo no mundo seja medido em larga escala e ajude a modelar nosso futuro como queremos que ele seja.
Obrigado.
(Aplausos)
Fonte: TED
[Visto no Brasil Acadêmico]
O cientista da computação Supasorn Suwajanakorn mostra como, como estudante de graduação, ele usou a inteligência artificial e a modelagem em 3D para criar vídeos falsos fotorrealistas de pessoas sincronizados com áudio. Saiba mais sobre as implicações éticas e as possibilidades criativas dessa tecnologia e os passos que estão sendo tomados para lutar contra o seu uso indevido.
Olhem para estas imagens. Agora, digam-me qual desses Obama aqui é real.
(Vídeo)
Barack Obama: Para ajudar a refinanciar moradias, para investir em coisas como produção de alta tecnologia, energia limpa e a infraestrutura que cria bons novos empregos.
Supasorn Suwajanakorn: Alguém? A resposta é: nenhum deles.
(Risos)
Nenhum deles é, na verdade, real. Vou contar a vocês como chegamos até aqui.
Minha inspiração por este trabalho foi um projeto para preservar nossa última chance de aprender sobre o holocausto a partir dos sobreviventes.
É chamado “New Dimensions in Testimony”, e permite conversas interativas com um holograma de um sobrevivente real do holocausto.
(Vídeo)
Homem: Como o senhor sobreviveu ao holocausto? (Vídeo)
Holograma: Como sobrevivi? Eu sobrevivi, creio eu, porque Deus me protegeu.
SS: Acontece que essas respostas foram pré-gravadas em um estúdio.
Mas o efeito é surpreendente. Você se sente muito ligado à história dele e a ele como pessoa.
Acredito que há algo especial sobre a interação humana que a torna muito mais profunda e pessoal do que os livros, as palestras ou os filmes jamais poderiam nos ensinar.
Vi isso e comecei a me perguntar:
“Será que podemos criar um modelo como esse para qualquer um, um modelo que se pareça, fale e aja exatamente como eles?”
Comecei a ver se isso poderia ser feito e, finalmente, propus uma nova solução para construir um modelo de uma pessoa usando nada além disso: fotos e vídeos existentes de uma pessoa.
Se for possível aprimorar esse tipo de informação passiva, fotos e vídeos que estão por aí, esse é o segredo para representar qualquer um.
A propósito, esse é Richard Feynman, que, além de ser ganhador do Prêmio Nobel de física, também era conhecido como um professor extraordinário.
Não seria ótimo se pudéssemos trazê-lo de volta para dar suas palestras e inspirar milhões de crianças, talvez não apenas em inglês, mas em qualquer idioma? Ou se pudéssemos pedir conselhos a nossos avós e ouvir palavras de conforto mesmo que não estejam mais conosco? Ou talvez, usando essa ferramenta, os autores de livros, vivos ou não, poderiam ler todos os seus livros em voz alta para qualquer interessado.
As possibilidades criativas aqui são infinitas, e, para mim, isso é muito empolgante.
E é assim que está funcionando até agora.
Primeiro, apresentamos uma nova técnica que pode reconstruir um modelo facial em 3D altamente detalhado a partir de qualquer imagem, sem nunca fazer um exame em 3D da pessoa.
Aqui está o mesmo modelo de saída a partir de visões diferentes.
Também funciona para vídeos, executando o mesmo algoritmo para cada quadro de vídeo e gerando um modelo em 3D em movimento.
Aqui está o mesmo modelo de saída a partir de ângulos diferentes.
Acontece que esse problema é muito desafiador, mas o truque principal é que iremos analisar de antemão uma grande coleção de fotos da pessoa.
Para George W. Bush, podemos simplesmente procurar no Google, e, a partir daí, podemos construir um modelo médio, iterativo e refinado para recuperar a expressão em detalhes distintos, como marcas e rugas.
O fascinante sobre isso é que a coleção de fotos pode vir de suas fotos comuns.
Não importa realmente que expressão você esteja fazendo ou onde você tirou aquelas fotos. O que importa é que haja muitas delas.
Ainda falta cor aqui.
Então, a seguir, desenvolvemos uma nova técnica de mistura que aperfeiçoa um método único de obter a média e produz texturas faciais e cores definidas.
Isso pode ser feito para qualquer expressão.
Agora temos o controle de um modelo de uma pessoa, por meio de uma sequência de fotos estáticas.
Reparem como as rugas vêm e vão dependendo da expressão.
Também podemos usar um vídeo para conduzir o modelo.
(Vídeo)
Daniel Craig: Certo, mas, por alguma razão, temos conseguido atrair algumas das pessoas mais incríveis.
SS: Aqui está outra demo divertida.
O que vemos aqui são modelos controláveis de pessoas criadas a partir de suas fotos da internet.
Agora, se transferirmos o movimento do vídeo de entrada podemos, na verdade, conduzir o grupo todo.
George W.
Bush: É difícil aprovar o projeto, porque há muitas partes móveis, e os processos legislativos podem ser desagradáveis.
(Aplausos)
SS: Voltando um pouquinho, nosso objetivo final, ao contrário, é capturar seus trejeitos ou a maneira única como cada uma dessas pessoas fala e sorri.
Para isso, será que conseguimos ensinar o computador a imitar a maneira como alguém fala mostrando apenas imagens de vídeo da pessoa? O que fiz exatamente foi deixar um computador assistir a 14 horas do autêntico Barack Obama dando palestras.
Aqui está o que podemos produzir apenas com o áudio dele.
(Vídeo)
BO: Os resultados são claros.
Os negócios dos Estados Unidos criaram 14,5 milhões de novos empregos mais de 75 meses consecutivos.
SS: O que está sendo combinado aqui é apenas a região da boca, e é assim que fazemos.
Nosso canal usa uma rede neural para converter e entrar com áudio nestes pontos da boca.
(Vídeo)
BO: Conseguimos isso por meio do trabalho, do Medicare ou do Medicaid.
SS: Então, combinamos a textura, aprimoramos os detalhes e os dentes, e integramos isso no início e no fundo de um vídeo de origem.
(Vídeo)
BO: As mulheres têm direito a exames gratuitos e não se pode cobrá-las a mais por serem mulheres.
Os jovens podem permanecer no plano dos pais até completarem 26 anos.
SS: Considero esses resultados muito realistas e intrigantes, mas, ao mesmo tempo, assustadores, até para mim.
Nosso objetivo foi construir um modelo exato de uma pessoa e não desvirtuá-la.
Mas uma coisa que me preocupa é o seu potencial para uso indevido.
As pessoas têm considerado esse problema há muito tempo, desde que o Photoshop chegou ao mercado.
Como pesquisador, também trabalho com tecnologia de medida preventiva, e faço parte de um esforço contínuo na AI Foundation, que usa uma combinação de aprendizado de máquina e moderadores humanos para detectar imagens e vídeos falsos, lutando contra meu próprio trabalho.
Uma das ferramentas que planejamos lançar é chamada “Reality Defender”, um “plug-in” de navegador da web que pode sinalizar conteúdo potencialmente falso automaticamente, direto no navegador.
(Aplausos)
Apesar de tudo isso, vídeos falsos podem causar muitos prejuízos, mesmo antes de alguém ter a chance de verificar.
Por isso, é muito importante que conscientizemos todos do que é possível atualmente para que possamos supor de forma correta e ser críticos sobre o que vemos.
Ainda há um longo caminho a percorrer antes de podermos modelar as pessoas e garantir a segurança dessa tecnologia.
Mas estou animado e esperançoso, porque, se usarmos de forma correta e cuidadosa, essa ferramenta pode permitir que o impacto positivo de qualquer indivíduo no mundo seja medido em larga escala e ajude a modelar nosso futuro como queremos que ele seja.
Obrigado.
(Aplausos)
Fonte: TED
[Visto no Brasil Acadêmico]
Comentários