Deep fake produz edições na fala em vídeos onde os lábios ficam sincronizados com a transcrição de modo realista.
Deep fake produz edições na fala em vídeos onde os lábios ficam sincronizados com a transcrição de modo realista.
Quem nunca riu ou mesmo ficou furioso com o quanto a legenda de um filme difere da dublagem? Ou qual editor, autor ou mesmo ator não gostaria de ter editado somente aquela palavrinha, aquele trechinho de uma fala que, fora esse pedacinho, seria uma tomada indefectível? Pois agora, segundo pesquisas, será possível editar um vídeo apenas editando a transcrição de sua fala.
O chamado deep fake - ou deepfake, neologismo que mescla "deep learning" com "fake" que significa o uso de inteligência artificial para criar vídeos falsos onde é possível colocar trocar faces, vozes e falas de forma convincente - chegou a um nível de facilidade que pode tornar a alteração da fala de um personagem de um vídeo algo tão banal quanto a edição do texto de sua legenda.
Pesquisadores da Universidade de Stanford, da Universidade de Princeton, do Instituto Max Planck de Informática e da Adobe detalharam como seu novo algoritmo funciona em um artigo publicado no site do cientista de Stanford, Ohad Fried, esta semana.
Funciona assim: A IA analisa um vídeo de uma pessoa falando. Só que ela não está apenas observando suas palavras - ela está identificando cada minúscula unidade de som, ou fonema, que a pessoa pronuncia, assim como a aparência deles quando falam cada um deles.
De acordo com os pesquisadores, contanto que o vídeo fonte tenha pelo menos 40 minutos de duração, a IA terá dados suficientes para reunir todas as partes necessárias para fazer a pessoa parecer dizer qualquer um dos cerca de 44 fonemas da língua inglesa.
Depois disso, tudo o que uma pessoa tem que fazer é editar a transcrição do vídeo, e a IA gerará um deepfake que combina com a transcrição reescrita ao costurar de maneira inteligente os sons e movimentos da boca necessários. Simples assim.
Hasta la vista, Rambo! Deep face colocando Stalone na pele do exterminador Schwarzenegger
Tão simples que é claro que até mesmo os pesquisadores estão receosos dos problemas éticos que uma forma tão simples de, literalmente, colocar palavras na boca de outras pessoas podem trazer. Basta lembrar da enorme repercussão do caso do atacante Neymar, que se você não esteve em Marte nos últimos dias já sabe que ele foi acusado de um suposto estupro, cuja "defesa" e a "acusação" estão trocando versões na redes sociais baseados em vídeos das cenas íntimas "vazadas". Imaginem o que aconteceria em termos de arranhadas na imagem e possíveis perdas em patrocínios se fossem incluídas algumas falas falsas nessas gravações que fossem difíceis detecção e negação até mesmo por peritos?
Essa evidente falsa dublagem remete aos problemas éticos que a nova técnica poderia causar.
Exemplo de videoaula com [erro ##film##] detectado apenas na pós-produção. Sim. Esse [novo algoritmo ##film##] usa técnicas que mostraram ser uma [grande evolução ##film##] em relação a técnicas semelhantes desenvolvidas nos últimos anos. E eles têm razão quanto às enormes vantagens no uso consensual. As videoaulas, por exemplo, ficam rapidamente datadas apenas porque um personagem ou narrador citaram a data do vídeo ou algum exemplo ou evento que se mostraram [incorretos ##film##], desatualizados ou falsos. E sua produção pode ser caríssima ou mesmo inviável sendo que com o uso dessa nova técnica e uma boa revisão no roteiro poderia, muitas vezes, revigorar uma obra economizando tempo e recursos financeiros. Além de aumentar a acurácia das informações.
Outro uso formidável seria nas [traduções das dublagens ##film##]. Dubladores podem começar a por as barbas poliglotas de molho pois é simplesmente impressionantes o quanto poderia ser facilitada traduções dessa forma. É claro que as línguas têm ritmos e estilos próprios que dificultam o processo. Mas para se ter resultados rápidos e baratos, essa tecnologia tem um apelo irresistível.
Fonte: Futurism
[Visto no Brasil Acadêmico]
Quem nunca riu ou mesmo ficou furioso com o quanto a legenda de um filme difere da dublagem? Ou qual editor, autor ou mesmo ator não gostaria de ter editado somente aquela palavrinha, aquele trechinho de uma fala que, fora esse pedacinho, seria uma tomada indefectível? Pois agora, segundo pesquisas, será possível editar um vídeo apenas editando a transcrição de sua fala.
Clique Retroceder Avançar Espaço / / F
O chamado deep fake - ou deepfake, neologismo que mescla "deep learning" com "fake" que significa o uso de inteligência artificial para criar vídeos falsos onde é possível colocar trocar faces, vozes e falas de forma convincente - chegou a um nível de facilidade que pode tornar a alteração da fala de um personagem de um vídeo algo tão banal quanto a edição do texto de sua legenda.
Pesquisadores da Universidade de Stanford, da Universidade de Princeton, do Instituto Max Planck de Informática e da Adobe detalharam como seu novo algoritmo funciona em um artigo publicado no site do cientista de Stanford, Ohad Fried, esta semana.
Funciona assim: A IA analisa um vídeo de uma pessoa falando. Só que ela não está apenas observando suas palavras - ela está identificando cada minúscula unidade de som, ou fonema, que a pessoa pronuncia, assim como a aparência deles quando falam cada um deles.
De acordo com os pesquisadores, contanto que o vídeo fonte tenha pelo menos 40 minutos de duração, a IA terá dados suficientes para reunir todas as partes necessárias para fazer a pessoa parecer dizer qualquer um dos cerca de 44 fonemas da língua inglesa.
Depois disso, tudo o que uma pessoa tem que fazer é editar a transcrição do vídeo, e a IA gerará um deepfake que combina com a transcrição reescrita ao costurar de maneira inteligente os sons e movimentos da boca necessários. Simples assim.
Hasta la vista, Rambo! Deep face colocando Stalone na pele do exterminador Schwarzenegger
Tão simples que é claro que até mesmo os pesquisadores estão receosos dos problemas éticos que uma forma tão simples de, literalmente, colocar palavras na boca de outras pessoas podem trazer. Basta lembrar da enorme repercussão do caso do atacante Neymar, que se você não esteve em Marte nos últimos dias já sabe que ele foi acusado de um suposto estupro, cuja "defesa" e a "acusação" estão trocando versões na redes sociais baseados em vídeos das cenas íntimas "vazadas". Imaginem o que aconteceria em termos de arranhadas na imagem e possíveis perdas em patrocínios se fossem incluídas algumas falas falsas nessas gravações que fossem difíceis detecção e negação até mesmo por peritos?
Essa evidente falsa dublagem remete aos problemas éticos que a nova técnica poderia causar.
Reconhecemos que os maus atores podem usar essas tecnologias para falsificar declarações pessoais e difamar indivíduos proeminentes. (...) acreditamos que é necessária uma conversa pública robusta para criar um conjunto de regulamentos e leis apropriados equilibrar os riscos de uso indevido dessas ferramentas contra a importância de casos de uso criativos e consensuais. - Trechos do artigo da pesquisa
Clique Retroceder Avançar Espaço / / F
Outro uso formidável seria nas [traduções das dublagens ##film##]. Dubladores podem começar a por as barbas poliglotas de molho pois é simplesmente impressionantes o quanto poderia ser facilitada traduções dessa forma. É claro que as línguas têm ritmos e estilos próprios que dificultam o processo. Mas para se ter resultados rápidos e baratos, essa tecnologia tem um apelo irresistível.
Fonte: Futurism
[Visto no Brasil Acadêmico]
Comentários