Eficiente na leitura labial, sistemas inteligentes colocam ainda mais pressão na privacidade. I magine só a seguinte cena: Você recebe uma m...
Eficiente na leitura labial, sistemas inteligentes colocam ainda mais pressão na privacidade.
Imagine só a seguinte cena: Você recebe uma multa porque um drone notou que você estava falando ao celular enquanto dirigia na rodovia e... uma convocação para se explicar na Receita Federal pois aconselhava alguém a considerar sonegar algum imposto inventando despesas fictícias. Surpreso você poderia se indagar com um bordão: Pode isso, Arnaldo?
Fonte: Engadget, Super, Observatório da Imprensa, Canal Tech, MIT Technology Review, Torcedores.com, YouTube.
Visto no Brasil Acadêmico
A ideia aqui não é fazer apologia a nenhuma ilegalidade. Mas é bom lembrarmos do que aconteceu com os jogadores de futebol e outras modalidades desportivas. Hoje em dia todos os envolvidos, inclusive técnicos e árbitros, só conversam tapando a boca com as mãos. Não seria nenhuma surpresa se até mesmo a torcida começar a fazer isso.
E isso não era comum até a Copa de 2014. Apesar de já haver leitura labial na Copa do Mundo de 1994, com o extinto jornal paulista Notícias Populares publicando reportagem baseada na leitura labial de uma conversa mais acalorada entre Parreira e o atacante Müller após as oitavas-de-final, a TV Globo exibiu uma atração no Fantástico nas Copas de 2006 e 2010 usando adolescentes surdos conhecedores da leitura labial para pegar as falas dos envolvidos. Isso irritou Parreira em 2010 e, em 2014, Felipão, que antes também teve seu lábios lidos quando treinou a seleção portuguesa, passou a tapar a boca com o boné e as mãos ao treinar a seleção brasileira, e ambos reclamaram da invasão da privacidade.
Por outro lado, no documentário “Eles Não Envelhecerão” (They Shall Not Grow Old, 2018) sobre a vida dos soldados britânicos na Primeira Guerra Mundial do diretor de O Senhor dos Anéis, Peter Jackson, filmes mudos de mais de cem anos foram modernizados com colorização e sonorização sendo todo narrado pelos soldados que lutaram na época, com sonorização e dublagem dos diálogos que não existiram originalmente. Para ter uma ideia do que as pessoas apresentadas nas imagens de arquivo estavam dizendo, Jackson contratou uma equipe de leitores de lábios forenses para estimar suas declarações gravadas. Segundo se alegou, “os leitores labiais eram tão precisos que eram capazes de determinar o dialeto e o sotaque das pessoas que falavam”.
“Esses caras não viviam em um mundo silencioso em preto e branco, e este filme não é sobre a guerra; é sobre a experiência do soldado lutando na guerra. Eu queria que o público visse, o mais próximo possível, o que os soldados viram e como eles viram e ouviram.”
Peter Jackson ao Daily Sentinel em 2018
Apesar desses “feitos”, o ser humano erra muito essa leitura e depende bastante do contexto para realizá-la com alguma eficácia. Com um treino adequado, a técnica da leitura orofacial pode ser aprendida, porém, pesquisas apontam que apenas 50% do que é falado pode ser realmente entendido, mesmo sob condições ideais de luz, barulhos externos e visão do leitor. Um estudo de 2009 descobriu que a maioria das pessoas só consegue ler lábios com cerca de 20% de precisão e o Guia dos Pais de Perda Auditiva em Crianças do CDC estima que “um bom leitor de fala pode ser capaz de ver apenas 4 a 5 palavras em uma frase de 12 palavras”. Outro estudo, de 2011, da Universidade de Oklahoma, detectou apenas cerca de 10% de precisão em seus assuntos de teste. 30% no teste CUNY e você já seria considerado um leitor labial fora-de-série.
Sistemas inteligentes que reconhecem a voz como a Amazon Alexa ou o Apple Siri, dentre outros, são extraordinariamente mais precisos do que quando essa pesquisa começou a ter os primeiros sucessos comerciais, como o IBM ViaVoice, aplicativo que necessitava que você ficasse lendo um texto de Machado de Assis por 40 minutos para ter um desempenho apenas razoável no reconhecimento de sua voz.
“Geralmente pensamos na fala como o que ouvimos, mas a parte audível da fala é apenas parte dela. Conforme percebemos, a fala de uma pessoa pode ser dividida em unidades visuais e auditivas. As unidades visuais, chamadas visemas, são vistas como movimentos labiais. As unidades audíveis, chamadas fonemas, são ouvidas como ondas sonoras.”Dr. Fabian Campbell-West. CTO da desenvolvedora de aplicativos de leitura labial, Liopa , ao Engadget por e-mail.
Esses modelos reconhecem a voz pelos fonemas. Mas o reconhecimento da fala também inclui boa parte de pistas visuais (visemas) que ajudam no entendimento do que está sendo dito. E é nesse ponto que o aprendizado de máquina leva vantagem em relação ao intérprete humano.
“A pesquisa em reconhecimento automático de fala (ASR) é extremamente madura e o estado da arte atual é irreconhecível em comparação com o que era possível quando a pesquisa começou. O reconhecimento visual de fala (VSR) ainda está nos estágios relativamente iniciais de exploração e os sistemas continuarão a amadurecer.”
Dr. Fabian Campbell-West
Há muito menos informação disponível nos visemas e uma maior ambiguidade. Ainda que seja mais fácil para uma IA ser treinada e retreinada indefinidamente do que para os humanos que recorrem mais ao contexto para diferenciar palavras como “leiloada” de “feijoada” (a primeira é mais provável em um leilão de obras de arte e a segunda em um almoço com feijões pretos em um sábado qualquer), essa também é uma abordagem pela qual IA está obtendo muito bons resultados.
Uma equipe de pesquisadores da Universidade de Oxford desenvolveram o LipNet em 2016. Um sistema que assiste a uma pessoa mexendo a boca e descobre o que estava sendo pronunciado com precisão de 93,4%. Para se ter uma ideia do quanto isso é preciso, nas mesmas condições, os humanos só acertaram em 52,3% dos casos.
O LipNet foi melhor que um sistema anterior de leitura labial, que ainda assim tinha precisão de 79,6% (isto é, já superava os intérpretes humanos). A tecnologia anterior tentava entender cada palavra, enquanto o LipNet aproveita a IA justamente para montar sentenças inteiras, o que melhora bastante os resultados obtidos.
Mas o LipNet estava interpretando vídeos em condições ideais, outro projeto de leitura orofacial da Universidade de Oxford treinou a IA com vídeos em condições mais reais. Foram usadas 5.000 horas de conteúdo de televisão da BBC, com um total de 118 mil sentenças mais complicadas, incluindo coisas como “West Wales and the South West as well as Western Scotland” (Oeste de Gales e Sudoeste, bem como Oeste da Escócia).
Ainda assim, a IA foi capaz de identificar 46,8% de todas as palavras corretamente. O que foi bem melhor que os humanos em iguais condições, que registraram apenas 12,4% das palavras sem erros.
Hoje, a Microsoft já usa IA para impedir interrupções e ecos nas chamadas de áudio. Pode chegar o dia que ferramentas como essa vão considerar a leitura labial para dublar trechos que estariam mudos por falhas na comunicação devido a problemas de conexão, em uma espécie de deep fake do bem, ou ainda melhorar o resultado obtido pela tecla SAP, aprimorando as legendas com base também nos sinais visuais dos falantes.
Fonte: Engadget, Super, Observatório da Imprensa, Canal Tech, MIT Technology Review, Torcedores.com, YouTube.
Visto no Brasil Acadêmico
Comentários