Reconhecimento de voz que funciona

0 0 War 10/12/2013 Editar post

Usei programas de reconhecimento desde os anos 1990. Agora, mais recentemente, estive em contato com o Siri do iphone e a uma solução do Goo...

Usei programas de reconhecimento desde os anos 1990. Agora, mais recentemente, estive em contato com o Siri do iphone e a uma solução do Google para fazer pesquisas pela voz usando a apenas a fala. Todavia, com o LG G2 eu tive a minha melhor experiência com essa tecnologia.

Voltamos para 1990, nessa época o Via Voice da IBM era o que havia de mais popular e eficaz em termos reconhecimento de voz (Via Voice foi introduzido em 1997, e em 1999 havia uma versão gratuita do programa). Para funcionar, Você tinha que treinar o software durante 40 minutos a uma hora. Então, você começava a fazer ditados para comandar o computador usando comando de voz como "abra o Word". Era um treino individualizado, ou seja, se um segundo usuário também usasse o Via Voice seria necessário também se submeter a uma torturante sessão de treinamento do software. Apesar de enjoado funcionava razoavelmente bem. Tinha um percentual de acerto semelhante ao que você teria digitando seus textos. mas não era muito prático e eu acabei não usando. Mas ficou a lembrança de uma interface diferente para entrar dados no computador.

Voice recognition (reconhecimento de voz) se refere ao reconhecimento de "quem" está falando, enquanto acontecendo a fala. Aplicado nos sistemas que necessitam de treino para traduzir a fala em texto e para sistemas de identificação de segurança. Speech recognition (reconhecimento de fala) é o termo que se refere ao processo automático de traduzir o que é dito em texto. Em alguns smart

O tempo passou e vieram os smartphones, que funcionam como um assistente pessoal com um crescente poder de processamento. Versões melhoradas do Via Voice foram se sucedendo, junto com o hardware necessário para seu uso, inaugurando uma nova fase de seu desenvolvimento em 2005, quando ele deixou de ser da IBM passando para ScanSoft. Surgiu a busca por voz do Google e o Siri do iPhone 4S, que permite responder questões e até transferir compromissos da agenda do usuário, de uma data para outra, tudo meio da fala.

Também já conseguia pedir a "programação de cinema em Brasília" sem digitar nada na busca por voz do Google no Galaxy S II. Apesar disso, outras consultas mais complexas eram simplesmente decepcionantes.

Deixei de lado essa tecnologia durante um tempo, sempre na esperança de que, em algum ponto no futuro dialogaríamos com os computadores em uma perfeita simbiose do reconhecimento de voz, fala e inteligência artificial. Onde essa última viabilizaria o uso das outras atividades, enquanto aquelas, permitiriam que a IA fosse continuamente alimentada e aprimorada.

Ainda espero fazer uma reunião de brainstorm com imagens, textos e links relacionados surgindo enquanto minha equipe dialoga sobre algum tema relevante. Mas não tenho pressa.

Incorporei a busca por voz no Blog Brasil Acadêmico durante um tempo, cheguei a usar um serviço de alguma operadora de telefonia, TV por assinatura, ou algo semelhante, onde dizia alguma palavra chave do menu de opções para selecionar o item (algo do tipo: "Diga 'futebol' para assinar o campeonato brasileiro pay per view"). Mas de fato não via nenhum grande avanço nessa área muito "palpável" para o usuário comum.

Mas o Google parece ter feitos avanços significativos nessa área, tenho que testemunhar que fiquei bem impressionado com a facilidade de anotar coisa a fazer na lista de tarefas de meu último smartphone Android.

Registros do tipo "reconhecer assinatura no cartório" ou "chamar seguro residencial para consertar torneira" funcionaram bem o que possibilitou uma agilidade inédita no planejamento de tarefas simples.

Ainda havia alguma confusão entre o "do" e o "no", mas, nesse caso, nem fazia tanta diferença. Para um lembrete do tipo post-it tanto faz estar escrito "pegar talão de cheques no banco" ou "pegar talão de cheques DO banco". E após encher minha "to-do list" das férias, percebi estar diante de uma forma de interação com grande potencial.

Resolvi escrever o post que você está lendo apenas ditando. Aqui apareceram os problemas. Embora tivesse com um roteiro mais ou menos delineado em mente, ainda me atrapalhava quando lembrava não estar certo de nomes e datas. E isso diminuía o ritmo e a clareza de minha fala.

Ditar um texto é bem diferente de dialogar ou mesmo de dar uma palestra. Especialmente sendo gravado.

Após algum tempo, o mecanismo da sua fala também começa a cansar, e a impostação de voz já não é a mesma. Destarte, notei que os erros se concentraram mais no final do texto.

Outra problema digno de observação, o app Blogger oficial da Google Inc. para Android parece não salvar as atualizações automaticamente, quando comparado com a versão web para desktop.

Assim, acabei perdendo a primeira versão desse texto.

Além disso, é necessário estar conectado com o Google durante o processo de reconhecimento e por algum motivo a ligação online com a empresa caiu durante a captura da fala.

Mesmo assim, foi muito bom pegar as ideias gerais do que pretendia escrever e editar. Surgia vez por outra alguns termos estranhos, e engraçados, como o meu "desde os anos 1990" que virou "10 dos anos 1990", porém, percebo uma melhora significativa no funcionamento do reconhecimento, especialmente se considerarmos não haver necessidade de treino do sistema (minha esposa também ficou admirada de sua fala ser reconhecida sem erros e sem treino) e em português do Brasil, o que é ainda mais admirável.

O vídeo a seguir mostra uma experiência usando o app Google Drive para Android, um G2 (com um processador de 2,26 GHz Snapdragon 800 Quad-Core da Qualcomm, que certamente faz diferença) e atrás do aparelho você vê o resultado saindo em um monitor também no Google Drive no browser, em um PC. Perceba que falando mais pausadamente o resultado tende a sair melhor.

Bem, vou finalizar esse post fazendo uma demonstração em tempo real de como está avançada a tecnologia de reconhecimento de voz, especialmente para o português do Brasil. Obrigado pela atenção. Agora vou passar para edição desse trecho.

Comentários

BLOGGER

Comente aqui...

FACEBOOK

DISQUS

Brasil Acadêmico

Reconhecimento de voz que funciona

Categorias:

Comentários

$show=mobile

Nuvem de Categorias

$hide=mobile$hide=home

Seguidores

/fa-comments/ Discussão$type=blogging$hide=mobile

/fa-youtube/ Brasil Acadêmico

$show=mobile

/fa-clock-o/ Tendências da Semana$type=blogging

Últimas$type=blogging$date=0$au=0$c=3$m=0

Recentes$type=list-tab$date=0$au=0$c=5

RANDOM$type=list-tab$date=0$au=0$c=5$src=random-posts

/fa-book/ Dicionário$hide=mobile$type=tab

Dicionário Bíblico

Nomes Deverbais

Nomes de Qualidade

Gentílicos e Topônimos

Estrangeirismos

Advérbios em -mente

Mudança ortográfica

Vocabulário ortográfico

Wikipedia

/fa-fire/ YEAR POPULAR$type=one

Introdução à programação usando Python

/fa-envelope/ Assine nossa newsletter

Receba as novidades por email:

Blogs interessantes$show=/p/parceiros.html

/fa-line-chart/ Contador

/fa-language/ Idioma$hide=mobile$type=tab

English to English

Reconhecimento de voz que funciona

Compartilhar

Categorias:

Compartilhar

Comentários

$show=mobile

Nuvem de Categorias

$hide=mobile$hide=home

Seguidores

/fa-comments/ Discussão$type=blogging$hide=mobile

/fa-youtube/ Brasil Acadêmico

$show=mobile

/fa-clock-o/ Tendências da Semana$type=blogging

Últimas$type=blogging$date=0$au=0$c=3$m=0

Recentes$type=list-tab$date=0$au=0$c=5

RANDOM$type=list-tab$date=0$au=0$c=5$src=random-posts

/fa-book/ Dicionário$hide=mobile$type=tab

Dicionário Bíblico

Nomes Deverbais

Nomes de Qualidade

Gentílicos e Topônimos

Estrangeirismos

Advérbios em -mente

Mudança ortográfica

Vocabulário ortográfico

Wikipedia

/fa-fire/ YEAR POPULAR$type=one

Introdução à programação usando Python

/fa-envelope/ Assine nossa newsletter

Receba as novidades por email:

Blogs interessantes$show=/p/parceiros.html

/fa-line-chart/ Contador

/fa-language/ Idioma$hide=mobile$type=tab

English to English