‘Não é apenas sobre o que você diz. É também sobre como você diz isso’. Este antigo ditado resume de forma bastante adequada a necessidade dos seres humanos de se comunicarem de forma eficaz uns com os outros. A necessidade dos humanos de se conectarem uns aos outros por meio da voz e dos sons apresentou um futuro em que a comunicação com as máquinas se tornou inevitável.
Um fator-chave para a crescente adoção da comunicação por voz tem sido acelerado com a expansão da Internet das Coisas (IoT) e da inteligência artificial (IA). A integração da IA no endpoint – combinada com os avanços na análise de voz – está mudando a disponibilidade de produtos, e o consumo de experiências de produtos está dando origem a um novo ecossistema de empresas participantes e capacitadoras desses produtos. As soluções inteligentes de endpoint estão possibilitando a implementação de sistemas online e offline, reduzindo a dependência de conexões de internet/nuvem sempre ativas. Isso, por sua vez, está criando novas oportunidades para resolver muitos desafios relacionados à análise de voz em tempo real em vários aplicativos industriais e de consumo. Os avanços na análise de dados psicolinguísticos e na computação afetiva permitem inferir emoções, atitudes e intenções com modelagem de voz baseada em dados. Com o meio de voz se tornando uma forma natural para os humanos interagirem, isso levará a melhorias na medição da intenção de reconhecimento de voz e análise de voz.
Desafios do uso de VUIs
As interfaces de usuário de voz (VUIs) permitem que o usuário interaja com sistemas por meio de comandos de voz ou fala. Apesar das implantações em massa em uma ampla gama de aplicativos, as VUIs têm algumas limitações.
- Baixa qualidade de som: a qualidade de som inconsistente com ruído de fundo contínuo pode tornar o reconhecimento de voz um desafio. Os controladores de voz em IoT só podem operar perfeitamente se o som for claro, o que é um desafio em um ambiente barulhento. Um assistente ativado por voz só pode ser verdadeiramente eficaz se puder suportar diferentes idiomas e sotaques, além de isolar a voz humana do ruído de fundo.
- Consumo de energia: Os sistemas de Comando de Voz são restritivos, pois exigem a ativação de pelo menos um microfone, bem como o processador que reconhece a palavra de ativação.
- Processamento em tempo real: redes lentas ou congestionadas podem resultar em latências de comando que podem afetar a experiência do usuário. Esse problema pode ser resolvido implementando inteligência distribuída no endpoint com a capacidade de processar o comando de voz em tempo real sem qualquer dependência do sistema de nuvem centralizado.
- Precisão e imunidade ao ruído: a precisão do reconhecimento de voz e a imunidade ao ruído de fundo são sempre as principais preocupações ao projetar qualquer sistema VUI. O reconhecimento de voz apresenta vários desafios, pois pode haver várias fontes de som, incluindo ruído interno e externo e ecos de superfícies na sala, etc. microfones, beamforming, cancelamento de eco e supressão de ruído.
Neste artigo, a Renesas Electronics aborda esses desafios usando microcontroladores de última geração e algoritmos de processamento de voz inteligentes habilitados por parceiros, o que torna mais fácil para os fabricantes de produtos integrar comandos de voz altamente eficientes. A Renesas Electronics fornece microcontroladores de uso geral que permitem a integração VUI sem comprometer o desempenho e o consumo de energia.
Requisitos para Reconhecimento de Voz Robusto
Para tornar a experiência atraente para o usuário, os dispositivos precisam ser equipados com vários componentes para garantir um reconhecimento de voz robusto.
Reconhecimento de Comando
Um dos recursos mais significativos de um dispositivo habilitado para voz é sua capacidade de identificar comandos de fala de uma entrada de áudio. O sistema de reconhecimento de comando de fala no dispositivo é ativado pela palavra de ativação, que então pega a entrada, a interpreta e a transcreve em texto. Este texto, em última análise, serve ao propósito da entrada ou comando para executar a tarefa específica.
Detecção de atividade de voz
A detecção de atividade de voz (VAD) é o processo que distingue a fala humana do sinal de áudio e do ruído de fundo. O VAD é ainda utilizado para melhorar a otimização do consumo geral de energia do sistema; o sistema precisa estar ativo o tempo todo, resultando em consumo de energia desnecessário. O algoritmo VAD pode ser subdividido em quatro etapas (Figura 1):
A solução de comando de voz Renesas RA construída na família RA MCU e o reconhecimento de voz habilitado por parceiros MW possui uma técnica robusta de redução de ruído que ajuda a garantir alta precisão no VAD. Além disso, a Renesas pode ajudar a abordar alguns dos principais recursos de comando de voz descritos abaixo:
Identificação de palavras-chave
Os sistemas de detecção de palavras-chave (KWS) são um dos principais recursos de qualquer dispositivo habilitado para voz. O KWS depende do reconhecimento de fala para identificar as palavras-chave e frases. Essas palavras acionam e iniciam o processo de reconhecimento no endpoint, permitindo que o áudio corresponda ao restante da consulta (Figura 2).
Para contribuir para uma melhor experiência do usuário com o viva-voz, o KWS é necessário para fornecer respostas em tempo real altamente precisas. Isso coloca uma imensa restrição no orçamento de energia do KWS. Portanto, a Renesas fornece modelos de machine learning (ML) otimizados de alto desempenho habilitados para parceiros, capazes de executar em microcontroladores RA avançados de 32 bits. Eles vêm com modelos DNN pré-treinados, que ajudam a obter alta precisão ao realizar a localização de palavras-chave.
Identificação do locutor
A identificação do locutor, como o nome sugere, é o processo de identificação de qual locutor registrado possui a entrada de voz fornecida (Figura 3). O reconhecimento de locutor pode ser classificado como dependente de texto, independente de texto e solicitado por texto. Para treinar o DNN para identificação do locutor, são obtidas idiossincrasias individuais, como dialeto, pronúncia, prosódia (padrões rítmicos da fala) e uso do telefone.
Anti-spoofing de voz/som
O Spoofing é um tipo de fraude em que o intruso tenta obter acesso não autorizado a um sistema fingindo ser o locutor-alvo. Isso pode ser combatido incluindo um software anti-spoofing para garantir a segurança do sistema. Os ataques de falsificação geralmente são contra Sistemas de Verificação Automática de Falantes (ASV) (Figura 4). As amostras de fala falsificadas podem ser geradas usando síntese de fala, conversão de voz ou apenas reproduzindo a fala gravada. Esses ataques podem ser classificados como diretos ou indiretos, dependendo de como eles interagem com o sistema ASV.
- Ataque Direto: isso pode ocorrer através do sensor do microfone e do nível de transmissão, e também é conhecido como Acesso Físico.
- Ataque Indireto: é uma invasão na extração de recursos, modelos e processo de tomada de decisão do software do sistema ASV e também é conhecido como Ataque de Acesso Lógico.
Reconhecimento e compreensão de vários idiomas/sotaques
O reconhecimento de sotaque em países de língua inglesa é um processo muito mais tranquilo devido à disponibilidade de dados de treinamento e, portanto, previsões precisas. A desvantagem para organizações que operam em países onde o inglês não é o primeiro idioma é a menor precisão com o reconhecimento de fala devido à disponibilidade de uma quantidade limitada de dados. Uma quantidade inadequada de dados de treinamento torna desafiadora a construção de modelos conversacionais de alta precisão.
Para superar o problema de reconhecimento de sotaque, a Renesas oferece soluções habilitadas por parceiros VUI que suportam mais de 44 idiomas, tornando-a uma solução de reconhecimento de fala altamente adaptável que pode ser usada por qualquer organização em todo o mundo.
O blog Give Voice to Smart Products foi publicado originalmente em www.renesas.com sendo republicado aqui com permissão.
Artigo escrito por Renesas Electronics e publicado no blog da Mouser Electronics: Giving Voice to Smart Products
Traduzido pela Equipe Embarcados. Visite a página da Mouser Electronics no Embarcados
(*) este post foi patrocinado pela Mouser Electronics.









