Voz gerada por IA da Google é praticamente idêntica à voz humana
De acordo com um artigo publicado pela Google neste mês dezembro, a empresa já tem uma solução para converter eletronicamente texto em voz de forma completamente natural. Isto é, não é mais possível distinguir uma foz humana de uma voz gerada por computador. A companhia conseguiu isso utilizando múltiplos sistemas de Inteligência artificial, mas a “cereja do bolo” é o Tacotron 2.
O Tacotron 2 usa redes neurais profundas para traduzir texto escrito em um “espectrograma”, um tipo de gráfico que organiza ondas sonoras em uma linha temporal. O sistema consegue inclusive registrar entonação de vírgulas, pontos e até mesmo palavras em caixa alta. O elemento gerado é então enviado para um segundo sistema de inteligência artificial, o WaveNet, que também utiliza redes neurais profundas. O WaveNet então traduz as informações do espectrograma em voz.