Introdução

Concluído

Já imaginou como os assistentes de voz realmente funcionam? Como eles entendem as palavras que dizemos? Quando você pensa em assistentes de voz, você tem a primeira etapa, que é a conversão de fala em texto. Depois, a etapa de NLP (processamento de linguagem natural), que é a incorporação de palavras (conversão de palavras em números). Depois, você tem a classificação do enunciado (o que as pessoas dizem) de acordo com a intenção (o que elas querem que o assistente de voz faça). Se você estiver seguindo este roteiro de aprendizagem, aprenderá como a parte NLP já funciona. Agora, queremos examinar como podemos obter o texto do áudio falado. A classificação de áudio pode ser usada para muitas coisas, não apenas para assistentes de voz. Por exemplo, na música, você pode classificar gêneros ou detectar doenças pelo tom da voz de alguém, sem falar nos aplicativos que nós ainda nem imaginamos.

Neste módulo de aprendizagem, veremos como fazer a classificação de áudio com o TensorFlow. Há várias maneiras de criar um modelo de classificação de áudio. Você pode usar a forma de onda, marcar seções de um arquivo de onda ou até mesmo usar a visão computacional na imagem do espectrograma. Neste tutorial, primeiro vamos analisar como entender os dados de áudio, de representações analógicas a digitais e, em seguida, vamos criar o modelo usando a pesquisa visual computacional nas imagens do espectrograma. Isso mesmo, você pode transformar o áudio em uma representação de imagem e usar a pesquisa visual computacional para classificar a palavra falada! Criaremos um modelo simples que possa entender yes e no. O conjunto de dados que usaremos é o conjunto de dados aberto Comandos de Fala, que está embutido nos conjuntos de dados do TensorFlow. Este conjunto de dados tem um total de 36 palavras/sons diferentes para serem usados para classificação. Cada enunciado é armazenado como um arquivo de formato WAVE de um segundo (ou menos). Só vamos usar yes e no para uma classificação binária.

Objetivos de aprendizagem

  • Entenda alguns dos principais recursos dos dados de áudio.
  • Introdução à criação de modelos de machine learning de áudio.
  • Saiba como criar um modelo de classificação binária com base em arquivos wave.

Pré-requisitos

  • Conhecimento de Python
  • Noções básicas de machine learning