Introdução

Concluído

Você já se perguntou como os assistentes de voz realmente funcionam? Como eles entendem as palavras que dizemos? Quando você pensa em assistentes de voz, você tem o primeiro passo, que é a conversão de fala em texto, depois o passo de Processamento de Linguagem Natural (PNL), que é a incorporação de palavras (transformar palavras em números), então você tem uma classificação do enunciado (o que as pessoas dizem) para a intenção (o que elas querem que o assistente de voz faça). Se você está seguindo este caminho de aprendizagem, você já terá aprendido como a parte de PNL funciona. Agora queremos ver como obtemos o texto do áudio falado. A classificação de áudio pode ser usada para muitas coisas, não apenas para assistentes de fala. Por exemplo, na música você pode classificar gêneros, ou detetar doenças pelo tom de voz de alguém, e ainda mais aplicações que ainda nem pensamos.

Neste módulo de aprendizagem vamos aprender a fazer classificação de áudio com o TensorFlow. Há várias maneiras de criar um modelo de classificação de áudio. Você pode usar a forma de onda, marcar seções de um arquivo de onda ou até mesmo usar visão computacional na imagem do espectrograma. Neste tutorial, vamos primeiro detalhar como entender os dados de áudio, de representações analógicas para digitais, em seguida, vamos construir o modelo usando visão computacional nas imagens de espectrograma. Isso mesmo, você pode transformar o áudio em uma representação de imagem e, em seguida, usar a visão computacional para classificar a palavra falada! Estaremos construindo um modelo simples que pode entender yes e no. O conjunto de dados que usaremos é o conjunto de dados aberto Comandos de Fala que são incorporados aos conjuntos de dados do TensorFlow. Este conjunto de dados tem 36 palavras/sons diferentes no total para serem usados para classificação. Cada enunciado é armazenado como um arquivo de formato WAVE de um segundo (ou menos). Estaremos usando yes apenas e no para uma classificação binária.

Objetivos de aprendizagem

  • Entenda algumas das principais características dos dados de áudio.
  • Introdução a como construir modelos de aprendizagem automática de áudio.
  • Saiba como criar um modelo de classificação binária a partir de arquivos wave.

Pré-requisitos

  • Conhecimentos de Python
  • Compreensão básica de aprendizado de máquina