Inicio rápido: conversión de voz en texto con el modelo Whisper de Azure OpenAI
En este inicio rápido, se usará el modelo Whisper de Azure OpenAI para la conversión de voz en texto.
El límite de tamaño de archivo para el modelo Whisper de Azure OpenAI es de 25 MB. Si necesita transcribir un archivo de más de 25 MB, puede usar la API de transcripción por lotes de Voz de Azure AI.
Requisitos previos
- Una suscripción a Azure (cree una cuenta gratuita).
- Acceso concedido a Azure OpenAI Service en la suscripción de Azure deseada.
- Un recurso de Azure OpenAI con un modelo
whisper
implementado en una región admitida. Disponibilidad regional del modelo Whisper. Para obtener más información, consulte Creación de un recurso e implementación de un modelo con Azure OpenAI.
Nota:
Actualmente, debe enviar una aplicación para acceder a Azure OpenAI Service. Para solicitar acceso, complete este formulario.
Configuración
Recuperación de la clave y el punto de conexión
Para realizar correctamente una llamada en Azure OpenAI, necesitará un punto de conexión y una clave.
Nombre de la variable | Valor |
---|---|
AZURE_OPENAI_ENDPOINT |
Este valor se puede encontrar en la sección Claves y punto de conexión al examinar el recurso en Azure Portal. Como alternativa, puede encontrar el valor en Azure OpenAI Studio>Playground>Code View. Punto de conexión de ejemplo: https://aoai-docs.openai.azure.com/ . |
AZURE_OPENAI_API_KEY |
Este valor se puede encontrar en la sección Claves y punto de conexión al examinar el recurso en Azure Portal. Puede usar KEY1 o KEY2 . |
Vaya al recurso en Azure Portal. El punto de conexión y las claves se pueden encontrar en la sección Administración de recursos. Copie el punto de conexión y la clave de acceso, ya que los necesitará para autenticar las llamadas API. Puede usar KEY1
o KEY2
. Tener siempre dos claves permite rotar y regenerar las claves de forma segura sin provocar una interrupción del servicio.
Cree y asigne variables de entorno persistentes para la clave y el punto de conexión.
Variables de entorno
setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE"
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"
API DE REST
En un shell de Bash, ejecute el siguiente comando. Es necesario reemplazar YourDeploymentName
por el nombre de implementación que eligió al implementar el modelo Whisper. El nombre de implementación no es necesariamente el mismo que el nombre del modelo. Al escribir el nombre del modelo se producirá un error a menos que elija un nombre de implementación idéntico al nombre del modelo subyacente.
curl $AZURE_OPENAI_ENDPOINT/openai/deployments/YourDeploymentName/audio/transcriptions?api-version=2024-02-01 \
-H "api-key: $AZURE_OPENAI_API_KEY" \
-H "Content-Type: multipart/form-data" \
-F file="@./wikipediaOcelot.wav"
El formato de su primera línea del comando con un ejemplo de punto de conexión aparecería como se indica en curl https://aoai-docs.openai.azure.com/openai/deployments/{YourDeploymentName}/audio/transcriptions?api-version=2024-02-01 \
.
Es posible obtener archivos de audio de ejemplo desde el repositorio de SDK de Voz de Azure AI en GitHub.
Importante
En el caso de producción, use una forma segura de almacenar sus credenciales y acceder a ellas, como Azure Key Vault. Para obtener más información sobre la seguridad de las credenciales, consulte el artículo Seguridad de servicios de Azure AI.
Output
{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}
PowerShell
Ejecute el siguiente comando: Es necesario reemplazar YourDeploymentName
por el nombre de implementación que eligió al implementar el modelo Whisper. El nombre de implementación no es necesariamente el mismo que el nombre del modelo. Al escribir el nombre del modelo se producirá un error a menos que elija un nombre de implementación idéntico al nombre del modelo subyacente.
# Azure OpenAI metadata variables
$openai = @{
api_key = $Env:AZURE_OPENAI_API_KEY
api_base = $Env:AZURE_OPENAI_ENDPOINT # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_version = '2024-02-01' # this may change in the future
name = 'YourDeploymentName' #This will correspond to the custom name you chose for your deployment when you deployed a model.
}
# Header for authentication
$headers = [ordered]@{
'api-key' = $openai.api_key
}
$form = @{ file = get-item -path './wikipediaOcelot.wav' }
# Send a completion call to generate an answer
$url = "$($openai.api_base)/openai/deployments/$($openai.name)/audio/transcriptions?api-version=$($openai.api_version)"
$response = Invoke-RestMethod -Uri $url -Headers $headers -Form $form -Method Post -ContentType 'multipart/form-data'
return $response.text
Es posible obtener archivos de audio de ejemplo desde el repositorio de SDK de Voz de Azure AI en GitHub.
Importante
En entornos de producción, use una forma segura de almacenar sus credenciales y acceder a ellas, como PowerShell Secret Management con Azure Key Vault. Para obtener más información sobre la seguridad de las credenciales, consulte el artículo Seguridad de servicios de Azure AI.
Output
The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs.
Python
Requisitos previos
- Python 3.8 o una versión posterior
- Las siguientes bibliotecas de Python: os.
Configuración
Instalar la biblioteca cliente de OpenAl Python con:
pip install openai
Cree un nuevo archivo de Python denominado quickstart.py. A continuación, ábralo en el editor o IDE preferidos.
Reemplace el contenido de quickstart-file.py por el código siguiente. Modifique el código para agregar el nombre de la implementación:
import os
from openai import AzureOpenAI
client = AzureOpenAI(
api_key=os.getenv("AZURE_OPENAI_API_KEY"),
api_version="2024-02-01",
azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
)
deployment_id = "YOUR-DEPLOYMENT-NAME-HERE" #This will correspond to the custom name you chose for your deployment when you deployed a model."
audio_test_file = "./wikipediaOcelot.wav"
result = client.audio.transcriptions.create(
file=open(audio_test_file, "rb"),
model=deployment_id
)
print(result)
Ejecute la aplicación con el comando python en el archivo de inicio rápido:
Es posible obtener archivos de audio de ejemplo desde el repositorio de SDK de Voz de Azure AI en GitHub.
Importante
En el caso de producción, use una forma segura de almacenar sus credenciales y acceder a ellas, como Azure Key Vault. Para obtener más información sobre la seguridad de las credenciales, consulte el artículo Seguridad de servicios de Azure AI.
Output
{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}
Limpieza de recursos
Si quiere limpiar y quitar un recurso de Azure OpenAI, puede eliminar el recurso. Antes de eliminar el recurso, primero deberá eliminar los modelos implementados.
Pasos siguientes
- Obtenga más información sobre cómo trabajar con modelos Whisper con la API de transcripción por lotes de Voz de Azure AI.
- Para obtener más ejemplos, consulte el repositorio de GitHub de ejemplos de Azure OpenAl
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de