Rychlý start: Převod řeči na text pomocí modelu Azure OpenAI Whisper
Tento rychlý start vysvětluje, jak použít model Azure OpenAI Whisper pro převod řeči na text. Model Šeptač může přepisovat lidskou řeč v mnoha jazycích a může také překládat další jazyky do angličtiny.
Limit velikosti souboru pro model Whisper je 25 MB. Pokud potřebujete přepsat soubor větší než 25 MB, můžete použít rozhraní API pro dávkový přepis služby Azure AI Speech.
Požadavky
Předplatné Azure – Vytvořte si ho zdarma.
Prostředek Azure OpenAI nasazený v podporované oblasti a s podporovaným modelem.
Ujistěte se, že máte přiřazenou alespoň roli Přispěvatel služeb Cognitive Services pro prostředek Azure OpenAI.
Pokud nemáte vlastní data, stáhněte si ukázková data z GitHubu .
Nastavení
Načtení klíče a koncového bodu
K úspěšnému volání azure OpenAI potřebujete koncový bod a klíč.
Název proměnné | Hodnota |
---|---|
AZURE_OPENAI_ENDPOINT |
Tuto hodnotu najdete v části Klíče a koncový bod při zkoumání prostředku na webu Azure Portal. Případně můžete hodnotu najít v zobrazení kódu Azure OpenAI Studio>Playground>. Ukázkový koncový bod je: https://aoai-docs.openai.azure.com/ . |
AZURE_OPENAI_API_KEY |
Tuto hodnotu najdete v části Klíče a koncový bod při zkoumání prostředku na webu Azure Portal. Použít můžete předponu KEY1 nebo KEY2 . |
Na webu Azure Portal přejděte ke svému prostředku. Koncový bod a klíče najdete v části Správa prostředků. Zkopírujte koncový bod a přístupový klíč, protože budete potřebovat obojí pro ověřování volání rozhraní API. Použít můžete předponu KEY1
nebo KEY2
. Vždy mít dva klíče vám umožní bezpečně otáčet a znovu vygenerovat klíče, aniž by to způsobilo přerušení služeb.
Proměnné prostředí
Vytvořte a přiřaďte trvalé proměnné prostředí pro klíč a koncový bod.
Důležité
Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.
Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.
setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE"
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"
Vytvoření požadavku a odpovědi rozhraní REST API
V prostředí Bash spusťte následující příkaz. Musíte nahradit YourDeploymentName
názvem nasazení, který jste zvolili při nasazení modelu Šept. Název nasazení nemusí být nutně stejný jako název modelu. Zadáním názvu modelu dojde k chybě, pokud jste nevybrali název nasazení, který je shodný s názvem základního modelu.
curl $AZURE_OPENAI_ENDPOINT/openai/deployments/YourDeploymentName/audio/transcriptions?api-version=2024-02-01 \
-H "api-key: $AZURE_OPENAI_API_KEY" \
-H "Content-Type: multipart/form-data" \
-F file="@./wikipediaOcelot.wav"
První řádek předchozího příkazu s ukázkovým koncovým bodem by vypadal takto:
curl https://aoai-docs.openai.azure.com/openai/deployments/{YourDeploymentName}/audio/transcriptions?api-version=2024-02-01 \
Ukázkové zvukové soubory, například wikipediaOcelot.wav, můžete získat z úložiště Azure AI Speech SDK na GitHubu.
Důležité
Pro produkční prostředí uložte přihlašovací údaje a získejte k němu přístup pomocí zabezpečené metody, jako je Azure Key Vault. Další informace o zabezpečení přihlašovacích údajů najdete v tématu Zabezpečení služeb Azure AI.
Výstup
{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}
Požadavky
- Předplatné Azure. Můžete si ho zdarma vytvořit.
- Prostředek Azure OpenAI s modelem Whisper nasazeným v podporované oblasti. Další informace najdete v tématu Vytvoření prostředku a nasazení modelu pomocí Azure OpenAI.
- Python 3.8 nebo novější
- Následující knihovna Pythonu: os
Nastavení
Načtení klíče a koncového bodu
K úspěšnému volání azure OpenAI potřebujete koncový bod a klíč.
Název proměnné | Hodnota |
---|---|
AZURE_OPENAI_ENDPOINT |
Tuto hodnotu najdete v části Klíče a koncový bod při zkoumání prostředku na webu Azure Portal. Případně můžete hodnotu najít v zobrazení kódu Azure OpenAI Studio>Playground>. Ukázkový koncový bod je: https://aoai-docs.openai.azure.com/ . |
AZURE_OPENAI_API_KEY |
Tuto hodnotu najdete v části Klíče a koncový bod při zkoumání prostředku na webu Azure Portal. Použít můžete předponu KEY1 nebo KEY2 . |
Na webu Azure Portal přejděte ke svému prostředku. Koncový bod a klíče najdete v části Správa prostředků. Zkopírujte koncový bod a přístupový klíč, protože budete potřebovat obojí pro ověřování volání rozhraní API. Použít můžete předponu KEY1
nebo KEY2
. Vždy mít dva klíče vám umožní bezpečně otáčet a znovu vygenerovat klíče, aniž by to způsobilo přerušení služeb.
Proměnné prostředí
Vytvořte a přiřaďte trvalé proměnné prostředí pro klíč a koncový bod.
Důležité
Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.
Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.
setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE"
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"
Doporučuje se ověřování bez hesla.
Pro ověřování bez hesla musíte
@azure/identity
Použijte balíček.- Přiřaďte roli k uživatelskému
Cognitive Services User
účtu. Můžete to udělat na webu Azure Portal v části Řízení přístupu (IAM)>Přidat přiřazení role. - Přihlaste se pomocí Azure CLI, například
az login
.
Vytvoření prostředí Pythonu
Nainstalujte klientskou knihovnu OpenAI Pythonu pomocí:
pip install openai
Vytvoření aplikace v Pythonu
Vytvořte nový soubor Pythonu s názvem quickstart.py. Pak ho otevřete v preferovaném editoru nebo integrovaném vývojovém prostředí (IDE).
Obsah quickstart.py nahraďte následujícím kódem. Upravte kód a přidejte název nasazení:
import os
from openai import AzureOpenAI
client = AzureOpenAI(
api_key=os.getenv("AZURE_OPENAI_API_KEY"),
api_version="2024-02-01",
azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
)
deployment_id = "YOUR-DEPLOYMENT-NAME-HERE" #This will correspond to the custom name you chose for your deployment when you deployed a model."
audio_test_file = "./wikipediaOcelot.wav"
result = client.audio.transcriptions.create(
file=open(audio_test_file, "rb"),
model=deployment_id
)
print(result)
Spusťte aplikaci pomocí příkazu v souboru rychlého python
startu:
python quickstart.py
Ukázkové zvukové soubory, například wikipediaOcelot.wav, můžete získat z úložiště Azure AI Speech SDK na GitHubu.
Důležité
Pro produkční prostředí uložte přihlašovací údaje a získejte k němu přístup pomocí zabezpečené metody, jako je Azure Key Vault. Další informace o zabezpečení přihlašovacích údajů najdete v tématu Zabezpečení služeb Azure AI.
Výstup
{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}
Ukázky balíčku zdrojového kódu | (npm) |
Požadavky
- Předplatné Azure – Vytvoření předplatného zdarma
- Verze LTS Node.js
- Prostředek Azure OpenAI vytvořený v podporované oblasti (viz Dostupnost oblastí). Další informace najdete v tématu Vytvoření prostředku a nasazení modelu pomocí Azure OpenAI.
Nastavení
Načtení klíče a koncového bodu
K úspěšnému volání azure OpenAI potřebujete koncový bod a klíč.
Název proměnné | Hodnota |
---|---|
AZURE_OPENAI_ENDPOINT |
Tuto hodnotu najdete v části Klíče a koncový bod při zkoumání prostředku na webu Azure Portal. Případně můžete hodnotu najít v zobrazení kódu Azure OpenAI Studio>Playground>. Ukázkový koncový bod je: https://aoai-docs.openai.azure.com/ . |
AZURE_OPENAI_API_KEY |
Tuto hodnotu najdete v části Klíče a koncový bod při zkoumání prostředku na webu Azure Portal. Použít můžete předponu KEY1 nebo KEY2 . |
Na webu Azure Portal přejděte ke svému prostředku. Koncový bod a klíče najdete v části Správa prostředků. Zkopírujte koncový bod a přístupový klíč, protože budete potřebovat obojí pro ověřování volání rozhraní API. Použít můžete předponu KEY1
nebo KEY2
. Vždy mít dva klíče vám umožní bezpečně otáčet a znovu vygenerovat klíče, aniž by to způsobilo přerušení služeb.
Proměnné prostředí
Vytvořte a přiřaďte trvalé proměnné prostředí pro klíč a koncový bod.
Důležité
Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.
Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.
setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE"
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"
Doporučuje se ověřování bez hesla.
Pro ověřování bez hesla musíte
@azure/identity
Použijte balíček.- Přiřaďte roli k uživatelskému
Cognitive Services User
účtu. Můžete to udělat na webu Azure Portal v části Řízení přístupu (IAM)>Přidat přiřazení role. - Přihlaste se pomocí Azure CLI, například
az login
.
Vytvoření aplikace Node
V okně konzoly (například cmd, PowerShell nebo Bash) vytvořte pro vaši aplikaci nový adresář a přejděte do něj. Potom spuštěním npm init
příkazu vytvořte aplikaci uzlu se souborem package.json .
npm init
Instalace klientské knihovny
Nainstalujte klientské knihovny pomocí:
npm install openai @azure/identity
Soubor package.json vaší aplikace se aktualizuje o závislosti.
Vytvoření ukázkové aplikace
Vytvořte nový soubor s názvem Whisper.js a otevřete ho v preferovaném editoru kódu. Do souboru Whisper.js zkopírujte následující kód:
require("dotenv/config"); const { createReadStream } = require("fs"); const { AzureOpenAI } = require("openai"); // You will need to set these environment variables or edit the following values const audioFilePath = process.env["AUDIO_FILE_PATH"] || "<audio file path>"; const endpoint = process.env["AZURE_OPENAI_ENDPOINT"] || "<endpoint>"; const apiKey = process.env["AZURE_OPENAI_API_KEY"] || "<api key>"; // Required Azure OpenAI deployment name and API version const apiVersion = "2024-08-01-preview"; const deploymentName = "whisper"; function getClient() { return new AzureOpenAI({ endpoint, apiKey, apiVersion, deployment: deploymentName, }); } export async function main() { console.log("== Transcribe Audio Sample =="); const client = getClient(); const result = await client.audio.transcriptions.create({ model: "", file: createReadStream(audioFilePath), }); console.log(`Transcription: ${result.text}`); } main().catch((err) => { console.error("The sample encountered an error:", err); });
Spusťte skript pomocí následujícího příkazu:
node Whisper.js
Ukázkové zvukové soubory, například wikipediaOcelot.wav, můžete získat z úložiště Azure AI Speech SDK na GitHubu.
Důležité
Pro produkční prostředí uložte přihlašovací údaje a získejte k němu přístup pomocí zabezpečené metody, jako je Azure Key Vault. Další informace o zabezpečení přihlašovacích údajů najdete v tématu Zabezpečení služeb Azure AI.
Výstup
{"text":"The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs."}
Požadavky
- Předplatné Azure – Vytvoření předplatného zdarma
- Můžete použít nejnovější verzi, PowerShell 7 nebo Windows PowerShell 5.1.
- Prostředek služby Azure OpenAI s nasazeným modelem Další informace o nasazení modelu najdete v tématu Průvodce nasazením prostředku.
- Prostředek služby Azure OpenAI s
gpt-35-turbo
nasazenými modelygpt-4
Další informace o nasazení modelu najdete v tématu Průvodce nasazením prostředku.
Nastavení
Načtení klíče a koncového bodu
K úspěšnému volání azure OpenAI potřebujete koncový bod a klíč.
Název proměnné | Hodnota |
---|---|
AZURE_OPENAI_ENDPOINT |
Tuto hodnotu najdete v části Klíče a koncový bod při zkoumání prostředku na webu Azure Portal. Případně můžete hodnotu najít v zobrazení kódu Azure OpenAI Studio>Playground>. Ukázkový koncový bod je: https://aoai-docs.openai.azure.com/ . |
AZURE_OPENAI_API_KEY |
Tuto hodnotu najdete v části Klíče a koncový bod při zkoumání prostředku na webu Azure Portal. Použít můžete předponu KEY1 nebo KEY2 . |
Na webu Azure Portal přejděte ke svému prostředku. Koncový bod a klíče najdete v části Správa prostředků. Zkopírujte koncový bod a přístupový klíč, protože budete potřebovat obojí pro ověřování volání rozhraní API. Použít můžete předponu KEY1
nebo KEY2
. Vždy mít dva klíče vám umožní bezpečně otáčet a znovu vygenerovat klíče, aniž by to způsobilo přerušení služeb.
Proměnné prostředí
Vytvořte a přiřaďte trvalé proměnné prostředí pro klíč a koncový bod.
Důležité
Pokud používáte klíč rozhraní API, uložte ho bezpečně někam jinam, například ve službě Azure Key Vault. Nezahrnujte klíč rozhraní API přímo do kódu a nikdy ho nevštěvujte veřejně.
Další informace o zabezpečení služeb AI najdete v tématu Ověřování požadavků na služby Azure AI.
setx AZURE_OPENAI_API_KEY "REPLACE_WITH_YOUR_KEY_VALUE_HERE"
setx AZURE_OPENAI_ENDPOINT "REPLACE_WITH_YOUR_ENDPOINT_HERE"
Vytvoření aplikace PowerShellu
Spusťte následující příkaz: Musíte nahradit YourDeploymentName
názvem nasazení, který jste zvolili při nasazení modelu Šept. Název nasazení nemusí být nutně stejný jako název modelu. Zadáním názvu modelu dojde k chybě, pokud jste nevybrali název nasazení, který je shodný s názvem základního modelu.
# Azure OpenAI metadata variables
$openai = @{
api_key = $Env:AZURE_OPENAI_API_KEY
api_base = $Env:AZURE_OPENAI_ENDPOINT # your endpoint should look like the following https://YOUR_RESOURCE_NAME.openai.azure.com/
api_version = '2024-02-01' # this may change in the future
name = 'YourDeploymentName' #This will correspond to the custom name you chose for your deployment when you deployed a model.
}
# Header for authentication
$headers = [ordered]@{
'api-key' = $openai.api_key
}
$form = @{ file = get-item -path './wikipediaOcelot.wav' }
# Send a completion call to generate an answer
$url = "$($openai.api_base)/openai/deployments/$($openai.name)/audio/transcriptions?api-version=$($openai.api_version)"
$response = Invoke-RestMethod -Uri $url -Headers $headers -Form $form -Method Post -ContentType 'multipart/form-data'
return $response.text
Ukázkové zvukové soubory, například wikipediaOcelot.wav, můžete získat z úložiště Azure AI Speech SDK na GitHubu.
Důležité
Pro produkční prostředí uložte přihlašovací údaje a získejte k němu přístup pomocí zabezpečené metody, jako je správa tajných kódů PowerShellu se službou Azure Key Vault. Další informace o zabezpečení přihlašovacích údajů najdete v tématu Zabezpečení služeb Azure AI.
Výstup
The ocelot, Lepardus paradalis, is a small wild cat native to the southwestern United States, Mexico, and Central and South America. This medium-sized cat is characterized by solid black spots and streaks on its coat, round ears, and white neck and undersides. It weighs between 8 and 15.5 kilograms, 18 and 34 pounds, and reaches 40 to 50 centimeters 16 to 20 inches at the shoulders. It was first described by Carl Linnaeus in 1758. Two subspecies are recognized, L. p. paradalis and L. p. mitis. Typically active during twilight and at night, the ocelot tends to be solitary and territorial. It is efficient at climbing, leaping, and swimming. It preys on small terrestrial mammals such as armadillo, opossum, and lagomorphs.
Vyčištění prostředků
Pokud chcete vyčistit a odebrat prostředek Azure OpenAI, můžete prostředek odstranit. Před odstraněním prostředku musíte nejprve odstranit všechny nasazené modely.
Další kroky
- Informace o převodu zvukových dat na text v dávkách najdete v tématu Vytvoření dávkového přepisu.
- Další příklady najdete v úložišti GitHub s ukázkami Azure OpenAI.