Dela via


Använd BYOS-talresursen (Bring Your Own Storage) för tal till text

Byos (Bring Your Own Storage) kan användas i följande tal till text-scenarier:

  • Batch-transkription
  • Realtidstranskription med loggning av ljud- och transkriptionsresultat aktiverat
  • Anpassat tal

En Speech-resurs till lagringskontoparering kan användas för alla scenarier samtidigt.

I den här artikeln beskrivs hur du använder en BYOS-aktiverad talresurs i alla tal till text-scenarier. Artikeln antyder att du har en fullständigt konfigurerad BYOS-aktiverad Speech-resurs och ett associerat lagringskonto.

Datalagring

När du använder BYOS behåller Speech-tjänsten inga kundartefakter när databearbetningen (transkription, modellträning, modelltestning) har slutförts. Vissa metadata som inte härleds från användarinnehållet lagras dock i Speech-tjänstens lokaler. I det anpassade talscenariot behåller tjänsten till exempel viss information om de anpassade slutpunkterna, till exempel vilka modeller de använder.

BYOS-associerat lagringskonto lagrar följande data:

Kommentar

Valfritt i det här avsnittet innebär att det är möjligt, men inte krävs för att lagra de specifika artefakterna i det BYOS-associerade lagringskontot. Om det behövs kan de lagras någon annanstans.

Batch-transkription

  • Källljud (valfritt)
  • Batch-transkriptionsresultat

Transkription i realtid med loggning av ljud- och transkriptionsresultat aktiverat

  • Resultatloggar för ljud och transkription

Anpassat tal

  • Källfiler för datauppsättningar för modellträning och testning (valfritt)
  • Alla data och metadata relaterade till anpassade modeller som hanteras av den BYOS-aktiverade Speech-resursen (inklusive kopior av datauppsättningar för modellträning och testning)

Batch-transkription

Batch-transkription används för att transkribera en stor mängd ljuddata i lagringen. Om du inte känner till Batch-transkription kan du läsa den här artikeln först.

Utför följande steg för att köra Batch-transkription med BYOS-aktiverad Speech-resurs:

  1. Starta Batch-transkription enligt beskrivningen i den här guiden.

    Viktigt!

    Använd destinationContainerUrl inte parametern i din transkriptionsbegäran. Om du använder BYOS lagras transkriptionsresultaten automatiskt i det BYOS-associerade lagringskontot.

    Om du använder destinationContainerUrl parametern fungerar den, men ger betydligt mindre säkerhet för dina data på grund av ad hoc-SAS-användning. Mer information finns här

  2. När transkriptionen är klar får du transkriptionsresultat enligt den här guiden. Överväg att använda sasValidityInSeconds parameter (se följande avsnitt).

Speech Service använder customspeech-artifacts blobcontainer i det BYOS-associerade lagringskontot för lagring av mellanliggande och slutgiltiga transkriptionsresultat.

Varning

Speech-tjänsten förlitar sig på fördefinierade blobcontainersökvägar och filnamn för att Batch-transkriptionsmodulen ska fungera korrekt. Flytta inte, byt namn på eller på något sätt ändra innehållet customspeech-artifacts i containern.

Om du inte gör det är det mycket troligt att det blir svårt att felsöka 4xx- och 5xx-tjänstfel.

Använd standardverktyg för att interagera med Batch-transkription. Se information i avsnittet Batch-transkription.

Hämta Batch-transkriptionsresultat via REST API

REST API för tal till text har fullt stöd för BYOS-aktiverade Speech-resurser. Men eftersom data nu lagras i det BYOS-aktiverade lagringskontot interagerar begäranden som Get Transcription Files med det BYOS-associerade lagringskontot Blob Storage i stället för interna resurser för Speech-tjänsten. Den tillåter användning av samma REST API-baserade kod för både "vanliga" och BYOS-aktiverade Speech-resurser.

För maximal säkerhet använder du parametern sasValidityInSeconds med värdet som anges till 0 i begäranden, som returnerar url:er för datafiler, till exempel Hämta transkriptionsfiler - begäran. Här är ett exempel på en URL för begäran:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

En sådan begäran returnerar direkta URL:er för lagringskonton till datafiler (utan SAS eller andra tillägg). Till exempel:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

URL:en för det här formatet säkerställer att endast Microsoft Entra-identiteter (användare, tjänstens huvudnamn, hanterade identiteter) med tillräcklig åtkomstbehörighet (t.ex . rollen Storage Blob Data Reader ) kan komma åt data från URL:en.

Varning

Om sasValidityInSeconds parametern utelämnas i Hämta begäran om transkriptionsfiler eller liknande, genereras en SAS för användardelegering med giltigheten 5 dagar för varje datafils-URL som returneras. Denna SAS är signerad av den systemtilldelade hanterade identiteten för din BYOS-aktiverade Speech-resurs. På grund av det tillåter SAS åtkomst till data, även om åtkomsten till lagringskontonyckeln är inaktiverad. Mer information finns här

Transkription i realtid med loggning av ljud- och transkriptionsresultat aktiverat

Du kan aktivera loggning för både ljudinmatning och igenkänt tal när du använder tal till text- eller talöversättning. Se den fullständiga beskrivningen i den här artikeln.

Om du använder BYOS hittar du loggarna i customspeech-audiologs blobcontainern i det BYOS-associerade lagringskontot.

Varning

Loggningsdata sparas i 5 dagar. Efter den här perioden tas loggarna bort automatiskt. Detta är giltigt även för BYOS-aktiverade Speech-resurser. Om du vill behålla loggarna längre kopierar du korrespondentfilerna och mapparna från customspeech-audiologs Blob-containern direkt eller använder REST API.

Hämta transkriptionsloggar i realtid via REST API

REST API för tal till text har fullt stöd för BYOS-aktiverade Speech-resurser. Men eftersom data nu lagras i det BYOS-aktiverade lagringskontot interagerar begäranden som Hämta basmodellloggar med det BYOS-associerade lagringskontot Blob Storage i stället för interna resurser för Speech-tjänsten. Den tillåter användning av samma REST API-baserade kod för både "vanliga" och BYOS-aktiverade Speech-resurser.

För maximal säkerhet använder du parametern sasValidityInSeconds med värdet inställt på 0 i begäranden, som returnerar url:er för datafiler, till exempel Hämta begäran om basmodellloggar . Här är ett exempel på en URL för begäran:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

En sådan begäran returnerar direkta URL:er för lagringskonton till datafiler (utan SAS eller andra tillägg). Till exempel:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

URL:en för det här formatet säkerställer att endast Microsoft Entra-identiteter (användare, tjänstens huvudnamn, hanterade identiteter) med tillräcklig åtkomstbehörighet (t.ex . rollen Storage Blob Data Reader ) kan komma åt data från URL:en.

Varning

Om sasValidityInSeconds parametern utelämnas i Hämta begäran om basmodellloggar eller liknande, genereras en SAS för användardelegering med giltigheten 5 dagar för varje datafils-URL som returneras. Denna SAS är signerad av den systemtilldelade hanterade identiteten för din BYOS-aktiverade Speech-resurs. På grund av det tillåter SAS åtkomst till data, även om åtkomsten till lagringskontonyckeln är inaktiverad. Mer information finns här

Anpassat tal

Med anpassat tal kan du utvärdera och förbättra noggrannheten för taligenkänning för dina program och produkter. En anpassad talmodell kan användas för tal till text i realtid, talöversättning och batch-transkription. Mer information finns i översikten över anpassat tal.

Det finns inget specifikt med hur du använder anpassat tal med BYOS-aktiverad talresurs. Den enda skillnaden är var alla anpassade modellrelaterade data, som Speech-tjänsten samlar in och producerar åt dig, lagras. Data lagras i följande blobcontainrar med BYOS-associerat lagringskonto:

  • customspeech-models – Plats för anpassade talmodeller
  • customspeech-artifacts – Plats för alla andra anpassade talrelaterade data

Blobcontainerstrukturen tillhandahålls endast för din information och kan komma att ändras utan föregående meddelande.

Varning

Speech Service förlitar sig på fördefinierade blobcontainersökvägar och filnamn för att den anpassade talmodulen ska fungera korrekt. Flytta inte, byt namn på eller ändra på något sätt innehållet customspeech-models i containern och anpassade talrelaterade mappar customspeech-artifacts i containern.

Om du inte gör det är det mycket troligt att det blir svårt att felsöka fel och det kan leda till behovet av omträning av anpassade modeller.

Använd standardverktyg som REST API och Speech Studio för att interagera med anpassade talrelaterade data. Se information i avsnittet anpassat tal.

Användning av REST API med anpassat tal

REST API för tal till text har fullt stöd för BYOS-aktiverade Speech-resurser. Men eftersom data nu lagras i det BYOS-aktiverade lagringskontot Datasets_ListFiles begäranden som Datasets_ListFiles interagera med det BYOS-associerade lagringskontot Blob Storage i stället för interna resurser för Speech-tjänsten. Den tillåter användning av samma REST API-baserade kod för både "vanliga" och BYOS-aktiverade Speech-resurser.

För maximal säkerhet använder du parametern sasValidityInSeconds med värdet som anges i 0 begäranden, som returnerar url:er för datafiler, till exempel Hämta datauppsättningsfiler . Här är ett exempel på en URL för begäran:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

En sådan begäran returnerar direkta URL:er för lagringskonton till datafiler (utan SAS eller andra tillägg). Till exempel:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

URL:en för det här formatet säkerställer att endast Microsoft Entra-identiteter (användare, tjänstens huvudnamn, hanterade identiteter) med tillräcklig åtkomstbehörighet (t.ex . rollen Storage Blob Data Reader ) kan komma åt data från URL:en.

Varning

Om sasValidityInSeconds parametern utelämnas i Hämta datauppsättningsfiler eller liknande, genereras en SAS för användardelegering med giltigheten 5 dagar för varje datafil-URL som returneras. Denna SAS är signerad av den systemtilldelade hanterade identiteten för din BYOS-aktiverade Speech-resurs. På grund av det tillåter SAS åtkomst till data, även om åtkomsten till lagringskontonyckeln är inaktiverad. Mer information finns här

Nästa steg