Sdílet prostřednictvím


Získání výsledků dávkového přepisu

Pokud chcete získat výsledky přepisu, nejprve zkontrolujte stav úlohy přepisu. Pokud je úloha dokončená, můžete načíst přepisy a sestavu přepisu.

Získání stavu přepisu

Pokud chcete získat stav úlohy přepisu, zavolejte Transcriptions_Get operaci speech na textové rozhraní REST API.

Důležité

Úlohy dávkového přepisu se plánují na základě nejlepšího úsilí. Ve špičce může zpracování úlohy přepisu trvat až 30 minut nebo déle. Ve většině případů během provádění bude Runningstav přepisu . Důvodem je to, že úloha má přiřazený stav v okamžiku Running , kdy se přesune do back-endového systému dávkového přepisu. Při použití základního modelu k tomuto přiřazení dojde téměř okamžitě; u vlastních modelů je o něco pomalejší. Doba, po kterou úloha přepisu stráví ve Running stavu, neodpovídá skutečnému času přepisu, ale zahrnuje také dobu čekání v interních frontách.

Vytvořte požadavek HTTP GET pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu. Nahraďte YourTranscriptionId id přepisu, nahraďte YourSubscriptionKey klíčem prostředku služby Speech a nahraďte YourServiceRegion oblastí prostředků služby Speech.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S",
    "languageIdentification": {
      "candidateLocales": [
        "en-US",
        "de-DE",
        "es-ES"
      ]
    }
  },
  "lastActionDateTime": "2024-05-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2024-05-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

Vlastnost status označuje aktuální stav přepisů. Přepisy a sestava přepisu jsou k dispozici, pokud je Succeededstav přepisu .

Důležité

Úlohy dávkového přepisu se plánují na základě nejlepšího úsilí. Ve špičce může zpracování úlohy přepisu trvat až 30 minut nebo déle. Ve většině případů během provádění bude Runningstav přepisu . Důvodem je to, že úloha má přiřazený stav v okamžiku Running , kdy se přesune do back-endového systému dávkového přepisu. Při použití základního modelu k tomuto přiřazení dojde téměř okamžitě; u vlastních modelů je o něco pomalejší. Doba, po kterou úloha přepisu stráví ve Running stavu, neodpovídá skutečnému času přepisu, ale zahrnuje také dobu čekání v interních frontách.

Pokud chcete získat stav úlohy přepisu, použijte spx batch transcription status příkaz. Parametry požadavku se sestaví podle následujících pokynů:

  • transcription Nastavte parametr na ID přepisu, který chcete získat.

Tady je příklad příkazu Rozhraní příkazového řádku služby Speech, který získá stav přepisu:

spx batch transcription status --api-version v3.2 --transcription YourTranscriptionId

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S"
  },
  "lastActionDateTime": "2024-05-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2024-05-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

Vlastnost status označuje aktuální stav přepisů. Přepisy a sestava přepisu jsou k dispozici, pokud je Succeededstav přepisu .

V případě nápovědy k rozhraní příkazového řádku služby Speech s přepisy spusťte následující příkaz:

spx help batch transcription

Získání výsledků přepisu

Operace Transcriptions_ListFiles vrátí seznam výsledných souborů pro přepis. Pro každou odeslanou úlohu dávkového přepisu je k dispozici soubor sestavy přepisu přepisu. Kromě toho se pro každý úspěšně přepisovaný zvukový soubor poskytuje jeden soubor přepisu (konečný výsledek).

Vytvořte požadavek HTTP GET pomocí identifikátoru URI "files" z předchozího textu odpovědi. Nahraďte YourTranscriptionId id přepisu, nahraďte YourSubscriptionKey klíčem prostředku služby Speech a nahraďte YourServiceRegion oblastí prostředků služby Speech.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId/files" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionReportUrl"
      }
    }
  ]
}

Umístění jednotlivých souborů sestav přepisu a přepisu s dalšími podrobnostmi se vrátí v textu odpovědi. Vlastnost contentUrl obsahuje adresu URL souboru přepisu ("kind": "Transcription") nebo sestavy přepisu ("kind": "TranscriptionReport").

Pokud jste ve destinationContainerUrl vlastnosti žádosti o přepis nezadali kontejner, uloží se výsledky do kontejneru spravovaného Microsoftem. Při odstranění úlohy přepisu se odstraní také data výsledku přepisu.

Příkaz spx batch transcription list vrátí seznam výsledných souborů pro přepis. Pro každou odeslanou úlohu dávkového přepisu je k dispozici soubor sestavy přepisu přepisu. Kromě toho se pro každý úspěšně přepisovaný zvukový soubor poskytuje jeden soubor přepisu (konečný výsledek).

  • Nastavte požadovaný files příznak.
  • Nastavte požadovaný transcription parametr na ID přepisu, který chcete získat protokoly.

Tady je příklad příkazu Rozhraní příkazového řádku služby Speech, který získá seznam souborů výsledků pro přepis:

spx batch transcription list --api-version v3.2 --files --transcription YourTranscriptionId

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionReportUrl"
      }
    }
  ]
}

Umístění jednotlivých souborů sestav přepisu a přepisu s dalšími podrobnostmi se vrátí v textu odpovědi. Vlastnost contentUrl obsahuje adresu URL souboru přepisu ("kind": "Transcription") nebo sestavy přepisu ("kind": "TranscriptionReport").

Ve výchozím nastavení jsou výsledky uložené v kontejneru spravovaném Microsoftem. Při odstranění úlohy přepisu se odstraní také data výsledku přepisu.

Soubor sestavy přepisu

Pro každou odeslanou úlohu dávkového přepisu je k dispozici jeden soubor sestavy přepisu přepisu.

Obsah každého souboru výsledků přepisu je formátovaný jako JSON, jak je znázorněno v tomto příkladu.

{
  "successfulTranscriptionsCount": 2,
  "failedTranscriptionsCount": 0,
  "details": [
    {
      "source": "https://crbn.us/hello.wav",
      "status": "Succeeded"
    },
    {
      "source": "https://crbn.us/whatstheweatherlike.wav",
      "status": "Succeeded"
    }
  ]
}

Soubor výsledků přepisu

Pro každý úspěšně přepisovaný zvukový soubor je k dispozici jeden soubor výsledků přepisu.

Obsah každého souboru výsledků přepisu je formátovaný jako JSON, jak je znázorněno v tomto příkladu.

{
  "source": "...",
  "timestamp": "2023-07-10T14:28:16Z",
  "durationInTicks": 25800000,
  "duration": "PT2.58S",
  "combinedRecognizedPhrases": [
    {
      "channel": 0,
      "lexical": "hello world",
      "itn": "hello world",
      "maskedITN": "hello world",
      "display": "Hello world."
    }
  ],
  "recognizedPhrases": [
    {
      "recognitionStatus": "Success",
      "channel": 0,
      "offset": "PT0.76S",
      "duration": "PT1.32S",
      "offsetInTicks": 7600000.0,
      "durationInTicks": 13200000.0,
      "nBest": [
        {
          "confidence": 0.5643338,
          "lexical": "hello world",
          "itn": "hello world",
          "maskedITN": "hello world",
          "display": "Hello world.",
          "displayWords": [
            {
              "displayText": "Hello",
              "offset": "PT0.76S",
              "duration": "PT0.76S",
              "offsetInTicks": 7600000.0,
              "durationInTicks": 7600000.0
            },
            {
              "displayText": "world.",
              "offset": "PT1.52S",
              "duration": "PT0.56S",
              "offsetInTicks": 15200000.0,
              "durationInTicks": 5600000.0
            }
          ]
        },
        {
          "confidence": 0.1769063,
          "lexical": "helloworld",
          "itn": "helloworld",
          "maskedITN": "helloworld",
          "display": "helloworld"
        },
        {
          "confidence": 0.49964225,
          "lexical": "hello worlds",
          "itn": "hello worlds",
          "maskedITN": "hello worlds",
          "display": "hello worlds"
        },
        {
          "confidence": 0.4995761,
          "lexical": "hello worm",
          "itn": "hello worm",
          "maskedITN": "hello worm",
          "display": "hello worm"
        },
        {
          "confidence": 0.49418187,
          "lexical": "hello word",
          "itn": "hello word",
          "maskedITN": "hello word",
          "display": "hello word"
        }
      ]
    }
  ]
}

V závislosti na parametrech požadavku nastavených při vytváření úlohy přepisu může soubor přepisu obsahovat následující vlastnosti výsledku.

Vlastnost Popis
channel Číslo kanálu výsledků. U stereofonního zvukového streamu se během přepisu rozdělí kanály vlevo a vpravo. Pro každý vstupní zvukový soubor se vytvoří výsledný soubor JSON.
combinedRecognizedPhrases Zřetězené výsledky všech frází pro kanál.
confidence Hodnota spolehlivosti pro rozpoznávání.
display Formát zobrazení rozpoznaného textu. Přidání interpunkce a velká písmena jsou zahrnuté.
displayWords Časové razítka pro každé slovo přepisu. Vlastnost displayFormWordLevelTimestampsEnabled požadavku musí být nastavena na truehodnotu , jinak tato vlastnost není k dispozici.

Poznámka: Tato vlastnost je k dispozici pouze u služby Speech pro text rozhraní REST API verze 3.1 a novější.
duration Doba trvání zvuku. Hodnota je doba trvání kódování ISO 8601.
durationInTicks Doba trvání zvuku v ticks (jedno z nich je 100 nanosekund).
itn Formát rozpoznaného textu normalizovaného inverzního textu (ITN). Použijí se zkratky jako "Doctor Smith" na "Dr Smith", telefonní čísla a další transformace.
lexical Rozpoznaná skutečná slova.
locale Národní prostředí identifikované ze vstupu zvuku. Vlastnost languageIdentification požadavku musí být nastavená, jinak tato vlastnost není k dispozici.

Poznámka: Tato vlastnost je k dispozici pouze u služby Speech pro text rozhraní REST API verze 3.1 a novější.
maskedITN Formulář ITN s použitým maskováním vulgárních výrazů.
nBest Seznam možných přepisů aktuální fráze s jistotami
offset Posun zvuku této fráze. Hodnota je doba trvání kódování ISO 8601.
offsetInTicks Posun zvuku této fráze v ticks (jedno z nich je 100 nanosekund).
recognitionStatus Stav rozpoznávání. Příklad: "Úspěch" nebo "Selhání".
recognizedPhrases Seznam výsledků pro každou frázi
source Adresa URL, která byla zadaná jako vstupní zdroj zvuku. Zdroj odpovídá contentUrls vlastnosti nebo contentContainerUrl vlastnosti požadavku. Vlastnost source je jediným způsobem, jak potvrdit zvukový vstup pro přepis.
speaker Identifikovaný mluvčí. Vlastnosti diarization a diarizationEnabled vlastnosti požadavku musí být nastaveny, jinak tato vlastnost není k dispozici.
timestamp Datum a čas vytvoření přepisu. Hodnota je časové razítko kódované iso 8601.
words Seznam výsledků s lexikálním textem pro každé slovo fráze. Vlastnost wordLevelTimestampsEnabled požadavku musí být nastavena na truehodnotu , jinak tato vlastnost není k dispozici.

Další kroky