Batchtranscriptieresultaten ophalen

Als u transcriptieresultaten wilt ophalen, controleert u eerst de status van de transcriptietaak. Als de taak is voltooid, kunt u het transcripties- en transcriptierapport ophalen .

Transcriptiestatus ophalen

Als u de status van de transcriptietaak wilt ophalen, roept u de Transcriptions_Get bewerking van de REST API voor spraak naar tekst aan.

Belangrijk

Batchtranscriptietaken worden gepland op basis van best effort. Tijdens piekuren kan het tot 30 minuten of langer duren voordat een transcriptietaak wordt verwerkt. De meeste tijd tijdens de uitvoering is Runningde transcriptiestatus. Dit komt doordat aan de taak de Running status wordt toegewezen op het moment dat deze wordt verplaatst naar het back-endsysteem voor batchtranscriptie. Wanneer het basismodel wordt gebruikt, vindt deze toewijzing vrijwel onmiddellijk plaats; het is iets langzamer voor aangepaste modellen. De hoeveelheid tijd die een transcriptietaak in de Running status besteedt, komt dus niet overeen met de werkelijke transcriptietijd, maar bevat ook wachttijden in de interne wachtrijen.

Maak een HTTP GET-aanvraag met behulp van de URI, zoals wordt weergegeven in het volgende voorbeeld. Vervang YourTranscriptionId door uw transcriptie-id, vervang deze door YourSubscriptionKey uw Spraak-resourcesleutel en vervang deze door YourServiceRegion uw spraakresourceregio.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/YourTranscriptionId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

U ontvangt een antwoordtekst in de volgende indeling:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S",
    "languageIdentification": {
      "candidateLocales": [
        "en-US",
        "de-DE",
        "es-ES"
      ]
    }
  },
  "lastActionDateTime": "2022-09-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2022-09-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

De status eigenschap geeft de huidige status van de transcripties aan. Het transcripties- en transcriptierapport zijn beschikbaar wanneer de transcriptiestatus is Succeeded.

Belangrijk

Batchtranscriptietaken worden gepland op basis van best effort. Tijdens piekuren kan het tot 30 minuten of langer duren voordat een transcriptietaak wordt verwerkt. De meeste tijd tijdens de uitvoering is Runningde transcriptiestatus. Dit komt doordat aan de taak de Running status wordt toegewezen op het moment dat deze wordt verplaatst naar het back-endsysteem voor batchtranscriptie. Wanneer het basismodel wordt gebruikt, vindt deze toewijzing vrijwel onmiddellijk plaats; het is iets langzamer voor aangepaste modellen. De hoeveelheid tijd die een transcriptietaak in de Running status besteedt, komt dus niet overeen met de werkelijke transcriptietijd, maar bevat ook wachttijden in de interne wachtrijen.

Gebruik de spx batch transcription status opdracht om de status van de transcriptietaak op te halen. Bouw de aanvraagparameters volgens de volgende instructies:

  • Stel de transcription parameter in op de id van de transcriptie die u wilt ophalen.

Hier volgt een voorbeeld van een Speech CLI-opdracht om de transcriptiestatus op te halen:

spx batch transcription status --api-version v3.1 --transcription YourTranscriptionId

U ontvangt een antwoordtekst in de volgende indeling:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S"
  },
  "lastActionDateTime": "2022-09-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2022-09-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

De status eigenschap geeft de huidige status van de transcripties aan. Het transcripties- en transcriptierapport zijn beschikbaar wanneer de transcriptiestatus is Succeeded.

Voer de volgende opdracht uit voor Speech CLI-hulp bij transcripties:

spx help batch transcription

Transcriptieresultaten ophalen

De Transcriptions_ListFiles-bewerking retourneert een lijst met resultaatbestanden voor een transcriptie. Er wordt een transcriptierapportbestand verstrekt voor elke verzonden batchtranscriptietaak. Daarnaast wordt er één transcriptiebestand (het eindresultaat) opgegeven voor elk met succes getranscribeerd audiobestand.

Maak een HTTP GET-aanvraag met behulp van de URI 'bestanden' uit de vorige antwoordtekst. Vervang YourTranscriptionId door uw transcriptie-id, vervang deze door YourSubscriptionKey uw Spraak-resourcesleutel en vervang deze door YourServiceRegion uw spraakresourceregio.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/YourTranscriptionId/files" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

U ontvangt een antwoordtekst in de volgende indeling:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2022-09-10T18:39:09Z",
      "links": {
        "contentUrl": "https://spsvcprodeus.blob.core.windows.net/bestor-c6e3ae79-1b48-41bf-92ff-940bea3e5c2d/TranscriptionData/637d9333-6559-47a6-b8de-c7d732c1ddf3_0_0.json?sv=2021-08-06&st=2022-09-10T18%3A36%3A01Z&se=2022-09-11T06%3A41%3A01Z&sr=b&sp=rl&sig=AobsqO9DH9CIOuGC5ifFH3QpkQay6PjHiWn5G87FcIg%3D"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2022-09-10T18:39:09Z",
      "links": {
        "contentUrl": "https://spsvcprodeus.blob.core.windows.net/bestor-c6e3ae79-1b48-41bf-92ff-940bea3e5c2d/TranscriptionData/637d9333-6559-47a6-b8de-c7d732c1ddf3_1_0.json?sv=2021-08-06&st=2022-09-10T18%3A36%3A01Z&se=2022-09-11T06%3A41%3A01Z&sr=b&sp=rl&sig=wO3VxbhLK4PhT3rwLpJXBYHYQi5EQqyl%2Fp1lgjNvfh0%3D"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2022-09-10T18:39:09Z",
      "links": {
        "contentUrl": "https://spsvcprodeus.blob.core.windows.net/bestor-c6e3ae79-1b48-41bf-92ff-940bea3e5c2d/TranscriptionData/637d9333-6559-47a6-b8de-c7d732c1ddf3_report.json?sv=2021-08-06&st=2022-09-10T18%3A36%3A01Z&se=2022-09-11T06%3A41%3A01Z&sr=b&sp=rl&sig=gk1k%2Ft5qa1TpmM45tPommx%2F2%2Bc%2FUUfsYTX5FoSa1u%2FY%3D"
      }
    }
  ]
}

De locatie van elke transcriptie- en transcriptierapportbestanden met meer details wordt geretourneerd in de hoofdtekst van het antwoord. De contentUrl eigenschap bevat de URL naar het transcriptierapportbestand ("kind": "Transcription") of transcriptierapport ("kind": "TranscriptionReport").

Als u geen container hebt opgegeven in de eigenschap van de destinationContainerUrl transcriptieaanvraag, worden de resultaten opgeslagen in een container die wordt beheerd door Microsoft. Wanneer de transcriptietaak wordt verwijderd, worden ook de transcriptieresultaatgegevens verwijderd.

De spx batch transcription list opdracht retourneert een lijst met resultaatbestanden voor een transcriptie. Er wordt een transcriptierapportbestand verstrekt voor elke verzonden batchtranscriptietaak. Daarnaast wordt er één transcriptiebestand (het eindresultaat) opgegeven voor elk met succes getranscribeerd audiobestand.

  • Stel de vereiste files vlag in.
  • Stel de vereiste transcription parameter in op de id van de transcriptie die u wilt ophalen uit logboeken.

Hier volgt een voorbeeld van een Speech CLI-opdracht die een lijst met resultaatbestanden voor een transcriptie ophaalt:

spx batch transcription list --api-version v3.1 --files --transcription YourTranscriptionId

U ontvangt een antwoordtekst in de volgende indeling:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2022-09-10T18:39:09Z",
      "links": {
        "contentUrl": "https://spsvcprodeus.blob.core.windows.net/bestor-c6e3ae79-1b48-41bf-92ff-940bea3e5c2d/TranscriptionData/637d9333-6559-47a6-b8de-c7d732c1ddf3_0_0.json?sv=2021-08-06&st=2022-09-10T18%3A36%3A01Z&se=2022-09-11T06%3A41%3A01Z&sr=b&sp=rl&sig=AobsqO9DH9CIOuGC5ifFH3QpkQay6PjHiWn5G87FcIg%3D"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2022-09-10T18:39:09Z",
      "links": {
        "contentUrl": "https://spsvcprodeus.blob.core.windows.net/bestor-c6e3ae79-1b48-41bf-92ff-940bea3e5c2d/TranscriptionData/637d9333-6559-47a6-b8de-c7d732c1ddf3_1_0.json?sv=2021-08-06&st=2022-09-10T18%3A36%3A01Z&se=2022-09-11T06%3A41%3A01Z&sr=b&sp=rl&sig=wO3VxbhLK4PhT3rwLpJXBYHYQi5EQqyl%2Fp1lgjNvfh0%3D"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2022-09-10T18:39:09Z",
      "links": {
        "contentUrl": "https://spsvcprodeus.blob.core.windows.net/bestor-c6e3ae79-1b48-41bf-92ff-940bea3e5c2d/TranscriptionData/637d9333-6559-47a6-b8de-c7d732c1ddf3_report.json?sv=2021-08-06&st=2022-09-10T18%3A36%3A01Z&se=2022-09-11T06%3A41%3A01Z&sr=b&sp=rl&sig=gk1k%2Ft5qa1TpmM45tPommx%2F2%2Bc%2FUUfsYTX5FoSa1u%2FY%3D"
      }
    }
  ]
}

De locatie van elke transcriptie- en transcriptierapportbestanden met meer details wordt geretourneerd in de hoofdtekst van het antwoord. De contentUrl eigenschap bevat de URL naar het transcriptierapportbestand ("kind": "Transcription") of transcriptierapport ("kind": "TranscriptionReport").

De resultaten worden standaard opgeslagen in een container die wordt beheerd door Microsoft. Wanneer de transcriptietaak wordt verwijderd, worden ook de transcriptieresultaatgegevens verwijderd.

Transcriptierapportbestand

Er is één transcriptierapportbestand opgegeven voor elke ingediende batchtranscriptietaak.

De inhoud van elk transcriptieresultaatbestand wordt opgemaakt als JSON, zoals in dit voorbeeld wordt weergegeven.

{
  "successfulTranscriptionsCount": 2,
  "failedTranscriptionsCount": 0,
  "details": [
    {
      "source": "https://crbn.us/hello.wav",
      "status": "Succeeded"
    },
    {
      "source": "https://crbn.us/whatstheweatherlike.wav",
      "status": "Succeeded"
    }
  ]
}

Resultaatbestand transcriptie

Er wordt één transcriptieresultaatbestand opgegeven voor elk getranscribeerd audiobestand.

De inhoud van elk transcriptieresultaatbestand wordt opgemaakt als JSON, zoals in dit voorbeeld wordt weergegeven.

{
  "source": "...",
  "timestamp": "2023-07-10T14:28:16Z",
  "durationInTicks": 25800000,
  "duration": "PT2.58S",
  "combinedRecognizedPhrases": [
    {
      "channel": 0,
      "lexical": "hello world",
      "itn": "hello world",
      "maskedITN": "hello world",
      "display": "Hello world."
    }
  ],
  "recognizedPhrases": [
    {
      "recognitionStatus": "Success",
      "channel": 0,
      "offset": "PT0.76S",
      "duration": "PT1.32S",
      "offsetInTicks": 7600000.0,
      "durationInTicks": 13200000.0,
      "nBest": [
        {
          "confidence": 0.5643338,
          "lexical": "hello world",
          "itn": "hello world",
          "maskedITN": "hello world",
          "display": "Hello world.",
          "displayWords": [
            {
              "displayText": "Hello",
              "offset": "PT0.76S",
              "duration": "PT0.76S",
              "offsetInTicks": 7600000.0,
              "durationInTicks": 7600000.0
            },
            {
              "displayText": "world.",
              "offset": "PT1.52S",
              "duration": "PT0.56S",
              "offsetInTicks": 15200000.0,
              "durationInTicks": 5600000.0
            }
          ]
        },
        {
          "confidence": 0.1769063,
          "lexical": "helloworld",
          "itn": "helloworld",
          "maskedITN": "helloworld",
          "display": "helloworld"
        },
        {
          "confidence": 0.49964225,
          "lexical": "hello worlds",
          "itn": "hello worlds",
          "maskedITN": "hello worlds",
          "display": "hello worlds"
        },
        {
          "confidence": 0.4995761,
          "lexical": "hello worm",
          "itn": "hello worm",
          "maskedITN": "hello worm",
          "display": "hello worm"
        },
        {
          "confidence": 0.49418187,
          "lexical": "hello word",
          "itn": "hello word",
          "maskedITN": "hello word",
          "display": "hello word"
        }
      ]
    }
  ]
}

Afhankelijk van de aanvraagparameters die zijn ingesteld bij het maken van de transcriptietaak, kan het transcriptiebestand de volgende resultaateigenschappen bevatten.

Eigenschappen Beschrijving
channel Het kanaalnummer van de resultaten. Voor stereo-audiostreams worden de linker- en rechterkanalen gesplitst tijdens de transcriptie. Er wordt een JSON-resultaatbestand gemaakt voor elk invoeraudiobestand.
combinedRecognizedPhrases De samengevoegde resultaten van alle zinnen voor het kanaal.
confidence De betrouwbaarheidswaarde voor de herkenning.
display De weergavevorm van de herkende tekst. Toegevoegde interpunctie en hoofdlettergebruik zijn opgenomen.
displayWords De tijdstempels voor elk woord van de transcriptie. De displayFormWordLevelTimestampsEnabled aanvraageigenschap moet worden ingesteld op true, anders is deze eigenschap niet aanwezig.

Opmerking: deze eigenschap is alleen beschikbaar met Speech to text REST API versie 3.1.
duration De audioduur. De waarde is een ISO 8601 gecodeerde duur.
durationInTicks De audioduur in tikken (één maatstreepje is 100 nanoseconden).
itn De inverse tekst genormaliseerde (ITN) vorm van de herkende tekst. Afkortingen zoals 'Doctor Smith' op 'Dr Smith', telefoonnummers en andere transformaties worden toegepast.
lexical De werkelijke woorden herkend.
locale De landinstelling die is geïdentificeerd op basis van de invoer van de audio. De languageIdentification aanvraageigenschap moet worden ingesteld, anders is deze eigenschap niet aanwezig.

Opmerking: deze eigenschap is alleen beschikbaar met Speech to text REST API versie 3.1.
maskedITN Het ITN-formulier waarop grof taalmaskering is toegepast.
nBest Een lijst met mogelijke transcripties voor de huidige woordgroep met betrouwbaarheid.
offset De verschuiving in audio van deze zin. De waarde is een ISO 8601 gecodeerde duur.
offsetInTicks De verschuiving in audio van deze zin in tikken (één maatstreepje is 100 nanoseconden).
recognitionStatus De herkenningsstatus. Bijvoorbeeld: 'Geslaagd' of 'Mislukt'.
recognizedPhrases De lijst met resultaten voor elke woordgroep.
source De URL die is opgegeven als de invoeraudiobron. De bron komt overeen met de contentUrls eigenschap of contentContainerUrl aanvraag. De source eigenschap is de enige manier om de audio-invoer voor een transcriptie te bevestigen.
speaker De geïdentificeerde spreker. De diarization eigenschappen en diarizationEnabled aanvragen moeten worden ingesteld, anders is deze eigenschap niet aanwezig.
timestamp De aanmaakdatum en -tijd van de transcriptie. De waarde is een met ISO 8601 gecodeerde tijdstempel.
words Een lijst met resultaten met lexicale tekst voor elk woord van de woordgroep. De wordLevelTimestampsEnabled aanvraageigenschap moet worden ingesteld op true, anders is deze eigenschap niet aanwezig.

Volgende stappen