Hämta resultat för batch-transkription

Artikel
10/16/2024

Om du vill få transkriptionsresultat kontrollerar du först statusen för transkriptionsjobbet. Om jobbet har slutförts kan du hämta transkriptions- och transkriptionsrapporten.

Hämta transkriptionsstatus

Om du vill hämta status för transkriptionsjobbet anropar du Transcriptions_Get-åtgärden för REST-API:et Tal till text.

Viktigt!

Batch-transkriptionsjobb schemaläggs enligt bästa praxis. Vid rusningstid kan det ta upp till 30 minuter eller längre innan ett transkriptionsjobb börjar bearbetas. För det mesta under körningen är Runningtranskriptionsstatusen . Det beror på att jobbet tilldelas status så Running fort det flyttas till serverdelssystemet för batch-transkription. När basmodellen används sker den här tilldelningen nästan omedelbart. det är något långsammare för anpassade modeller. Den tid som ett transkriptionsjobb tillbringar i Running tillståndet motsvarar alltså inte den faktiska transkriptionstiden, utan även väntetiden i de interna köerna.

Gör en HTTP GET-begäran med hjälp av URI:n enligt följande exempel. Ersätt YourTranscriptionId med ditt transkriptions-ID, ersätt YourSubscriptionKey med din Speech-resursnyckel och ersätt YourServiceRegion med din Speech-resursregion.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S",
    "languageIdentification": {
      "candidateLocales": [
        "en-US",
        "de-DE",
        "es-ES"
      ]
    }
  },
  "lastActionDateTime": "2024-05-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2024-05-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

Egenskapen status anger den aktuella statusen för transkriptionerna. Transkriptions- och transkriptionsrapporten är tillgängliga när transkriptionsstatusen är Succeeded.

Viktigt!

Om du vill hämta status för transkriptionsjobbet spx batch transcription status använder du kommandot . Skapa begärandeparametrarna enligt följande instruktioner:

Ange parametern transcription till ID:t för transkriptionen som du vill hämta.

Här är ett exempel på ett Speech CLI-kommando för att hämta transkriptionsstatusen:

spx batch transcription status --api-version v3.2 --transcription YourTranscriptionId

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "displayFormWordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "duration": "PT3S"
  },
  "lastActionDateTime": "2024-05-10T18:39:09Z",
  "status": "Succeeded",
  "createdDateTime": "2024-05-10T18:39:07Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

Egenskapen status anger den aktuella statusen för transkriptionerna. Transkriptions- och transkriptionsrapporten är tillgängliga när transkriptionsstatusen är Succeeded.

Kör följande kommando för speech CLI-hjälp med transkriptioner:

spx help batch transcription

Hämta transkriptionsresultat

Åtgärden Transcriptions_ListFiles returnerar en lista över resultatfiler för en transkription. En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb. Dessutom tillhandahålls en transkriptionsfil (slutresultatet) för varje transkriberad ljudfil.

Gör en HTTP GET-begäran med hjälp av URI:n "files" från föregående svarstext. Ersätt YourTranscriptionId med ditt transkriptions-ID, ersätt YourSubscriptionKey med din Speech-resursnyckel och ersätt YourServiceRegion med din Speech-resursregion.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId/files" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

Du bör få en svarstext i följande format:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionReportUrl"
      }
    }
  ]
}

Platsen för varje transkriptions- och transkriptionsrapportfiler med mer information returneras i svarstexten. Egenskapen contentUrl innehåller URL:en till transkriptionsfilen ("kind": "Transcription") eller transkriptionsrapporten ("kind": "TranscriptionReport").

Om du inte angav en container i destinationContainerUrl egenskapen för transkriptionsbegäran lagras resultaten i en container som hanteras av Microsoft. När transkriptionsjobbet tas bort tas även transkriptionsresultatdata bort.

Kommandot spx batch transcription list returnerar en lista över resultatfiler för en transkription. En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb. Dessutom tillhandahålls en transkriptionsfil (slutresultatet) för varje transkriberad ljudfil.

Ange flaggan som krävs files .
Ange den obligatoriska transcription parametern till ID:t för transkriptionen som du vill hämta loggar.

Här är ett exempel på ett Speech CLI-kommando som hämtar en lista över resultatfiler för en transkription:

spx batch transcription list --api-version v3.2 --files --transcription YourTranscriptionId

Du bör få en svarstext i följande format:

{
  "values": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
      "name": "contenturl_0.json",
      "kind": "Transcription",
      "properties": {
        "size": 3407
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
      "name": "contenturl_1.json",
      "kind": "Transcription",
      "properties": {
        "size": 8233
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionUrl"
      }
    },
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
      "name": "report.json",
      "kind": "TranscriptionReport",
      "properties": {
        "size": 279
      },
      "createdDateTime": "2024-05-10T18:39:09Z",
      "links": {
        "contentUrl": "YourTranscriptionReportUrl"
      }
    }
  ]
}

Som standard lagras resultaten i en container som hanteras av Microsoft. När transkriptionsjobbet tas bort tas även transkriptionsresultatdata bort.

Transkriptionsrapportfil

En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb.

Innehållet i varje transkriptionsresultatfil formateras som JSON, vilket visas i det här exemplet.

{
  "successfulTranscriptionsCount": 2,
  "failedTranscriptionsCount": 0,
  "details": [
    {
      "source": "https://crbn.us/hello.wav",
      "status": "Succeeded"
    },
    {
      "source": "https://crbn.us/whatstheweatherlike.wav",
      "status": "Succeeded"
    }
  ]
}

Transkriptionsresultatfil

En transkriptionsresultatfil tillhandahålls för varje transkriberad ljudfil.

Innehållet i varje transkriptionsresultatfil formateras som JSON, vilket visas i det här exemplet.

{
  "source": "...",
  "timestamp": "2023-07-10T14:28:16Z",
  "durationInTicks": 25800000,
  "duration": "PT2.58S",
  "combinedRecognizedPhrases": [
    {
      "channel": 0,
      "lexical": "hello world",
      "itn": "hello world",
      "maskedITN": "hello world",
      "display": "Hello world."
    }
  ],
  "recognizedPhrases": [
    {
      "recognitionStatus": "Success",
      "channel": 0,
      "offset": "PT0.76S",
      "duration": "PT1.32S",
      "offsetInTicks": 7600000.0,
      "durationInTicks": 13200000.0,
      "nBest": [
        {
          "confidence": 0.5643338,
          "lexical": "hello world",
          "itn": "hello world",
          "maskedITN": "hello world",
          "display": "Hello world.",
          "displayWords": [
            {
              "displayText": "Hello",
              "offset": "PT0.76S",
              "duration": "PT0.76S",
              "offsetInTicks": 7600000.0,
              "durationInTicks": 7600000.0
            },
            {
              "displayText": "world.",
              "offset": "PT1.52S",
              "duration": "PT0.56S",
              "offsetInTicks": 15200000.0,
              "durationInTicks": 5600000.0
            }
          ]
        },
        {
          "confidence": 0.1769063,
          "lexical": "helloworld",
          "itn": "helloworld",
          "maskedITN": "helloworld",
          "display": "helloworld"
        },
        {
          "confidence": 0.49964225,
          "lexical": "hello worlds",
          "itn": "hello worlds",
          "maskedITN": "hello worlds",
          "display": "hello worlds"
        },
        {
          "confidence": 0.4995761,
          "lexical": "hello worm",
          "itn": "hello worm",
          "maskedITN": "hello worm",
          "display": "hello worm"
        },
        {
          "confidence": 0.49418187,
          "lexical": "hello word",
          "itn": "hello word",
          "maskedITN": "hello word",
          "display": "hello word"
        }
      ]
    }
  ]
}

Beroende delvis på de begärandeparametrar som angavs när du skapade transkriptionsjobbet kan transkriptionsfilen innehålla följande resultategenskaper.

Property	beskrivning
`channel`	Kanalnumret för resultaten. För stereoljudströmmar delas de vänstra och högra kanalerna under transkriptionen. En JSON-resultatfil skapas för varje indataljudfil.
`combinedRecognizedPhrases`	Det sammanlänkade resultatet av alla fraser för kanalen.
`confidence`	Konfidensvärdet för igenkänningen.
`display`	Visningsformen för den igenkända texten. Extra skiljetecken och versaler ingår.
`displayWords`	Tidsstämplarna för varje ord i transkriptionen. Begärandeegenskapen `displayFormWordLevelTimestampsEnabled` måste vara inställd på `true`, annars finns inte den här egenskapen. Obs! Den här egenskapen är endast tillgänglig med Speech to text REST API version 3.1 och senare.
`duration`	Ljudvaraktigheten. Värdet är en ISO 8601-kodad varaktighet.
`durationInTicks`	Ljudvaraktigheten i tick (en tick är 100 nanosekunder).
`itn`	Den inverterade textnormaliserade (ITN) formen av den igenkända texten. Förkortningar som "Doctor Smith" till "Dr Smith", telefonnummer och andra transformeringar tillämpas.
`lexical`	De faktiska orden känns igen.
`locale`	Språkvarianten som identifieras från inmatningen av ljudet. Begärandeegenskapen `languageIdentification` måste anges, annars finns inte den här egenskapen. Obs! Den här egenskapen är endast tillgänglig med Speech to text REST API version 3.1 och senare.
`maskedITN`	ITN-formuläret med svordomsmaskering tillämpat.
`nBest`	En lista över möjliga transkriptioner för den aktuella frasen med förtroende.
`offset`	Förskjutningen i ljudet av den här frasen. Värdet är en ISO 8601-kodad varaktighet.
`offsetInTicks`	Förskjutningen i ljudet av den här frasen i fästingar (en tick är 100 nanosekunder).
`recognitionStatus`	Igenkänningstillståndet. Exempel: "Lyckades" eller "Fel".
`recognizedPhrases`	Listan med resultat för varje fras.
`source`	Url:en som angavs som indataljudkälla. Källan motsvarar egenskapen eller `contentContainerUrl` begärandeegenskapen`contentUrls`. Egenskapen `source` är det enda sättet att bekräfta ljudindata för en transkription.
`speaker`	Den identifierade talaren. `diarization` Egenskaperna och `diarizationEnabled` förfrågning måste anges, annars finns inte den här egenskapen.
`timestamp`	Skapandedatum och tid för transkriptionen. Värdet är en ISO 8601-kodad tidsstämpel.
`words`	En lista med resultat med lexikal text för varje ord i frasen. Begärandeegenskapen `wordLevelTimestampsEnabled` måste vara inställd på `true`, annars finns inte den här egenskapen.

Dela via

Hämta resultat för batch-transkription

Hämta transkriptionsstatus

Hämta transkriptionsresultat

Transkriptionsrapportfil

Transkriptionsresultatfil

Nästa steg

Feedback

Ytterligare resurser