Hämta resultat för batch-transkription
Om du vill få transkriptionsresultat kontrollerar du först statusen för transkriptionsjobbet. Om jobbet har slutförts kan du hämta transkriptions- och transkriptionsrapporten.
Hämta transkriptionsstatus
Om du vill hämta status för transkriptionsjobbet anropar du Transcriptions_Get-åtgärden för REST-API:et Tal till text.
Viktigt!
Batch-transkriptionsjobb schemaläggs enligt bästa praxis. Vid rusningstid kan det ta upp till 30 minuter eller längre innan ett transkriptionsjobb börjar bearbetas. För det mesta under körningen är Running
transkriptionsstatusen . Det beror på att jobbet tilldelas status så Running
fort det flyttas till serverdelssystemet för batch-transkription. När basmodellen används sker den här tilldelningen nästan omedelbart. det är något långsammare för anpassade modeller. Den tid som ett transkriptionsjobb tillbringar i Running
tillståndet motsvarar alltså inte den faktiska transkriptionstiden, utan även väntetiden i de interna köerna.
Gör en HTTP GET-begäran med hjälp av URI:n enligt följande exempel. Ersätt YourTranscriptionId
med ditt transkriptions-ID, ersätt YourSubscriptionKey
med din Speech-resursnyckel och ersätt YourServiceRegion
med din Speech-resursregion.
curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
Du bör få en svarstext i följande format:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": true,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT3S",
"languageIdentification": {
"candidateLocales": [
"en-US",
"de-DE",
"es-ES"
]
}
},
"lastActionDateTime": "2024-05-10T18:39:09Z",
"status": "Succeeded",
"createdDateTime": "2024-05-10T18:39:07Z",
"locale": "en-US",
"displayName": "My Transcription"
}
Egenskapen status
anger den aktuella statusen för transkriptionerna. Transkriptions- och transkriptionsrapporten är tillgängliga när transkriptionsstatusen är Succeeded
.
Viktigt!
Batch-transkriptionsjobb schemaläggs enligt bästa praxis. Vid rusningstid kan det ta upp till 30 minuter eller längre innan ett transkriptionsjobb börjar bearbetas. För det mesta under körningen är Running
transkriptionsstatusen . Det beror på att jobbet tilldelas status så Running
fort det flyttas till serverdelssystemet för batch-transkription. När basmodellen används sker den här tilldelningen nästan omedelbart. det är något långsammare för anpassade modeller. Den tid som ett transkriptionsjobb tillbringar i Running
tillståndet motsvarar alltså inte den faktiska transkriptionstiden, utan även väntetiden i de interna köerna.
Om du vill hämta status för transkriptionsjobbet spx batch transcription status
använder du kommandot . Skapa begärandeparametrarna enligt följande instruktioner:
- Ange parametern
transcription
till ID:t för transkriptionen som du vill hämta.
Här är ett exempel på ett Speech CLI-kommando för att hämta transkriptionsstatusen:
spx batch transcription status --api-version v3.2 --transcription YourTranscriptionId
Du bör få en svarstext i följande format:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/aaa321e9-5a4e-4db1-88a2-f251bbe7b555"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"displayFormWordLevelTimestampsEnabled": true,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"duration": "PT3S"
},
"lastActionDateTime": "2024-05-10T18:39:09Z",
"status": "Succeeded",
"createdDateTime": "2024-05-10T18:39:07Z",
"locale": "en-US",
"displayName": "My Transcription"
}
Egenskapen status
anger den aktuella statusen för transkriptionerna. Transkriptions- och transkriptionsrapporten är tillgängliga när transkriptionsstatusen är Succeeded
.
Kör följande kommando för speech CLI-hjälp med transkriptioner:
spx help batch transcription
Hämta transkriptionsresultat
Åtgärden Transcriptions_ListFiles returnerar en lista över resultatfiler för en transkription. En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb. Dessutom tillhandahålls en transkriptionsfil (slutresultatet) för varje transkriberad ljudfil.
Gör en HTTP GET-begäran med hjälp av URI:n "files" från föregående svarstext. Ersätt YourTranscriptionId
med ditt transkriptions-ID, ersätt YourSubscriptionKey
med din Speech-resursnyckel och ersätt YourServiceRegion
med din Speech-resursregion.
curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/YourTranscriptionId/files" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
Du bör få en svarstext i följande format:
{
"values": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
"name": "contenturl_0.json",
"kind": "Transcription",
"properties": {
"size": 3407
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
"name": "contenturl_1.json",
"kind": "Transcription",
"properties": {
"size": 8233
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
"name": "report.json",
"kind": "TranscriptionReport",
"properties": {
"size": 279
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionReportUrl"
}
}
]
}
Platsen för varje transkriptions- och transkriptionsrapportfiler med mer information returneras i svarstexten. Egenskapen contentUrl
innehåller URL:en till transkriptionsfilen ("kind": "Transcription"
) eller transkriptionsrapporten ("kind": "TranscriptionReport"
).
Om du inte angav en container i destinationContainerUrl
egenskapen för transkriptionsbegäran lagras resultaten i en container som hanteras av Microsoft. När transkriptionsjobbet tas bort tas även transkriptionsresultatdata bort.
Kommandot spx batch transcription list
returnerar en lista över resultatfiler för en transkription. En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb. Dessutom tillhandahålls en transkriptionsfil (slutresultatet) för varje transkriberad ljudfil.
- Ange flaggan som krävs
files
. - Ange den obligatoriska
transcription
parametern till ID:t för transkriptionen som du vill hämta loggar.
Här är ett exempel på ett Speech CLI-kommando som hämtar en lista över resultatfiler för en transkription:
spx batch transcription list --api-version v3.2 --files --transcription YourTranscriptionId
Du bör få en svarstext i följande format:
{
"values": [
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/2dd180a1-434e-4368-a1ac-37350700284f",
"name": "contenturl_0.json",
"kind": "Transcription",
"properties": {
"size": 3407
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/c027c6a9-2436-4303-b64b-e98e3c9fc2e3",
"name": "contenturl_1.json",
"kind": "Transcription",
"properties": {
"size": 8233
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionUrl"
}
},
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/637d9333-6559-47a6-b8de-c7d732c1ddf3/files/faea9a41-c95c-4d91-96ff-e39225def642",
"name": "report.json",
"kind": "TranscriptionReport",
"properties": {
"size": 279
},
"createdDateTime": "2024-05-10T18:39:09Z",
"links": {
"contentUrl": "YourTranscriptionReportUrl"
}
}
]
}
Platsen för varje transkriptions- och transkriptionsrapportfiler med mer information returneras i svarstexten. Egenskapen contentUrl
innehåller URL:en till transkriptionsfilen ("kind": "Transcription"
) eller transkriptionsrapporten ("kind": "TranscriptionReport"
).
Som standard lagras resultaten i en container som hanteras av Microsoft. När transkriptionsjobbet tas bort tas även transkriptionsresultatdata bort.
Transkriptionsrapportfil
En transkriptionsrapportfil tillhandahålls för varje skickat batch-transkriptionsjobb.
Innehållet i varje transkriptionsresultatfil formateras som JSON, vilket visas i det här exemplet.
{
"successfulTranscriptionsCount": 2,
"failedTranscriptionsCount": 0,
"details": [
{
"source": "https://crbn.us/hello.wav",
"status": "Succeeded"
},
{
"source": "https://crbn.us/whatstheweatherlike.wav",
"status": "Succeeded"
}
]
}
Transkriptionsresultatfil
En transkriptionsresultatfil tillhandahålls för varje transkriberad ljudfil.
Innehållet i varje transkriptionsresultatfil formateras som JSON, vilket visas i det här exemplet.
{
"source": "...",
"timestamp": "2023-07-10T14:28:16Z",
"durationInTicks": 25800000,
"duration": "PT2.58S",
"combinedRecognizedPhrases": [
{
"channel": 0,
"lexical": "hello world",
"itn": "hello world",
"maskedITN": "hello world",
"display": "Hello world."
}
],
"recognizedPhrases": [
{
"recognitionStatus": "Success",
"channel": 0,
"offset": "PT0.76S",
"duration": "PT1.32S",
"offsetInTicks": 7600000.0,
"durationInTicks": 13200000.0,
"nBest": [
{
"confidence": 0.5643338,
"lexical": "hello world",
"itn": "hello world",
"maskedITN": "hello world",
"display": "Hello world.",
"displayWords": [
{
"displayText": "Hello",
"offset": "PT0.76S",
"duration": "PT0.76S",
"offsetInTicks": 7600000.0,
"durationInTicks": 7600000.0
},
{
"displayText": "world.",
"offset": "PT1.52S",
"duration": "PT0.56S",
"offsetInTicks": 15200000.0,
"durationInTicks": 5600000.0
}
]
},
{
"confidence": 0.1769063,
"lexical": "helloworld",
"itn": "helloworld",
"maskedITN": "helloworld",
"display": "helloworld"
},
{
"confidence": 0.49964225,
"lexical": "hello worlds",
"itn": "hello worlds",
"maskedITN": "hello worlds",
"display": "hello worlds"
},
{
"confidence": 0.4995761,
"lexical": "hello worm",
"itn": "hello worm",
"maskedITN": "hello worm",
"display": "hello worm"
},
{
"confidence": 0.49418187,
"lexical": "hello word",
"itn": "hello word",
"maskedITN": "hello word",
"display": "hello word"
}
]
}
]
}
Beroende delvis på de begärandeparametrar som angavs när du skapade transkriptionsjobbet kan transkriptionsfilen innehålla följande resultategenskaper.
Property | beskrivning |
---|---|
channel |
Kanalnumret för resultaten. För stereoljudströmmar delas de vänstra och högra kanalerna under transkriptionen. En JSON-resultatfil skapas för varje indataljudfil. |
combinedRecognizedPhrases |
Det sammanlänkade resultatet av alla fraser för kanalen. |
confidence |
Konfidensvärdet för igenkänningen. |
display |
Visningsformen för den igenkända texten. Extra skiljetecken och versaler ingår. |
displayWords |
Tidsstämplarna för varje ord i transkriptionen. Begärandeegenskapen displayFormWordLevelTimestampsEnabled måste vara inställd på true , annars finns inte den här egenskapen.Obs! Den här egenskapen är endast tillgänglig med Speech to text REST API version 3.1 och senare. |
duration |
Ljudvaraktigheten. Värdet är en ISO 8601-kodad varaktighet. |
durationInTicks |
Ljudvaraktigheten i tick (en tick är 100 nanosekunder). |
itn |
Den inverterade textnormaliserade (ITN) formen av den igenkända texten. Förkortningar som "Doctor Smith" till "Dr Smith", telefonnummer och andra transformeringar tillämpas. |
lexical |
De faktiska orden känns igen. |
locale |
Språkvarianten som identifieras från inmatningen av ljudet. Begärandeegenskapen languageIdentification måste anges, annars finns inte den här egenskapen.Obs! Den här egenskapen är endast tillgänglig med Speech to text REST API version 3.1 och senare. |
maskedITN |
ITN-formuläret med svordomsmaskering tillämpat. |
nBest |
En lista över möjliga transkriptioner för den aktuella frasen med förtroende. |
offset |
Förskjutningen i ljudet av den här frasen. Värdet är en ISO 8601-kodad varaktighet. |
offsetInTicks |
Förskjutningen i ljudet av den här frasen i fästingar (en tick är 100 nanosekunder). |
recognitionStatus |
Igenkänningstillståndet. Exempel: "Lyckades" eller "Fel". |
recognizedPhrases |
Listan med resultat för varje fras. |
source |
Url:en som angavs som indataljudkälla. Källan motsvarar egenskapen eller contentContainerUrl begärandeegenskapencontentUrls . Egenskapen source är det enda sättet att bekräfta ljudindata för en transkription. |
speaker |
Den identifierade talaren. diarization Egenskaperna och diarizationEnabled förfrågning måste anges, annars finns inte den här egenskapen. |
timestamp |
Skapandedatum och tid för transkriptionen. Värdet är en ISO 8601-kodad tidsstämpel. |
words |
En lista med resultat med lexikal text för varje ord i frasen. Begärandeegenskapen wordLevelTimestampsEnabled måste vara inställd på true , annars finns inte den här egenskapen. |