AssemblyAI (förhandsversion)

Transkribera och extrahera data från ljud med AssemblyAI:s Speech AI.

Den här anslutningsappen är tillgänglig i följande produkter och regioner:

Tjänster	Class	Regioner
Copilot Studio	Premie	Alla Power Automate-regioner utom följande: - Amerikanska myndigheter (GCC) - Amerikanska myndigheter (GCC High) – China Cloud drivs av 21Vianet - US Department of Defense (DoD)
Logiska appar	Norm	Alla Logic Apps-regioner utom följande: – Azure Government-regioner – Regioner i Azure Kina - US Department of Defense (DoD)
Power Apps	Premie	Alla Power Apps-regioner utom följande: - Amerikanska myndigheter (GCC) - Amerikanska myndigheter (GCC High) – China Cloud drivs av 21Vianet - US Department of Defense (DoD)
Power Automate	Premie	Alla Power Automate-regioner utom följande: - Amerikanska myndigheter (GCC) - Amerikanska myndigheter (GCC High) – China Cloud drivs av 21Vianet - US Department of Defense (DoD)

Kontakt
Namn	Support
URL	https://www.assemblyai.com/docs/
E-postmeddelande	support@assemblyai.com

Metadata för anslutningsprogram
Utgivare	AssemblyAI
Webbplats	https://www.assemblyai.com
Sekretesspolicy	https://www.assemblyai.com/legal/privacy-policy
Kategorier	AI

Med AssemblyAI Connector kan du använda AssemblyAI:s modeller för att bearbeta ljuddata genom att transkribera dem med taligenkänningsmodeller, analysera dem med ljudinformationsmodeller och skapa generativa funktioner ovanpå dem med LLM:er.

Tal till text , inklusive många konfigurerbara funktioner, till exempel talardiarisering, anpassad stavning, anpassat ordförråd osv.
Ljudinformationsmodeller är ytterligare AI-modeller som är tillgängliga och konfigurerade via transkriptionskonfigurationen.
Med LeMUR kan du tillämpa olika LLM-modeller på dina avskrifter utan att behöva bygga en egen RAG-infrastruktur för mycket stora transkriptioner.

Förutsättningar

Du behöver följande för att fortsätta:

En AssemblyAI API-nyckel (hämta en kostnadsfritt)

Hämta autentiseringsuppgifter

Du kan hämta en AssemblyAI API-nyckel kostnadsfritt genom att registrera dig för ett konto och kopiera API-nyckeln från instrumentpanelen.

Kom igång med anslutningsappen

Följ de här stegen för att transkribera ljud med hjälp av AssemblyAI-anslutningsappen.

Ladda upp en fil

För att transkribera en ljudfil med AssemblyAI måste filen vara tillgänglig för AssemblyAI. Om ljudfilen redan är tillgänglig via en URL kan du använda din befintliga URL.

Annars kan du använda åtgärden Upload a File för att ladda upp en fil till AssemblyAI. Du får tillbaka en URL för filen som bara kan användas för att transkribera med hjälp av din API-nyckel. När du transkriberar filen tas filen bort från AssemblyAI:s servrar.

Transkribera ljud

Om du vill transkribera ljudet konfigurerar du parametern Audio URL med hjälp av din ljudfils-URL. Konfigurera sedan de ytterligare parametrarna för att aktivera fler taligenkänningsfunktioner och ljudinformationsmodeller .

Resultatet av åtgärden Transkribera ljud är en avskrift i kö som börjar bearbetas omedelbart. För att få den slutförda avskriften har du två alternativ:

Hantera avskriftsklar webhook
Avsöka avskriftsstatus

Hantera avskriftsklar webhook

Om du inte vill hantera webhooken med hjälp av Logic Apps eller Power Automate konfigurerar du parametern Webhook URL i din Transcribe Audio åtgärd och implementerar webhooken efter AssemblyAI:s webhookdokumentation.

Följ dessa steg för att hantera webhooken med hjälp av Logic Apps eller Power Automate:

Skapa en separat logikapp eller Power Automate Flow
Konfigurera When an HTTP request is received som utlösare:
- Ställ in Who Can Trigger The Flow? på Anyone
- Ange Request Body JSON Schema till:
```
{
  "type": "object",
  "properties": {
    "transcript_id": {
      "type": "string"
    },
    "status": {
      "type": "string"
    }
  }
}
```
- Ställ in Method på POST
Lägg till en AssemblyAI-åtgärd Get Transcript som skickar transcript_id in från utlösaren till parametern Transcript ID .
Innan du gör något annat bör du kontrollera om Status är completed eller error. Lägg till en Condition åtgärd som kontrollerar om Status från utdata Get Transcript är error:
- Lägg till en Terminate åtgärd i grenen True
  - Ange till StatusFailed
  - Ange till CodeTranscript Error
  - Error Skicka från utdata Get Transcript till parameternMessage.
- Du kan lämna grenen False tom.
Nu kan du lägga till valfri åtgärd när Condition du vet att avskriftsstatusen är completed, och du kan hämta någon av utdataegenskaperna för Get Transcript åtgärden.
Spara logikappen eller flödet. Kommer HTTP URL att genereras för utlösaren When an HTTP request is received . HTTP URL Kopiera och gå tillbaka till din ursprungliga logikapp eller ditt flöde.
Uppdatera åtgärden i din ursprungliga logikapp eller ditt flöde Transcribe Audio . Klistra in den HTTP URL du kopierade tidigare i parametern Webhook URL och spara.

När avskriftsstatusen blir completed eller errorskickar AssemblyAI en HTTP POST-begäran till webhooks-URL:en, som hanteras av din andra logikapp eller flöde.

Som ett alternativ till att använda webhooken kan du avsöka avskriftsstatusen enligt beskrivningen i nästa avsnitt.

Avsöka avskriftsstatus

Du kan avsöka avskriftsstatusen med hjälp av följande steg:

Lägga till en Initialize variable åtgärd
- Ställ in Name på transcript_status
- Ställ in Type på String
- Status Lagra från utdata Transcribe Audio i parametern Value
Lägga till en Do until åtgärd
- Konfigurera parametern Loop Until med följande Fx-kod:
```
or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
```
  Den här koden kontrollerar om variabeln transcript_status är completed eller error.
- Konfigurera parametern Count till 86400
- Konfigurera parametern Timeout till PT24H
Lägg till följande åtgärder i Do until åtgärden:
- Lägg till en Delay åtgärd som väntar i en sekund
- Lägg till en Get Transcript åtgärd och skicka ID från utdata Transcribe Audio till parametern Transcript ID .
- Lägga till en Set variable åtgärd
  - Ställ in Name på transcript_status
  - Status Skicka utdata Get Transcript till parametern Value
Loopen Do until fortsätter tills avskriften har slutförts eller ett fel uppstod.
Lägg till en annan Get Transcript åtgärd, som tidigare, men lägg till den efter loopen Do until så att dess utdata blir tillgängliga utanför åtgärdens Do until omfång.

Innan du gör något annat bör du kontrollera om avskriften Status är completed eller error. Lägg till en Condition åtgärd som kontrollerar om transcript_status är error:

Lägg till en Terminate åtgärd i grenen True
- Ställ in Status på Failed
- Ställ in Code på Transcript Error
- Error Skicka från utdata Get Transcript till parameternMessage.
Du kan lämna grenen False tom.

Nu kan du lägga till valfri åtgärd när Condition du vet att avskriftsstatusen är completed, och du kan hämta någon av utdataegenskaperna för Get Transcript åtgärden.

Lägga till fler åtgärder

Nu när du har slutfört transkriptionen kan du använda många andra åtgärder som skickas i avskriften ID , till exempel

Get Sentences of Transcript
Get Paragraphs of Transcript
Get Subtitles of Transcript
Get Redacted Audio
Search Transcript for Words
Run a Task using LeMUR

Kända problem och begränsningar

Inga kända problem för närvarande. Vi stöder inte strömningstal –To-Text (realtid) eftersom det inte är möjligt att använda anpassade anslutningsappar.

Vanliga fel och åtgärder

Du hittar mer information om fel i AssemblyAI-dokumentationen.

Vanliga frågor

Du hittar vanliga frågor och svar i vår dokumentation.

Skapa en anslutning

Anslutningsappen stöder följande autentiseringstyper:


Standardinställning	Parametrar för att skapa anslutning.	Alla regioner	Går inte att dela

Standard

Tillämpligt: Alla regioner

Parametrar för att skapa anslutning.

Det här är inte delningsbar anslutning. Om power-appen delas med en annan användare uppmanas en annan användare att skapa en ny anslutning explicit.

Namn	Typ	Description	Krävs
AssemblyAI API-nyckel	securestring	AssemblyAI API-nyckeln för att autentisera AssemblyAI-API:et.	Sann

Begränsningsgränser

Name	Anrop	Förnyelseperiod
API-anrop per anslutning	100	60 sekunder

Åtgärder

Hämta avskrift	Hämta avskriftsresursen. Avskriften är klar när "status" är "slutförd".
Hämta LeMUR-svar	Hämta ett LeMUR-svar som genererades tidigare.
Hämta meningar i avskrift	Få avskriften uppdelad efter meningar. API:et försöker semantiskt segmentera avskriften i meningar för att skapa mer läsarvänliga avskrifter.
Hämta redigerat ljud	Hämta det redigerade ljudobjektet som innehåller status och URL till det redigerade ljudet.
Hämta stycken i avskrift	Få avskriften uppdelad efter stycken. API:et försöker semantiskt segmentera avskriften i stycken för att skapa mer läsvänliga avskrifter.
Hämta undertexter för avskrift	Exportera avskriften i SRT- eller VTT-format för att använda med en videospelare för undertexter och undertexter.
Kör en uppgift med LeMUR	Använd LeMUR-aktivitetsslutpunkten för att ange en egen LLM-prompt.
Ladda upp en mediefil	Ladda upp en mediefil till AssemblyAI:s servrar.
Listavskrifter	Hämta en lista över avskrifter som du skapade. Avskrifter sorteras från nyaste till äldsta. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.
Rensa LeMUR-begärandedata	Ta bort data för en tidigare skickad LeMUR-begäran. LLM-svarsdata samt eventuella kontexter som anges i den ursprungliga begäran tas bort.
Sökord i avskrift	Sök igenom avskriften efter nyckelord. Du kan söka efter enskilda ord, siffror eller fraser som innehåller upp till fem ord eller siffror.
Ta bort avskrift	Ta bort avskriften. Borttagningen tar inte bort själva resursen, men tar bort data från resursen och markerar den som borttagen.
Transkribera ljud	Skapa en avskrift från en mediefil som är tillgänglig via en URL.

Hämta avskrift

Åtgärds-ID:: GetTranscript

Hämta avskriftsresursen. Avskriften är klar när "status" är "slutförd".

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Avskrifts-ID	transcript_id	True	string	ID för avskriften

Returer

Ett avskriftsobjekt

Body: Transcript

Hämta LeMUR-svar

Åtgärds-ID:: GetLemurResponse

Hämta ett LeMUR-svar som genererades tidigare.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
ID för LeMUR-begäran	request_id	True	string	ID:t för Den LeMUR-begäran som du gjorde tidigare. Detta skulle hittas i svaret på den ursprungliga begäran.

Returer

Body: LemurResponse

Hämta meningar i avskrift

Åtgärds-ID:: GetTranscriptSentences

Få avskriften uppdelad efter meningar. API:et försöker semantiskt segmentera avskriften i meningar för att skapa mer läsarvänliga avskrifter.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Avskrifts-ID	transcript_id	True	string	ID för avskriften

Returer

Body: SentencesResponse

Hämta redigerat ljud

Åtgärds-ID:: GetRedactedAudio

Hämta det redigerade ljudobjektet som innehåller status och URL till det redigerade ljudet.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Avskrifts-ID	transcript_id	True	string	ID för avskriften

Returer

Body: RedactedAudioResponse

Hämta stycken i avskrift

Åtgärds-ID:: GetTranscriptParagraphs

Få avskriften uppdelad efter stycken. API:et försöker semantiskt segmentera avskriften i stycken för att skapa mer läsvänliga avskrifter.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Avskrifts-ID	transcript_id	True	string	ID för avskriften

Returer

Body: ParagraphsResponse

Hämta undertexter för avskrift

Åtgärds-ID:: GetSubtitles

Exportera avskriften i SRT- eller VTT-format för att använda med en videospelare för undertexter och undertexter.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Avskrifts-ID	transcript_id	True	string	ID för avskriften
Underrubrikformat	subtitle_format	True	string	Format för undertexterna
Antal tecken per bildtext	chars_per_caption		integer	Maximalt antal tecken per bildtext

Returer

response: string

Kör en uppgift med LeMUR

Åtgärds-ID:: LemurTask

Använd LeMUR-aktivitetsslutpunkten för att ange en egen LLM-prompt.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Omedelbar	prompt	True	string	Texten uppmanar modellen att skapa önskade utdata, inklusive kontexter som du vill skicka till modellen.
Avskrifts-ID	transcript_ids		array of uuid	En lista över slutförda avskrifter med text. Upp till högst 100 filer eller 100 timmar, beroende på vilket som är lägre. Använd antingen transcript_ids eller input_text som indata i LeMUR.
Indatatext	input_text		string	Anpassade formaterade avskriftsdata. Maximal storlek är kontextgränsen för den valda modellen, som standard är 100000. Använd antingen transcript_ids eller input_text som indata i LeMUR.
Context	context		string	Kontext för att tillhandahålla modellen. Det kan vara en sträng eller ett JSON-värde i fritt format.
Slutlig modell	final_model		string	Den modell som används för den sista prompten efter komprimering utförs.
Maximal utdatastorlek	max_output_size		integer	Maximal utdatastorlek i token, upp till 4 000
Temperatur	temperature		float	Temperaturen som ska användas för modellen. Högre värden resulterar i svar som är mer kreativa, lägre värden är mer konservativa. Kan vara valfritt värde mellan 0,0 och 1,0 inklusive.

Returer

Body: LemurTaskResponse

Ladda upp en mediefil

Åtgärds-ID:: UploadFile

Ladda upp en mediefil till AssemblyAI:s servrar.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Filinnehåll	file	True	binary	Filen som ska laddas upp.

Returer

Body: UploadedFile

Listavskrifter

Åtgärds-ID:: ListTranscripts

Hämta en lista över avskrifter som du skapade. Avskrifter sorteras från nyaste till äldsta. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.

Parametrar

Name	Nyckel	Typ	Description
Limit	limit	integer	Maximal mängd avskrifter som ska hämtas
Läge	status	string	Status för avskriften. Möjliga värden placeras i kö, bearbetas, slutförs eller fel.
Skapad på	created_on	date	Hämta endast avskrifter som skapats på det här datumet
Före ID	before_id	uuid	Hämta avskrifter som skapades före det här avskrifts-ID:t
Efter ID	after_id	uuid	Hämta avskrifter som har skapats efter det här avskrifts-ID:t
Endast begränsad	throttled_only	boolean	Hämta endast begränsade avskrifter, åsidosätter statusfiltret

Returer

En lista över avskrifter. Avskrifter sorteras från nyaste till äldsta. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.

Body: TranscriptList

Rensa LeMUR-begärandedata

Åtgärds-ID:: PurgeLemurRequestData

Ta bort data för en tidigare skickad LeMUR-begäran. LLM-svarsdata samt eventuella kontexter som anges i den ursprungliga begäran tas bort.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
ID för LeMUR-begäran	request_id	True	string	ID för LeMUR-begäran vars data du vill ta bort. Detta skulle hittas i svaret på den ursprungliga begäran.

Returer

Body: PurgeLemurRequestDataResponse

Sökord i avskrift

Åtgärds-ID:: WordSearch

Sök igenom avskriften efter nyckelord. Du kan söka efter enskilda ord, siffror eller fraser som innehåller upp till fem ord eller siffror.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Avskrifts-ID	transcript_id	True	string	ID för avskriften
Ord	words	True	array	Nyckelord att söka efter

Returer

Body: WordSearchResponse

Ta bort avskrift

Åtgärds-ID:: DeleteTranscript

Ta bort avskriften. Borttagningen tar inte bort själva resursen, men tar bort data från resursen och markerar den som borttagen.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Avskrifts-ID	transcript_id	True	string	ID för avskriften

Returer

Ett avskriftsobjekt

Body: Transcript

Transkribera ljud

Åtgärds-ID:: CreateTranscript

Skapa en avskrift från en mediefil som är tillgänglig via en URL.

Parametrar

Name	Nyckel	Obligatorisk	Typ	Description
Ljud-URL	audio_url	True	string	URL:en för ljud- eller videofilen som ska transkriberas.
Språkkod	language_code		string	Ljudfilens språk. Möjliga värden finns i språk som stöds. Standardvärdet är "en_us".
Language Detection	language_detection		boolean	Aktivera automatisk språkidentifiering, antingen sant eller falskt.
Talmodell	speech_model		string	Talmodellen som ska användas för transkriptionen.
Interpunktera	punctuate		boolean	Aktivera automatisk skiljetecken, kan vara sant eller falskt
Formatera text	format_text		boolean	Aktivera textformatering, kan vara sant eller falskt
Avvikelser	disfluencies		boolean	Transkribera fyllnadsord, som "um", i mediefilen; kan vara sant eller falskt
Dubbel kanal	dual_channel		boolean	Aktivera transkription med dubbla kanaler, kan vara sant eller falskt.
Webhook-URL	webhook_url		string	Den URL som vi skickar webhooksbegäranden till. Vi skickar två olika typer av webhook-begäranden. En begäran när en avskrift har slutförts eller misslyckats och en begäran när det redigerade ljudet är klart om redact_pii_audio är aktiverat.
Webhook Auth-huvudnamn	webhook_auth_header_name		string	Rubriknamnet som ska skickas med avskriften slutförd eller misslyckade webhook-begäranden
Webhook-autentiseringshuvudvärde	webhook_auth_header_value		string	Rubrikvärdet som ska skickas tillbaka med avskriften slutförd eller misslyckade webhook-begäranden för ökad säkerhet
Nyckelfraser	auto_highlights		boolean	Aktivera nyckelfraser, antingen sant eller falskt
Ljudstart från	audio_start_from		integer	Tidpunkten i millisekunder för att börja transkribera i mediefilen
Ljudslut vid	audio_end_at		integer	Tidpunkten i millisekunder för att sluta transkribera i mediefilen
Word Boost	word_boost		array of string	Listan över anpassade ordförråd för att öka transkriptionsannolikheten för
Word Boost-nivå	boost_param		string	Hur mycket du vill öka angivna ord
Filtrera svordomar	filter_profanity		boolean	Filtrera svordomar från den transkriberade texten, kan vara sant eller falskt
Redigera PII	redact_pii		boolean	Redigera PII från den transkriberade texten med redact PII-modellen, kan vara sant eller falskt
Redigera PII-ljud	redact_pii_audio		boolean	Generera en kopia av den ursprungliga mediefilen med talad PII "pipad" ut, kan vara sant eller falskt. Mer information finns i PII-redigering.
Redigera PII-ljudkvalitet	redact_pii_audio_quality		string	Styr filtypen för ljudet som skapats av redact_pii_audio. Stöder för närvarande mp3 (standard) och wav. Mer information finns i PII-redigering.
Redigera PII-principer	redact_pii_policies		array of string	Listan över PII Redaction-principer som ska aktiveras. Mer information finns i PII-redigering.
Redact PII-ersättning	redact_pii_sub		string	Ersättningslogiken för identifierad PII kan vara "entity_name" eller "hash". Mer information finns i PII-redigering.
Talaretiketter	speaker_labels		boolean	Aktivera talardiarisering, kan vara sant eller falskt
Förväntade talare	speakers_expected		integer	Talar om för talaretikettmodellen hur många talare den ska försöka identifiera, upp till 10. Mer information finns i Talardiarisering.
Innehållsmoderering	content_safety		boolean	Aktivera innehållsmoderering, kan vara sant eller falskt
Förtroende för innehållsmoderering	content_safety_confidence		integer	Konfidenströskelvärdet för innehållsmodereringsmodellen. Värdena måste vara mellan 25 och 100.
Ämnesidentifiering	iab_categories		boolean	Aktivera ämnesidentifiering, kan vara sant eller falskt
Från	from	True	array of string	Ord eller fraser som ska ersättas
Till	to	True	string	Ord eller fras att ersätta med
Sentiment Analysis	sentiment_analysis		boolean	Aktivera attitydanalys, kan vara sant eller falskt
Automatiska kapitel	auto_chapters		boolean	Aktivera automatiska kapitel, kan vara sant eller falskt
Entitetsidentifiering	entity_detection		boolean	Aktivera entitetsidentifiering, kan vara sant eller falskt
Taltröskel	speech_threshold		float	Avvisa ljudfiler som innehåller mindre än den här delen av talet. Giltiga värden finns i intervallet [0, 1] inklusive.
Aktivera sammanfattning	summarization		boolean	Aktivera sammanfattning, kan vara sant eller falskt
Sammanfattningsmodell	summary_model		string	Modellen för att sammanfatta avskriften
Sammanfattningstyp	summary_type		string	Typ av sammanfattning
Aktivera anpassade ämnen	custom_topics		boolean	Aktivera anpassade ämnen, antingen sant eller falskt
Anpassade ämnen	topics		array of string	Listan över anpassade ämnen

Returer

Ett avskriftsobjekt

Body: Transcript

Definitioner

RedactedAudioResponse

Name	Sökväg	Typ	Description
Läge	status	string	Status för det redigerade ljudet
Redigerad ljud-URL	redacted_audio_url	string	URL:en för den redigerade ljudfilen

WordSearchResponse

Name	Sökväg	Typ	Description
Avskrifts-ID	id	uuid	ID för avskriften
Totalt antal matchningar	total_count	integer	Det totala antalet matchade instanser. För t.ex. matchas ord 1 2 gånger och ord 2 matchas 3 gånger, total_count är lika med 5.
Matcher	matches	array of object	Matchningarna i sökningen
Text	matches.text	string	Det matchade ordet
Räkna	matches.count	integer	Den totala mängden gånger ordet finns i avskriften
Tidsstämplar	matches.timestamps	array of array	En matris med tidsstämplar
Tidsstämpel	matches.timestamps	array of integer	En matris med tidsstämplar strukturerade som [start_time, end_time] i millisekunder
Indexen	matches.indexes	array of integer	En matris med alla indexplatser för ordet i ordmatrisen för den slutförda avskriften

Avskrift

Ett avskriftsobjekt

Name	Sökväg	Typ	Description
ID-nummer	id	uuid	Den unika identifieraren för avskriften
Ljud-URL	audio_url	string	URL:en för mediet som transkriberades
Läge	status	string	Status för avskriften. Möjliga värden placeras i kö, bearbetas, slutförs eller fel.
Språkkod	language_code	string	Ljudfilens språk. Möjliga värden finns i språk som stöds. Standardvärdet är "en_us".
Language Detection	language_detection	boolean	Om automatisk språkidentifiering är aktiverat, antingen sant eller falskt
Talmodell	speech_model	string	Talmodellen som ska användas för transkriptionen.
Text	text	string	Textavskriften av mediefilen
Ord	words	array of object	En matris med sekventiellt sekventiella ordobjekt, ett för varje ord i avskriften. Mer information finns i Taligenkänning.
Förtroende	words.confidence	double
Start	words.start	integer
Sluta	words.end	integer
Text	words.text	string
Högtalare	words.speaker	string	Talaren i meningen om talardiarisering är aktiverat, annars null
Uttalanden	utterances	array of object	När dual_channel eller speaker_labels är aktiverat visas en lista över sväng-för-sväng-yttranden. Mer information finns i Talardiarisering.
Förtroende	utterances.confidence	double	Konfidenspoängen för avskriften av det här yttrandet
Start	utterances.start	integer	Starttiden, i millisekunder, för yttrandet i ljudfilen
Sluta	utterances.end	integer	Sluttiden, i millisekunder, för yttrandet i ljudfilen
Text	utterances.text	string	Texten för det här yttrandet
Ord	utterances.words	array of object	Orden i yttrandet.
Förtroende	utterances.words.confidence	double
Start	utterances.words.start	integer
Sluta	utterances.words.end	integer
Text	utterances.words.text	string
Högtalare	utterances.words.speaker	string	Talaren i meningen om talardiarisering är aktiverat, annars null
Högtalare	utterances.speaker	string	Talaren i det här yttrandet, där varje talare tilldelas en sekventiell versal bokstav , t.ex. "A" för talare A, "B" för talare B osv.
Förtroende	confidence	double	Konfidenspoängen för avskriften, mellan 0,0 (låg konfidens) och 1,0 (hög konfidens)
Ljudvaraktighet	audio_duration	integer	Varaktigheten för transkriberingsobjektets mediefil i sekunder
Interpunktera	punctuate	boolean	Om automatisk skiljetecken är aktiverat, antingen sant eller falskt
Formatera text	format_text	boolean	Om textformatering är aktiverat, antingen sant eller falskt
Avvikelser	disfluencies	boolean	Transkribera fyllnadsord, som "um", i mediefilen; kan vara sant eller falskt
Dubbel kanal	dual_channel	boolean	Om transkription med dubbla kanaler har aktiverats i transkriptionsbegäran, antingen sant eller falskt
Webhook-URL	webhook_url	string	Den URL som vi skickar webhooksbegäranden till. Vi skickar två olika typer av webhook-begäranden. En begäran när en avskrift har slutförts eller misslyckats och en begäran när det redigerade ljudet är klart om redact_pii_audio är aktiverat.
Webhook HTTP-statuskod	webhook_status_code	integer	Statuskoden som vi fick från servern när avskriften levererades slutfördes eller misslyckades webhook-begäran, om en webhook-URL angavs
Webhook-autentisering aktiverad	webhook_auth	boolean	Om webhook-autentiseringsinformation har angetts
Webhook Auth-huvudnamn	webhook_auth_header_name	string	Rubriknamnet som ska skickas med avskriften slutförd eller misslyckade webhook-begäranden
Hastighetsökning	speed_boost	boolean	Om hastighetsökning är aktiverat
Nyckelfraser	auto_highlights	boolean	Om nyckelfraser är aktiverade, antingen sant eller falskt
Läge	auto_highlights_result.status	string	Antingen lyckades eller var den inte tillgänglig i det sällsynta fallet att modellen misslyckades
Results	auto_highlights_result.results	array of object	En tidsmässigt sekventiell matris med nyckelfraser
Räkna	auto_highlights_result.results.count	integer	Det totala antalet gånger som nyckelfrasen visas i ljudfilen
Rangordning	auto_highlights_result.results.rank	float	Den totala relevansen för den övergripande ljudfilen för den här nyckelfrasen – ett större antal innebär mer relevant
Text	auto_highlights_result.results.text	string	Själva texten i nyckelfrasen
Tidsstämplar	auto_highlights_result.results.timestamps	array of object	Tidsstämpeln för nyckelfrasen
Start	auto_highlights_result.results.timestamps.start	integer	Starttiden i millisekunder
Sluta	auto_highlights_result.results.timestamps.end	integer	Sluttiden i millisekunder
Ljudstart från	audio_start_from	integer	Tidpunkten, i millisekunder, i filen där transkriptionen startades
Ljudslut vid	audio_end_at	integer	Tidpunkten, i millisekunder, i filen där transkriptionen avslutades
Word Boost	word_boost	array of string	Listan över anpassade ordförråd för att öka transkriptionsannolikheten för
Öka	boost_param	string	Ordet boost-parametervärde
Filtrera svordomar	filter_profanity	boolean	Om svordomsfiltrering är aktiverat, antingen sant eller falskt
Redigera PII	redact_pii	boolean	Om PII-redigering är aktiverat, antingen sant eller falskt
Redigera PII-ljud	redact_pii_audio	boolean	Om en redigerad version av ljudfilen genererades, antingen sant eller falskt. Mer information finns i PII-redigering.
Redigera PII-ljudkvalitet	redact_pii_audio_quality	string	Styr filtypen för ljudet som skapats av redact_pii_audio. Stöder för närvarande mp3 (standard) och wav. Mer information finns i PII-redigering.
Redigera PII-principer	redact_pii_policies	array of string	Listan över PII Redaction-principer som har aktiverats, om PII Redaction är aktiverat. Mer information finns i PII-redigering.
Redact PII-ersättning	redact_pii_sub	string	Ersättningslogiken för identifierad PII kan vara "entity_name" eller "hash". Mer information finns i PII-redigering.
Talaretiketter	speaker_labels	boolean	Om talardiarisering är aktiverat, kan vara sant eller falskt
Förväntade talare	speakers_expected	integer	Tala om för talaretikettmodellen hur många talare den ska försöka identifiera, upp till 10. Mer information finns i Talardiarisering.
Innehållsmoderering	content_safety	boolean	Om innehållsmoderering är aktiverat, kan vara sant eller falskt
Läge	content_safety_labels.status	string	Antingen lyckades eller var den inte tillgänglig i det sällsynta fallet att modellen misslyckades
Results	content_safety_labels.results	array of object
Text	content_safety_labels.results.text	string	Avskriften av avsnittet som flaggas av innehållsmodereringsmodellen
Etiketter	content_safety_labels.results.labels	array of object	En matris med säkerhetsetiketter, ett per känsligt ämne som identifierades i avsnittet
Etikett	content_safety_labels.results.labels.label	string	Etiketten för det känsliga ämnet
Förtroende	content_safety_labels.results.labels.confidence	double	Konfidenspoängen för ämnet som diskuteras, från 0 till 1
Severity	content_safety_labels.results.labels.severity	double	Hur allvarligt ämnet beskrivs i avsnittet, från 0 till 1
Start av meningsindex	content_safety_labels.results.sentences_idx_start	integer	Meningsindexet där avsnittet börjar
Slut på meningsindex	content_safety_labels.results.sentences_idx_end	integer	Meningsindexet där avsnittet slutar
Start	content_safety_labels.results.timestamp.start	integer	Starttiden i millisekunder
Sluta	content_safety_labels.results.timestamp.end	integer	Sluttiden i millisekunder
Sammanfattning	content_safety_labels.summary	object	En sammanfattning av förtroenderesultatet för innehållsmoderering för hela ljudfilen
Sammanfattning av allvarlighetsgrad	content_safety_labels.severity_score_summary	object	En sammanfattning av allvarlighetsgraden Innehållsmoderering för hela ljudfilen
Ämnesidentifiering	iab_categories	boolean	Om ämnesidentifiering är aktiverat, kan vara sant eller falskt
Läge	iab_categories_result.status	string	Antingen lyckades eller var den inte tillgänglig i det sällsynta fallet att modellen misslyckades
Results	iab_categories_result.results	array of object	En matris med resultat för ämnesidentifieringsmodellen
Text	iab_categories_result.results.text	string	Texten i avskriften där ett identifierat ämne inträffar
Etiketter	iab_categories_result.results.labels	array of object
Relevans	iab_categories_result.results.labels.relevance	double	Hur relevant det identifierade ämnet är för ett identifierat ämne
Etikett	iab_categories_result.results.labels.label	string	IAB-taxonomisk etikett för etiketten för det identifierade ämnet, där > anger supertopisk/subtopisk relation
Start	iab_categories_result.results.timestamp.start	integer	Starttiden i millisekunder
Sluta	iab_categories_result.results.timestamp.end	integer	Sluttiden i millisekunder
Sammanfattning	iab_categories_result.summary	object	Ämnets övergripande relevans för hela ljudfilen
Anpassad stavning	custom_spelling	array of object	Anpassa hur ord stavas och formateras med till och från värden
Från	custom_spelling.from	array of string	Ord eller fraser som ska ersättas
Till	custom_spelling.to	string	Ord eller fras att ersätta med
Automatiska kapitel aktiverade	auto_chapters	boolean	Om autokapitel är aktiverat, kan vara sant eller falskt
Kapitel	chapters	array of object	En matris med sekventiella kapitel för ljudfilen
Gist	chapters.gist	string	En ultra-kort sammanfattning (bara några få ord) av innehållet som talas i kapitlet
Rubrik	chapters.headline	string	En enda meningssammanfattning av innehållet som talades under kapitlet
Sammanfattning	chapters.summary	string	En sammanfattning av innehållet som talades under kapitlet
Start	chapters.start	integer	Starttiden, i millisekunder, för kapitlet
Sluta	chapters.end	integer	Starttiden, i millisekunder, för kapitlet
Sammanfattning aktiverat	summarization	boolean	Om sammanfattning är aktiverat, antingen sant eller falskt
Sammanfattningstyp	summary_type	string	Den typ av sammanfattning som genereras, om sammanfattning är aktiverad
Sammanfattningsmodell	summary_model	string	Sammanfattningsmodellen som används för att generera sammanfattningen, om sammanfattning är aktiverad
Sammanfattning	summary	string	Den genererade sammanfattningen av mediefilen, om sammanfattning är aktiverad
Anpassade ämnen har aktiverats	custom_topics	boolean	Om anpassade ämnen är aktiverade, antingen sant eller falskt
Ämnen	topics	array of string	Listan över anpassade ämnen som tillhandahålls om anpassade ämnen är aktiverade
Sentiment Analysis	sentiment_analysis	boolean	Om Attitydanalys är aktiverat, kan vara sant eller falskt
Resultat av attitydanalys	sentiment_analysis_results	array of object	En matris med resultat för attitydanalysmodellen, om den är aktiverad. Mer information finns i Attitydanalys.
Text	sentiment_analysis_results.text	string	Avskriften av meningen
Start	sentiment_analysis_results.start	integer	Starttiden, i millisekunder, för meningen
Sluta	sentiment_analysis_results.end	integer	Sluttiden, i millisekunder, för meningen
Känsla	sentiment_analysis_results.sentiment		Den identifierade attityden för meningen, en av POSITIV, NEUTRAL, NEGATIV
Förtroende	sentiment_analysis_results.confidence	double	Konfidenspoängen för den identifierade attityden i meningen, från 0 till 1
Högtalare	sentiment_analysis_results.speaker	string	Talaren i meningen om talardiarisering är aktiverat, annars null
Entitetsidentifiering	entity_detection	boolean	Om entitetsidentifiering är aktiverat kan vara sant eller falskt
Entities	entities	array of object	En matris med resultat för entitetsidentifieringsmodellen, om den är aktiverad. Mer information finns i Entitetsidentifiering.
Entitetstyp	entities.entity_type	string	Typen av entitet för den identifierade entiteten
Text	entities.text	string	Texten för den identifierade entiteten
Start	entities.start	integer	Starttiden, i millisekunder, då den identifierade entiteten visas i ljudfilen
Sluta	entities.end	integer	Sluttiden, i millisekunder, för den identifierade entiteten i ljudfilen
Taltröskel	speech_threshold	float	Standardvärdet är null. Avvisa ljudfiler som innehåller mindre än den här delen av talet. Giltiga värden finns i intervallet [0, 1] inklusive.
Spjäll	throttled	boolean	Sant medan en begäran begränsas och falskt när en begäran inte längre begränsas
Error	error	string	Felmeddelande om varför avskriften misslyckades
Språkmodell	language_model	string	Språkmodellen som användes för avskriften
Akustisk modell	acoustic_model	string	Den akustiska modell som användes för avskriften

SentencesResponse

Name	Sökväg	Typ	Description
Avskrifts-ID	id	uuid
Förtroende	confidence	double
Ljudvaraktighet	audio_duration	number
Meningar	sentences	array of object
Text	sentences.text	string
Start	sentences.start	integer
Sluta	sentences.end	integer
Förtroende	sentences.confidence	double
Ord	sentences.words	array of object
Förtroende	sentences.words.confidence	double
Start	sentences.words.start	integer
Sluta	sentences.words.end	integer
Text	sentences.words.text	string
Högtalare	sentences.words.speaker	string	Talaren i meningen om talardiarisering är aktiverat, annars null
Högtalare	sentences.speaker	string	Talaren i meningen om talardiarisering är aktiverat, annars null

ParagraphsResponse

Name	Sökväg	Typ	Description
Avskrifts-ID	id	uuid
Förtroende	confidence	double
Ljudvaraktighet	audio_duration	number
Paragrafer	paragraphs	array of object
Text	paragraphs.text	string
Start	paragraphs.start	integer
Sluta	paragraphs.end	integer
Förtroende	paragraphs.confidence	double
Ord	paragraphs.words	array of object
Förtroende	paragraphs.words.confidence	double
Start	paragraphs.words.start	integer
Sluta	paragraphs.words.end	integer
Text	paragraphs.words.text	string
Högtalare	paragraphs.words.speaker	string	Talaren i meningen om talardiarisering är aktiverat, annars null
Högtalare	paragraphs.speaker	string	Talaren i meningen om talardiarisering är aktiverat, annars null

Transkriptionslista

En lista över avskrifter. Avskrifter sorteras från nyaste till äldsta. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.

Name	Sökväg	Typ	Description
Limit	page_details.limit	integer	Antalet resultat som den här sidan är begränsad till
Antal resultat	page_details.result_count	integer	Det faktiska antalet resultat på sidan
Aktuell URL	page_details.current_url	string	URL:en som används för att hämta den aktuella sidan med avskrifter
Föregående URL	page_details.prev_url	string	URL:en till nästa sida med avskrifter. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.
Nästa URL	page_details.next_url	string	URL:en till nästa sida med avskrifter. Nästa URL pekar alltid på en sida med nyare avskrifter.
Transcripts	transcripts	array of object
ID-nummer	transcripts.id	uuid
Resurs-URL	transcripts.resource_url	string
Läge	transcripts.status	string	Status för avskriften. Möjliga värden placeras i kö, bearbetas, slutförs eller fel.
Skapades	transcripts.created	string
Slutfört	transcripts.completed	string
Ljud-URL	transcripts.audio_url	string
Error	transcripts.error	string	Felmeddelande om varför avskriften misslyckades

UploadedFile

Name	Sökväg	Typ	Description
Uppladdad fil-URL	upload_url	string	En URL som pekar på din ljudfil, som endast kan nås av AssemblyAI:s servrar

PurgeLemurRequestDataResponse

Name	Sökväg	Typ	Description
Rensa begärande-ID	request_id	uuid	ID för begäran om borttagning av LeMUR-begäran
LeMUR-begärande-ID för rensning	request_id_to_purge	uuid	ID för LeMUR-begäran om att rensa data för
Borttagen	deleted	boolean	Om begärandedata har tagits bort

LemurTaskResponse

Name	Sökväg	Typ	Description
Svar	response	string	Svaret som genereras av LeMUR.
ID för LeMUR-begäran	request_id	uuid	ID för LeMUR-begäran
Indatatoken	usage.input_tokens	integer	Antalet indatatoken som används av modellen
Utdatatoken	usage.output_tokens	integer	Antalet utdatatoken som genereras av modellen

LemurResponse

Name	Sökväg	Typ	Description
Svar	response	string	Svaret som genereras av LeMUR.
ID för LeMUR-begäran	request_id	uuid	ID för LeMUR-begäran
Indatatoken	usage.input_tokens	integer	Antalet indatatoken som används av modellen
Utdatatoken	usage.output_tokens	integer	Antalet utdatatoken som genereras av modellen

snöre

Det här är den grundläggande datatypen "string".

Dela via

AssemblyAI (förhandsversion)

Förutsättningar

Hämta autentiseringsuppgifter

Kom igång med anslutningsappen

Ladda upp en fil

Transkribera ljud

Hantera avskriftsklar webhook

Avsöka avskriftsstatus

Lägga till fler åtgärder

Kända problem och begränsningar

Vanliga fel och åtgärder

Vanliga frågor

Skapa en anslutning

Standard

Begränsningsgränser

Åtgärder

Hämta avskrift

Parametrar

Returer

Hämta LeMUR-svar

Parametrar

Returer

Hämta meningar i avskrift

Parametrar

Returer

Hämta redigerat ljud

Parametrar

Returer

Hämta stycken i avskrift

Parametrar

Returer

Hämta undertexter för avskrift

Parametrar

Returer

Kör en uppgift med LeMUR

Parametrar

Returer

Ladda upp en mediefil

Parametrar

Returer

Listavskrifter

Parametrar

Returer

Rensa LeMUR-begärandedata

Parametrar

Returer

Sökord i avskrift

Parametrar

Returer

Ta bort avskrift

Parametrar

Returer

Transkribera ljud

Parametrar

Returer

Definitioner

RedactedAudioResponse

WordSearchResponse

Avskrift

SentencesResponse

ParagraphsResponse

Transkriptionslista

UploadedFile

PurgeLemurRequestDataResponse

LemurTaskResponse

LemurResponse

snöre