Dela via


AssemblyAI (förhandsversion)

Transkribera och extrahera data från ljud med AssemblyAI:s Speech AI.

Den här anslutningsappen är tillgänglig i följande produkter och regioner:

Tjänster Class Regioner
Copilot Studio Premie Alla Power Automate-regioner utom följande:
     - Amerikanska myndigheter (GCC)
     - Amerikanska myndigheter (GCC High)
     – China Cloud drivs av 21Vianet
     - US Department of Defense (DoD)
Logiska appar Norm Alla Logic Apps-regioner utom följande:
     – Azure Government-regioner
     – Regioner i Azure Kina
     - US Department of Defense (DoD)
Power Apps Premie Alla Power Apps-regioner utom följande:
     - Amerikanska myndigheter (GCC)
     - Amerikanska myndigheter (GCC High)
     – China Cloud drivs av 21Vianet
     - US Department of Defense (DoD)
Power Automate Premie Alla Power Automate-regioner utom följande:
     - Amerikanska myndigheter (GCC)
     - Amerikanska myndigheter (GCC High)
     – China Cloud drivs av 21Vianet
     - US Department of Defense (DoD)
Kontakt
Namn Support
URL https://www.assemblyai.com/docs/
E-postmeddelande support@assemblyai.com
Metadata för anslutningsprogram
Utgivare AssemblyAI
Webbplats https://www.assemblyai.com
Sekretesspolicy https://www.assemblyai.com/legal/privacy-policy
Kategorier AI

Med AssemblyAI Connector kan du använda AssemblyAI:s modeller för att bearbeta ljuddata genom att transkribera dem med taligenkänningsmodeller, analysera dem med ljudinformationsmodeller och skapa generativa funktioner ovanpå dem med LLM:er.

  • Tal till text , inklusive många konfigurerbara funktioner, till exempel talardiarisering, anpassad stavning, anpassat ordförråd osv.
  • Ljudinformationsmodeller är ytterligare AI-modeller som är tillgängliga och konfigurerade via transkriptionskonfigurationen.
  • Med LeMUR kan du tillämpa olika LLM-modeller på dina avskrifter utan att behöva bygga en egen RAG-infrastruktur för mycket stora transkriptioner.

Förutsättningar

Du behöver följande för att fortsätta:

Hämta autentiseringsuppgifter

Du kan hämta en AssemblyAI API-nyckel kostnadsfritt genom att registrera dig för ett konto och kopiera API-nyckeln från instrumentpanelen.

Kom igång med anslutningsappen

Följ de här stegen för att transkribera ljud med hjälp av AssemblyAI-anslutningsappen.

Ladda upp en fil

För att transkribera en ljudfil med AssemblyAI måste filen vara tillgänglig för AssemblyAI. Om ljudfilen redan är tillgänglig via en URL kan du använda din befintliga URL.

Annars kan du använda åtgärden Upload a File för att ladda upp en fil till AssemblyAI. Du får tillbaka en URL för filen som bara kan användas för att transkribera med hjälp av din API-nyckel. När du transkriberar filen tas filen bort från AssemblyAI:s servrar.

Transkribera ljud

Om du vill transkribera ljudet konfigurerar du parametern Audio URL med hjälp av din ljudfils-URL. Konfigurera sedan de ytterligare parametrarna för att aktivera fler taligenkänningsfunktioner och ljudinformationsmodeller .

Resultatet av åtgärden Transkribera ljud är en avskrift i kö som börjar bearbetas omedelbart. För att få den slutförda avskriften har du två alternativ:

  1. Hantera avskriftsklar webhook
  2. Avsöka avskriftsstatus

Hantera avskriftsklar webhook

Om du inte vill hantera webhooken med hjälp av Logic Apps eller Power Automate konfigurerar du parametern Webhook URL i din Transcribe Audio åtgärd och implementerar webhooken efter AssemblyAI:s webhookdokumentation.

Följ dessa steg för att hantera webhooken med hjälp av Logic Apps eller Power Automate:

  1. Skapa en separat logikapp eller Power Automate Flow

  2. Konfigurera When an HTTP request is received som utlösare:

    • Ställ in Who Can Trigger The Flow?Anyone
    • Ange Request Body JSON Schema till:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Ställ in MethodPOST
  3. Lägg till en AssemblyAI-åtgärd Get Transcript som skickar transcript_id in från utlösaren till parametern Transcript ID .

  4. Innan du gör något annat bör du kontrollera om Status är completed eller error. Lägg till en Condition åtgärd som kontrollerar om Status från utdata Get Transcript är error:

    • Lägg till en Terminate åtgärd i grenen True
      • Ange till StatusFailed
      • Ange till CodeTranscript Error
      • Error Skicka från utdata Get Transcript till parameternMessage.
    • Du kan lämna grenen False tom.

    Nu kan du lägga till valfri åtgärd när Condition du vet att avskriftsstatusen är completed, och du kan hämta någon av utdataegenskaperna för Get Transcript åtgärden.

  5. Spara logikappen eller flödet. Kommer HTTP URL att genereras för utlösaren When an HTTP request is received . HTTP URL Kopiera och gå tillbaka till din ursprungliga logikapp eller ditt flöde.

  6. Uppdatera åtgärden i din ursprungliga logikapp eller ditt flöde Transcribe Audio . Klistra in den HTTP URL du kopierade tidigare i parametern Webhook URL och spara.

När avskriftsstatusen blir completed eller errorskickar AssemblyAI en HTTP POST-begäran till webhooks-URL:en, som hanteras av din andra logikapp eller flöde.

Som ett alternativ till att använda webhooken kan du avsöka avskriftsstatusen enligt beskrivningen i nästa avsnitt.

Avsöka avskriftsstatus

Du kan avsöka avskriftsstatusen med hjälp av följande steg:

  • Lägga till en Initialize variable åtgärd

    • Ställ in Nametranscript_status
    • Ställ in TypeString
    • Status Lagra från utdata Transcribe Audio i parametern Value
  • Lägga till en Do until åtgärd

    • Konfigurera parametern Loop Until med följande Fx-kod:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Den här koden kontrollerar om variabeln transcript_status är completed eller error.
    • Konfigurera parametern Count till 86400
    • Konfigurera parametern Timeout till PT24H

    Lägg till följande åtgärder i Do until åtgärden:

    • Lägg till en Delay åtgärd som väntar i en sekund
    • Lägg till en Get Transcript åtgärd och skicka ID från utdata Transcribe Audio till parametern Transcript ID .
    • Lägga till en Set variable åtgärd
      • Ställ in Nametranscript_status
      • Status Skicka utdata Get Transcript till parametern Value

    Loopen Do until fortsätter tills avskriften har slutförts eller ett fel uppstod.

  • Lägg till en annan Get Transcript åtgärd, som tidigare, men lägg till den efter loopen Do until så att dess utdata blir tillgängliga utanför åtgärdens Do until omfång.

Innan du gör något annat bör du kontrollera om avskriften Status är completed eller error. Lägg till en Condition åtgärd som kontrollerar om transcript_status är error:

  • Lägg till en Terminate åtgärd i grenen True
    • Ställ in StatusFailed
    • Ställ in CodeTranscript Error
    • Error Skicka från utdata Get Transcript till parameternMessage.
  • Du kan lämna grenen False tom.

Nu kan du lägga till valfri åtgärd när Condition du vet att avskriftsstatusen är completed, och du kan hämta någon av utdataegenskaperna för Get Transcript åtgärden.

Lägga till fler åtgärder

Nu när du har slutfört transkriptionen kan du använda många andra åtgärder som skickas i avskriften ID , till exempel

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Kända problem och begränsningar

Inga kända problem för närvarande. Vi stöder inte strömningstal –To-Text (realtid) eftersom det inte är möjligt att använda anpassade anslutningsappar.

Vanliga fel och åtgärder

Du hittar mer information om fel i AssemblyAI-dokumentationen.

Vanliga frågor

Du hittar vanliga frågor och svar i vår dokumentation.

Skapa en anslutning

Anslutningsappen stöder följande autentiseringstyper:

Standardinställning Parametrar för att skapa anslutning. Alla regioner Går inte att dela

Standard

Tillämpligt: Alla regioner

Parametrar för att skapa anslutning.

Det här är inte delningsbar anslutning. Om power-appen delas med en annan användare uppmanas en annan användare att skapa en ny anslutning explicit.

Namn Typ Description Krävs
AssemblyAI API-nyckel securestring AssemblyAI API-nyckeln för att autentisera AssemblyAI-API:et. Sann

Begränsningsgränser

Name Anrop Förnyelseperiod
API-anrop per anslutning 100 60 sekunder

Åtgärder

Hämta avskrift

Hämta avskriftsresursen. Avskriften är klar när "status" är "slutförd".

Hämta LeMUR-svar

Hämta ett LeMUR-svar som genererades tidigare.

Hämta meningar i avskrift

Få avskriften uppdelad efter meningar. API:et försöker semantiskt segmentera avskriften i meningar för att skapa mer läsarvänliga avskrifter.

Hämta redigerat ljud

Hämta det redigerade ljudobjektet som innehåller status och URL till det redigerade ljudet.

Hämta stycken i avskrift

Få avskriften uppdelad efter stycken. API:et försöker semantiskt segmentera avskriften i stycken för att skapa mer läsvänliga avskrifter.

Hämta undertexter för avskrift

Exportera avskriften i SRT- eller VTT-format för att använda med en videospelare för undertexter och undertexter.

Kör en uppgift med LeMUR

Använd LeMUR-aktivitetsslutpunkten för att ange en egen LLM-prompt.

Ladda upp en mediefil

Ladda upp en mediefil till AssemblyAI:s servrar.

Listavskrifter

Hämta en lista över avskrifter som du skapade. Avskrifter sorteras från nyaste till äldsta. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.

Rensa LeMUR-begärandedata

Ta bort data för en tidigare skickad LeMUR-begäran. LLM-svarsdata samt eventuella kontexter som anges i den ursprungliga begäran tas bort.

Sökord i avskrift

Sök igenom avskriften efter nyckelord. Du kan söka efter enskilda ord, siffror eller fraser som innehåller upp till fem ord eller siffror.

Ta bort avskrift

Ta bort avskriften. Borttagningen tar inte bort själva resursen, men tar bort data från resursen och markerar den som borttagen.

Transkribera ljud

Skapa en avskrift från en mediefil som är tillgänglig via en URL.

Hämta avskrift

Hämta avskriftsresursen. Avskriften är klar när "status" är "slutförd".

Parametrar

Name Nyckel Obligatorisk Typ Description
Avskrifts-ID
transcript_id True string

ID för avskriften

Returer

Ett avskriftsobjekt

Body
Transcript

Hämta LeMUR-svar

Hämta ett LeMUR-svar som genererades tidigare.

Parametrar

Name Nyckel Obligatorisk Typ Description
ID för LeMUR-begäran
request_id True string

ID:t för Den LeMUR-begäran som du gjorde tidigare. Detta skulle hittas i svaret på den ursprungliga begäran.

Returer

Hämta meningar i avskrift

Få avskriften uppdelad efter meningar. API:et försöker semantiskt segmentera avskriften i meningar för att skapa mer läsarvänliga avskrifter.

Parametrar

Name Nyckel Obligatorisk Typ Description
Avskrifts-ID
transcript_id True string

ID för avskriften

Returer

Hämta redigerat ljud

Hämta det redigerade ljudobjektet som innehåller status och URL till det redigerade ljudet.

Parametrar

Name Nyckel Obligatorisk Typ Description
Avskrifts-ID
transcript_id True string

ID för avskriften

Returer

Hämta stycken i avskrift

Få avskriften uppdelad efter stycken. API:et försöker semantiskt segmentera avskriften i stycken för att skapa mer läsvänliga avskrifter.

Parametrar

Name Nyckel Obligatorisk Typ Description
Avskrifts-ID
transcript_id True string

ID för avskriften

Returer

Hämta undertexter för avskrift

Exportera avskriften i SRT- eller VTT-format för att använda med en videospelare för undertexter och undertexter.

Parametrar

Name Nyckel Obligatorisk Typ Description
Avskrifts-ID
transcript_id True string

ID för avskriften

Underrubrikformat
subtitle_format True string

Format för undertexterna

Antal tecken per bildtext
chars_per_caption integer

Maximalt antal tecken per bildtext

Returer

response
string

Kör en uppgift med LeMUR

Använd LeMUR-aktivitetsslutpunkten för att ange en egen LLM-prompt.

Parametrar

Name Nyckel Obligatorisk Typ Description
Omedelbar
prompt True string

Texten uppmanar modellen att skapa önskade utdata, inklusive kontexter som du vill skicka till modellen.

Avskrifts-ID
transcript_ids array of uuid

En lista över slutförda avskrifter med text. Upp till högst 100 filer eller 100 timmar, beroende på vilket som är lägre. Använd antingen transcript_ids eller input_text som indata i LeMUR.

Indatatext
input_text string

Anpassade formaterade avskriftsdata. Maximal storlek är kontextgränsen för den valda modellen, som standard är 100000. Använd antingen transcript_ids eller input_text som indata i LeMUR.

Context
context string

Kontext för att tillhandahålla modellen. Det kan vara en sträng eller ett JSON-värde i fritt format.

Slutlig modell
final_model string

Den modell som används för den sista prompten efter komprimering utförs.

Maximal utdatastorlek
max_output_size integer

Maximal utdatastorlek i token, upp till 4 000

Temperatur
temperature float

Temperaturen som ska användas för modellen. Högre värden resulterar i svar som är mer kreativa, lägre värden är mer konservativa. Kan vara valfritt värde mellan 0,0 och 1,0 inklusive.

Returer

Ladda upp en mediefil

Ladda upp en mediefil till AssemblyAI:s servrar.

Parametrar

Name Nyckel Obligatorisk Typ Description
Filinnehåll
file True binary

Filen som ska laddas upp.

Returer

Listavskrifter

Hämta en lista över avskrifter som du skapade. Avskrifter sorteras från nyaste till äldsta. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.

Parametrar

Name Nyckel Obligatorisk Typ Description
Limit
limit integer

Maximal mängd avskrifter som ska hämtas

Läge
status string

Status för avskriften. Möjliga värden placeras i kö, bearbetas, slutförs eller fel.

Skapad på
created_on date

Hämta endast avskrifter som skapats på det här datumet

Före ID
before_id uuid

Hämta avskrifter som skapades före det här avskrifts-ID:t

Efter ID
after_id uuid

Hämta avskrifter som har skapats efter det här avskrifts-ID:t

Endast begränsad
throttled_only boolean

Hämta endast begränsade avskrifter, åsidosätter statusfiltret

Returer

En lista över avskrifter. Avskrifter sorteras från nyaste till äldsta. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.

Rensa LeMUR-begärandedata

Ta bort data för en tidigare skickad LeMUR-begäran. LLM-svarsdata samt eventuella kontexter som anges i den ursprungliga begäran tas bort.

Parametrar

Name Nyckel Obligatorisk Typ Description
ID för LeMUR-begäran
request_id True string

ID för LeMUR-begäran vars data du vill ta bort. Detta skulle hittas i svaret på den ursprungliga begäran.

Returer

Sökord i avskrift

Sök igenom avskriften efter nyckelord. Du kan söka efter enskilda ord, siffror eller fraser som innehåller upp till fem ord eller siffror.

Parametrar

Name Nyckel Obligatorisk Typ Description
Avskrifts-ID
transcript_id True string

ID för avskriften

Ord
words True array

Nyckelord att söka efter

Returer

Ta bort avskrift

Ta bort avskriften. Borttagningen tar inte bort själva resursen, men tar bort data från resursen och markerar den som borttagen.

Parametrar

Name Nyckel Obligatorisk Typ Description
Avskrifts-ID
transcript_id True string

ID för avskriften

Returer

Ett avskriftsobjekt

Body
Transcript

Transkribera ljud

Skapa en avskrift från en mediefil som är tillgänglig via en URL.

Parametrar

Name Nyckel Obligatorisk Typ Description
Ljud-URL
audio_url True string

URL:en för ljud- eller videofilen som ska transkriberas.

Språkkod
language_code string

Ljudfilens språk. Möjliga värden finns i språk som stöds. Standardvärdet är "en_us".

Language Detection
language_detection boolean

Aktivera automatisk språkidentifiering, antingen sant eller falskt.

Talmodell
speech_model string

Talmodellen som ska användas för transkriptionen.

Interpunktera
punctuate boolean

Aktivera automatisk skiljetecken, kan vara sant eller falskt

Formatera text
format_text boolean

Aktivera textformatering, kan vara sant eller falskt

Avvikelser
disfluencies boolean

Transkribera fyllnadsord, som "um", i mediefilen; kan vara sant eller falskt

Dubbel kanal
dual_channel boolean

Aktivera transkription med dubbla kanaler, kan vara sant eller falskt.

Webhook-URL
webhook_url string

Den URL som vi skickar webhooksbegäranden till. Vi skickar två olika typer av webhook-begäranden. En begäran när en avskrift har slutförts eller misslyckats och en begäran när det redigerade ljudet är klart om redact_pii_audio är aktiverat.

Webhook Auth-huvudnamn
webhook_auth_header_name string

Rubriknamnet som ska skickas med avskriften slutförd eller misslyckade webhook-begäranden

Webhook-autentiseringshuvudvärde
webhook_auth_header_value string

Rubrikvärdet som ska skickas tillbaka med avskriften slutförd eller misslyckade webhook-begäranden för ökad säkerhet

Nyckelfraser
auto_highlights boolean

Aktivera nyckelfraser, antingen sant eller falskt

Ljudstart från
audio_start_from integer

Tidpunkten i millisekunder för att börja transkribera i mediefilen

Ljudslut vid
audio_end_at integer

Tidpunkten i millisekunder för att sluta transkribera i mediefilen

Word Boost
word_boost array of string

Listan över anpassade ordförråd för att öka transkriptionsannolikheten för

Word Boost-nivå
boost_param string

Hur mycket du vill öka angivna ord

Filtrera svordomar
filter_profanity boolean

Filtrera svordomar från den transkriberade texten, kan vara sant eller falskt

Redigera PII
redact_pii boolean

Redigera PII från den transkriberade texten med redact PII-modellen, kan vara sant eller falskt

Redigera PII-ljud
redact_pii_audio boolean

Generera en kopia av den ursprungliga mediefilen med talad PII "pipad" ut, kan vara sant eller falskt. Mer information finns i PII-redigering.

Redigera PII-ljudkvalitet
redact_pii_audio_quality string

Styr filtypen för ljudet som skapats av redact_pii_audio. Stöder för närvarande mp3 (standard) och wav. Mer information finns i PII-redigering.

Redigera PII-principer
redact_pii_policies array of string

Listan över PII Redaction-principer som ska aktiveras. Mer information finns i PII-redigering.

Redact PII-ersättning
redact_pii_sub string

Ersättningslogiken för identifierad PII kan vara "entity_name" eller "hash". Mer information finns i PII-redigering.

Talaretiketter
speaker_labels boolean

Aktivera talardiarisering, kan vara sant eller falskt

Förväntade talare
speakers_expected integer

Talar om för talaretikettmodellen hur många talare den ska försöka identifiera, upp till 10. Mer information finns i Talardiarisering.

Innehållsmoderering
content_safety boolean

Aktivera innehållsmoderering, kan vara sant eller falskt

Förtroende för innehållsmoderering
content_safety_confidence integer

Konfidenströskelvärdet för innehållsmodereringsmodellen. Värdena måste vara mellan 25 och 100.

Ämnesidentifiering
iab_categories boolean

Aktivera ämnesidentifiering, kan vara sant eller falskt

Från
from True array of string

Ord eller fraser som ska ersättas

Till
to True string

Ord eller fras att ersätta med

Sentiment Analysis
sentiment_analysis boolean

Aktivera attitydanalys, kan vara sant eller falskt

Automatiska kapitel
auto_chapters boolean

Aktivera automatiska kapitel, kan vara sant eller falskt

Entitetsidentifiering
entity_detection boolean

Aktivera entitetsidentifiering, kan vara sant eller falskt

Taltröskel
speech_threshold float

Avvisa ljudfiler som innehåller mindre än den här delen av talet. Giltiga värden finns i intervallet [0, 1] inklusive.

Aktivera sammanfattning
summarization boolean

Aktivera sammanfattning, kan vara sant eller falskt

Sammanfattningsmodell
summary_model string

Modellen för att sammanfatta avskriften

Sammanfattningstyp
summary_type string

Typ av sammanfattning

Aktivera anpassade ämnen
custom_topics boolean

Aktivera anpassade ämnen, antingen sant eller falskt

Anpassade ämnen
topics array of string

Listan över anpassade ämnen

Returer

Ett avskriftsobjekt

Body
Transcript

Definitioner

RedactedAudioResponse

Name Sökväg Typ Description
Läge
status string

Status för det redigerade ljudet

Redigerad ljud-URL
redacted_audio_url string

URL:en för den redigerade ljudfilen

WordSearchResponse

Name Sökväg Typ Description
Avskrifts-ID
id uuid

ID för avskriften

Totalt antal matchningar
total_count integer

Det totala antalet matchade instanser. För t.ex. matchas ord 1 2 gånger och ord 2 matchas 3 gånger, total_count är lika med 5.

Matcher
matches array of object

Matchningarna i sökningen

Text
matches.text string

Det matchade ordet

Räkna
matches.count integer

Den totala mängden gånger ordet finns i avskriften

Tidsstämplar
matches.timestamps array of array

En matris med tidsstämplar

Tidsstämpel
matches.timestamps array of integer

En matris med tidsstämplar strukturerade som [start_time, end_time] i millisekunder

Indexen
matches.indexes array of integer

En matris med alla indexplatser för ordet i ordmatrisen för den slutförda avskriften

Avskrift

Ett avskriftsobjekt

Name Sökväg Typ Description
ID-nummer
id uuid

Den unika identifieraren för avskriften

Ljud-URL
audio_url string

URL:en för mediet som transkriberades

Läge
status string

Status för avskriften. Möjliga värden placeras i kö, bearbetas, slutförs eller fel.

Språkkod
language_code string

Ljudfilens språk. Möjliga värden finns i språk som stöds. Standardvärdet är "en_us".

Language Detection
language_detection boolean

Om automatisk språkidentifiering är aktiverat, antingen sant eller falskt

Talmodell
speech_model string

Talmodellen som ska användas för transkriptionen.

Text
text string

Textavskriften av mediefilen

Ord
words array of object

En matris med sekventiellt sekventiella ordobjekt, ett för varje ord i avskriften. Mer information finns i Taligenkänning.

Förtroende
words.confidence double
Start
words.start integer
Sluta
words.end integer
Text
words.text string
Högtalare
words.speaker string

Talaren i meningen om talardiarisering är aktiverat, annars null

Uttalanden
utterances array of object

När dual_channel eller speaker_labels är aktiverat visas en lista över sväng-för-sväng-yttranden. Mer information finns i Talardiarisering.

Förtroende
utterances.confidence double

Konfidenspoängen för avskriften av det här yttrandet

Start
utterances.start integer

Starttiden, i millisekunder, för yttrandet i ljudfilen

Sluta
utterances.end integer

Sluttiden, i millisekunder, för yttrandet i ljudfilen

Text
utterances.text string

Texten för det här yttrandet

Ord
utterances.words array of object

Orden i yttrandet.

Förtroende
utterances.words.confidence double
Start
utterances.words.start integer
Sluta
utterances.words.end integer
Text
utterances.words.text string
Högtalare
utterances.words.speaker string

Talaren i meningen om talardiarisering är aktiverat, annars null

Högtalare
utterances.speaker string

Talaren i det här yttrandet, där varje talare tilldelas en sekventiell versal bokstav , t.ex. "A" för talare A, "B" för talare B osv.

Förtroende
confidence double

Konfidenspoängen för avskriften, mellan 0,0 (låg konfidens) och 1,0 (hög konfidens)

Ljudvaraktighet
audio_duration integer

Varaktigheten för transkriberingsobjektets mediefil i sekunder

Interpunktera
punctuate boolean

Om automatisk skiljetecken är aktiverat, antingen sant eller falskt

Formatera text
format_text boolean

Om textformatering är aktiverat, antingen sant eller falskt

Avvikelser
disfluencies boolean

Transkribera fyllnadsord, som "um", i mediefilen; kan vara sant eller falskt

Dubbel kanal
dual_channel boolean

Om transkription med dubbla kanaler har aktiverats i transkriptionsbegäran, antingen sant eller falskt

Webhook-URL
webhook_url string

Den URL som vi skickar webhooksbegäranden till. Vi skickar två olika typer av webhook-begäranden. En begäran när en avskrift har slutförts eller misslyckats och en begäran när det redigerade ljudet är klart om redact_pii_audio är aktiverat.

Webhook HTTP-statuskod
webhook_status_code integer

Statuskoden som vi fick från servern när avskriften levererades slutfördes eller misslyckades webhook-begäran, om en webhook-URL angavs

Webhook-autentisering aktiverad
webhook_auth boolean

Om webhook-autentiseringsinformation har angetts

Webhook Auth-huvudnamn
webhook_auth_header_name string

Rubriknamnet som ska skickas med avskriften slutförd eller misslyckade webhook-begäranden

Hastighetsökning
speed_boost boolean

Om hastighetsökning är aktiverat

Nyckelfraser
auto_highlights boolean

Om nyckelfraser är aktiverade, antingen sant eller falskt

Läge
auto_highlights_result.status string

Antingen lyckades eller var den inte tillgänglig i det sällsynta fallet att modellen misslyckades

Results
auto_highlights_result.results array of object

En tidsmässigt sekventiell matris med nyckelfraser

Räkna
auto_highlights_result.results.count integer

Det totala antalet gånger som nyckelfrasen visas i ljudfilen

Rangordning
auto_highlights_result.results.rank float

Den totala relevansen för den övergripande ljudfilen för den här nyckelfrasen – ett större antal innebär mer relevant

Text
auto_highlights_result.results.text string

Själva texten i nyckelfrasen

Tidsstämplar
auto_highlights_result.results.timestamps array of object

Tidsstämpeln för nyckelfrasen

Start
auto_highlights_result.results.timestamps.start integer

Starttiden i millisekunder

Sluta
auto_highlights_result.results.timestamps.end integer

Sluttiden i millisekunder

Ljudstart från
audio_start_from integer

Tidpunkten, i millisekunder, i filen där transkriptionen startades

Ljudslut vid
audio_end_at integer

Tidpunkten, i millisekunder, i filen där transkriptionen avslutades

Word Boost
word_boost array of string

Listan över anpassade ordförråd för att öka transkriptionsannolikheten för

Öka
boost_param string

Ordet boost-parametervärde

Filtrera svordomar
filter_profanity boolean

Om svordomsfiltrering är aktiverat, antingen sant eller falskt

Redigera PII
redact_pii boolean

Om PII-redigering är aktiverat, antingen sant eller falskt

Redigera PII-ljud
redact_pii_audio boolean

Om en redigerad version av ljudfilen genererades, antingen sant eller falskt. Mer information finns i PII-redigering.

Redigera PII-ljudkvalitet
redact_pii_audio_quality string

Styr filtypen för ljudet som skapats av redact_pii_audio. Stöder för närvarande mp3 (standard) och wav. Mer information finns i PII-redigering.

Redigera PII-principer
redact_pii_policies array of string

Listan över PII Redaction-principer som har aktiverats, om PII Redaction är aktiverat. Mer information finns i PII-redigering.

Redact PII-ersättning
redact_pii_sub string

Ersättningslogiken för identifierad PII kan vara "entity_name" eller "hash". Mer information finns i PII-redigering.

Talaretiketter
speaker_labels boolean

Om talardiarisering är aktiverat, kan vara sant eller falskt

Förväntade talare
speakers_expected integer

Tala om för talaretikettmodellen hur många talare den ska försöka identifiera, upp till 10. Mer information finns i Talardiarisering.

Innehållsmoderering
content_safety boolean

Om innehållsmoderering är aktiverat, kan vara sant eller falskt

Läge
content_safety_labels.status string

Antingen lyckades eller var den inte tillgänglig i det sällsynta fallet att modellen misslyckades

Results
content_safety_labels.results array of object
Text
content_safety_labels.results.text string

Avskriften av avsnittet som flaggas av innehållsmodereringsmodellen

Etiketter
content_safety_labels.results.labels array of object

En matris med säkerhetsetiketter, ett per känsligt ämne som identifierades i avsnittet

Etikett
content_safety_labels.results.labels.label string

Etiketten för det känsliga ämnet

Förtroende
content_safety_labels.results.labels.confidence double

Konfidenspoängen för ämnet som diskuteras, från 0 till 1

Severity
content_safety_labels.results.labels.severity double

Hur allvarligt ämnet beskrivs i avsnittet, från 0 till 1

Start av meningsindex
content_safety_labels.results.sentences_idx_start integer

Meningsindexet där avsnittet börjar

Slut på meningsindex
content_safety_labels.results.sentences_idx_end integer

Meningsindexet där avsnittet slutar

Start
content_safety_labels.results.timestamp.start integer

Starttiden i millisekunder

Sluta
content_safety_labels.results.timestamp.end integer

Sluttiden i millisekunder

Sammanfattning
content_safety_labels.summary object

En sammanfattning av förtroenderesultatet för innehållsmoderering för hela ljudfilen

Sammanfattning av allvarlighetsgrad
content_safety_labels.severity_score_summary object

En sammanfattning av allvarlighetsgraden Innehållsmoderering för hela ljudfilen

Ämnesidentifiering
iab_categories boolean

Om ämnesidentifiering är aktiverat, kan vara sant eller falskt

Läge
iab_categories_result.status string

Antingen lyckades eller var den inte tillgänglig i det sällsynta fallet att modellen misslyckades

Results
iab_categories_result.results array of object

En matris med resultat för ämnesidentifieringsmodellen

Text
iab_categories_result.results.text string

Texten i avskriften där ett identifierat ämne inträffar

Etiketter
iab_categories_result.results.labels array of object
Relevans
iab_categories_result.results.labels.relevance double

Hur relevant det identifierade ämnet är för ett identifierat ämne

Etikett
iab_categories_result.results.labels.label string

IAB-taxonomisk etikett för etiketten för det identifierade ämnet, där > anger supertopisk/subtopisk relation

Start
iab_categories_result.results.timestamp.start integer

Starttiden i millisekunder

Sluta
iab_categories_result.results.timestamp.end integer

Sluttiden i millisekunder

Sammanfattning
iab_categories_result.summary object

Ämnets övergripande relevans för hela ljudfilen

Anpassad stavning
custom_spelling array of object

Anpassa hur ord stavas och formateras med till och från värden

Från
custom_spelling.from array of string

Ord eller fraser som ska ersättas

Till
custom_spelling.to string

Ord eller fras att ersätta med

Automatiska kapitel aktiverade
auto_chapters boolean

Om autokapitel är aktiverat, kan vara sant eller falskt

Kapitel
chapters array of object

En matris med sekventiella kapitel för ljudfilen

Gist
chapters.gist string

En ultra-kort sammanfattning (bara några få ord) av innehållet som talas i kapitlet

Rubrik
chapters.headline string

En enda meningssammanfattning av innehållet som talades under kapitlet

Sammanfattning
chapters.summary string

En sammanfattning av innehållet som talades under kapitlet

Start
chapters.start integer

Starttiden, i millisekunder, för kapitlet

Sluta
chapters.end integer

Starttiden, i millisekunder, för kapitlet

Sammanfattning aktiverat
summarization boolean

Om sammanfattning är aktiverat, antingen sant eller falskt

Sammanfattningstyp
summary_type string

Den typ av sammanfattning som genereras, om sammanfattning är aktiverad

Sammanfattningsmodell
summary_model string

Sammanfattningsmodellen som används för att generera sammanfattningen, om sammanfattning är aktiverad

Sammanfattning
summary string

Den genererade sammanfattningen av mediefilen, om sammanfattning är aktiverad

Anpassade ämnen har aktiverats
custom_topics boolean

Om anpassade ämnen är aktiverade, antingen sant eller falskt

Ämnen
topics array of string

Listan över anpassade ämnen som tillhandahålls om anpassade ämnen är aktiverade

Sentiment Analysis
sentiment_analysis boolean

Om Attitydanalys är aktiverat, kan vara sant eller falskt

Resultat av attitydanalys
sentiment_analysis_results array of object

En matris med resultat för attitydanalysmodellen, om den är aktiverad. Mer information finns i Attitydanalys.

Text
sentiment_analysis_results.text string

Avskriften av meningen

Start
sentiment_analysis_results.start integer

Starttiden, i millisekunder, för meningen

Sluta
sentiment_analysis_results.end integer

Sluttiden, i millisekunder, för meningen

Känsla
sentiment_analysis_results.sentiment

Den identifierade attityden för meningen, en av POSITIV, NEUTRAL, NEGATIV

Förtroende
sentiment_analysis_results.confidence double

Konfidenspoängen för den identifierade attityden i meningen, från 0 till 1

Högtalare
sentiment_analysis_results.speaker string

Talaren i meningen om talardiarisering är aktiverat, annars null

Entitetsidentifiering
entity_detection boolean

Om entitetsidentifiering är aktiverat kan vara sant eller falskt

Entities
entities array of object

En matris med resultat för entitetsidentifieringsmodellen, om den är aktiverad. Mer information finns i Entitetsidentifiering.

Entitetstyp
entities.entity_type string

Typen av entitet för den identifierade entiteten

Text
entities.text string

Texten för den identifierade entiteten

Start
entities.start integer

Starttiden, i millisekunder, då den identifierade entiteten visas i ljudfilen

Sluta
entities.end integer

Sluttiden, i millisekunder, för den identifierade entiteten i ljudfilen

Taltröskel
speech_threshold float

Standardvärdet är null. Avvisa ljudfiler som innehåller mindre än den här delen av talet. Giltiga värden finns i intervallet [0, 1] inklusive.

Spjäll
throttled boolean

Sant medan en begäran begränsas och falskt när en begäran inte längre begränsas

Error
error string

Felmeddelande om varför avskriften misslyckades

Språkmodell
language_model string

Språkmodellen som användes för avskriften

Akustisk modell
acoustic_model string

Den akustiska modell som användes för avskriften

SentencesResponse

Name Sökväg Typ Description
Avskrifts-ID
id uuid
Förtroende
confidence double
Ljudvaraktighet
audio_duration number
Meningar
sentences array of object
Text
sentences.text string
Start
sentences.start integer
Sluta
sentences.end integer
Förtroende
sentences.confidence double
Ord
sentences.words array of object
Förtroende
sentences.words.confidence double
Start
sentences.words.start integer
Sluta
sentences.words.end integer
Text
sentences.words.text string
Högtalare
sentences.words.speaker string

Talaren i meningen om talardiarisering är aktiverat, annars null

Högtalare
sentences.speaker string

Talaren i meningen om talardiarisering är aktiverat, annars null

ParagraphsResponse

Name Sökväg Typ Description
Avskrifts-ID
id uuid
Förtroende
confidence double
Ljudvaraktighet
audio_duration number
Paragrafer
paragraphs array of object
Text
paragraphs.text string
Start
paragraphs.start integer
Sluta
paragraphs.end integer
Förtroende
paragraphs.confidence double
Ord
paragraphs.words array of object
Förtroende
paragraphs.words.confidence double
Start
paragraphs.words.start integer
Sluta
paragraphs.words.end integer
Text
paragraphs.words.text string
Högtalare
paragraphs.words.speaker string

Talaren i meningen om talardiarisering är aktiverat, annars null

Högtalare
paragraphs.speaker string

Talaren i meningen om talardiarisering är aktiverat, annars null

Transkriptionslista

En lista över avskrifter. Avskrifter sorteras från nyaste till äldsta. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.

Name Sökväg Typ Description
Limit
page_details.limit integer

Antalet resultat som den här sidan är begränsad till

Antal resultat
page_details.result_count integer

Det faktiska antalet resultat på sidan

Aktuell URL
page_details.current_url string

URL:en som används för att hämta den aktuella sidan med avskrifter

Föregående URL
page_details.prev_url string

URL:en till nästa sida med avskrifter. Den föregående URL:en pekar alltid på en sida med äldre avskrifter.

Nästa URL
page_details.next_url string

URL:en till nästa sida med avskrifter. Nästa URL pekar alltid på en sida med nyare avskrifter.

Transcripts
transcripts array of object
ID-nummer
transcripts.id uuid
Resurs-URL
transcripts.resource_url string
Läge
transcripts.status string

Status för avskriften. Möjliga värden placeras i kö, bearbetas, slutförs eller fel.

Skapades
transcripts.created string
Slutfört
transcripts.completed string
Ljud-URL
transcripts.audio_url string
Error
transcripts.error string

Felmeddelande om varför avskriften misslyckades

UploadedFile

Name Sökväg Typ Description
Uppladdad fil-URL
upload_url string

En URL som pekar på din ljudfil, som endast kan nås av AssemblyAI:s servrar

PurgeLemurRequestDataResponse

Name Sökväg Typ Description
Rensa begärande-ID
request_id uuid

ID för begäran om borttagning av LeMUR-begäran

LeMUR-begärande-ID för rensning
request_id_to_purge uuid

ID för LeMUR-begäran om att rensa data för

Borttagen
deleted boolean

Om begärandedata har tagits bort

LemurTaskResponse

Name Sökväg Typ Description
Svar
response string

Svaret som genereras av LeMUR.

ID för LeMUR-begäran
request_id uuid

ID för LeMUR-begäran

Indatatoken
usage.input_tokens integer

Antalet indatatoken som används av modellen

Utdatatoken
usage.output_tokens integer

Antalet utdatatoken som genereras av modellen

LemurResponse

Name Sökväg Typ Description
Svar
response string

Svaret som genereras av LeMUR.

ID för LeMUR-begäran
request_id uuid

ID för LeMUR-begäran

Indatatoken
usage.input_tokens integer

Antalet indatatoken som används av modellen

Utdatatoken
usage.output_tokens integer

Antalet utdatatoken som genereras av modellen

snöre

Det här är den grundläggande datatypen "string".