Sdílet prostřednictvím


AssemblyAI (Preview)

Přepis a extrakce dat ze zvuku pomocí speech AI assemblyAI

Tento konektor je dostupný v následujících produktech a oblastech:

Service Class Regions
Copilot Studio Premium Všechny oblasti Power Automate s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Logic Apps Standard Všechny oblasti Logic Apps s výjimkou následujících:
     – Oblasti Azure Government
     – Oblasti Azure China
     - Ministerstvo obrany USA (DoD)
Power Apps Premium Všechny oblasti Power Apps s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Power Automate Premium Všechny oblasti Power Automate s výjimkou následujících:
     – státní správa USA (GCC)
     – státní správa USA (GCC High)
     - China Cloud provozovaný společností 21Vianet
     - Ministerstvo obrany USA (DoD)
Kontakt
Název Support
URL https://www.assemblyai.com/docs/
Email support@assemblyai.com
Metadata konektoru
Vydavatel AssemblyAI
Internetová stránka https://www.assemblyai.com
Zásady ochrany osobních údajů https://www.assemblyai.com/legal/privacy-policy
Kategorie AI

S konektorem AssemblyAI můžete pomocí modelů AssemblyAI zpracovávat zvuková data tím, že je přepíšete pomocí modelů rozpoznávání řeči, analyzujete je pomocí modelů audio intelligence a vytváříte nad ním funkce generování pomocí LLM.

  • Převod řeči na text včetně mnoha konfigurovatelných funkcí, jako je diarizace mluvčího, vlastní pravopis, vlastní slovník atd.
  • Modely audio intelligence jsou k dispozici a konfigurují prostřednictvím konfigurace přepisu další modely AI.
  • LeMUR umožňuje používat různé modely LLM na přepisy, aniž byste museli vytvářet vlastní infrastrukturu RAG pro velmi rozsáhlé přepisy.

Požadavky

Abyste mohli pokračovat, budete potřebovat následující:

Jak získat přihlašovací údaje

Klíč rozhraní ASSEMBLYAI API můžete zdarma získat tak, že si zaregistrujete účet a zkopírujete klíč rozhraní API z řídicího panelu.

Začínáme s konektorem

Pomocí těchto kroků přepisujte zvuk pomocí konektoru AssemblyAI.

Nahrání souboru

Aby bylo možné přepsat zvukový soubor pomocí AssemblyAI, musí být soubor přístupný pro AssemblyAI. Pokud je váš zvukový soubor už přístupný přes adresu URL, můžete použít stávající adresu URL.

V opačném případě můžete akci použít Upload a File k nahrání souboru do AssemblyAI. Vrátíte adresu URL souboru, která se dá použít jenom k přepisu pomocí klíče rozhraní API. Po přepsání souboru se soubor odebere ze serverů AssemblyAI.

Přepis zvuku

Pokud chcete přepis zvuku přepsat, nakonfigurujte parametr pomocí adresy URL zvukového Audio URL souboru. Potom nakonfigurujte další parametry, abyste povolili více funkcí rozpoznávání řeči a modelů audio intelligence .

Výsledkem akce Přepis zvuku je přepis ve frontě, který se začne okamžitě zpracovávat. Pokud chcete získat dokončený přepis, máte dvě možnosti:

  1. Zpracování webhooku připraveného pro přepis
  2. Dotazování stavu přepisu

Zpracování webhooku připraveného pro přepis

Pokud nechcete webhook zpracovávat pomocí Logic Apps nebo Power Automate, nakonfigurujte Webhook URLTranscribe Audio parametr v akci a implementujte webhook podle dokumentace k webhooku AssemblyAI.

Pokud chcete webhook zpracovat pomocí Logic Apps nebo Power Automate, postupujte takto:

  1. Vytvoření samostatné aplikace logiky nebo toku Power Automate

  2. Nakonfigurujte When an HTTP request is received jako trigger:

    • Nastavte Who Can Trigger The Flow? na hodnotu Anyone.
    • Nastavit Request Body JSON Schema na:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Nastavte Method na hodnotu POST.
  3. Přidejte akci AssemblyAI Get Transcript , která transcript_id předá z triggeru parametru Transcript ID .

  4. Než začnete dělat něco jiného, měli byste zkontrolovat, zda Status je nebo completederror. Condition Přidejte akci, která zkontroluje, jestli Status je errorvýstup:Get Transcript

    • True Ve větvi přidejte Terminate akci.
      • Nastavit na StatusFailed
      • Nastavit na CodeTranscript Error
      • Error Předejte z výstupu Get Transcript parametruMessage.
    • Větev můžete nechat prázdnou False .

    Teď můžete přidat libovolnou Condition akci po zjištění stavu completedpřepisu a můžete načíst jakékoli výstupní vlastnosti Get Transcript akce.

  5. Uložte aplikaci logiky nebo tok. Aktivační HTTP URL událost se vygeneruje When an HTTP request is received . Zkopírujte a vraťte se HTTP URL do původní aplikace logiky nebo toku.

  6. V původní aplikaci logiky nebo toku akci aktualizujte Transcribe Audio . Vložte dříve zkopírované soubory HTTP URL do parametru a uložte ho Webhook URL .

Jakmile se stav přepisu stane completed nebo error, AssemblyAI odešle požadavek HTTP POST na adresu URL webhooku, která bude zpracována vaší jinou aplikací logiky nebo tokem.

Jako alternativu k použití webhooku se můžete dotazovat na stav přepisu, jak je vysvětleno v další části.

Dotazování stavu přepisu

Stav přepisu můžete dotazovat pomocí následujících kroků:

  • Initialize variable Přidání akce

    • Nastavte Name na hodnotu transcript_status.
    • Nastavte Type na hodnotu String.
    • Status Uložení výstupu Transcribe Audio do parametru Value
  • Do until Přidání akce

    • Loop Until Nakonfigurujte parametr s následujícím kódem Fx:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Tento kód zkontroluje, zda transcript_status je completed proměnná nebo error.
    • Konfigurace parametru Count na 86400
    • Konfigurace parametru Timeout na PT24H

    Do until Uvnitř akce přidejte následující akce:

    • Delay Přidání akce, která čeká na jednu sekundu
    • Get Transcript Přidejte akci a předejte ID výstup Transcribe Audio do parametruTranscript ID.
    • Set variable Přidání akce
      • Nastavte Name na hodnotu transcript_status.
      • Status Předání výstupu Get Transcript do parametru Value

    Smyčka Do until bude pokračovat, dokud se přepis nedokončí nebo dojde k chybě.

  • Přidejte další Get Transcript akci, například předtím, ale přidejte ji za smyčku Do until , aby byl její výstup k dispozici mimo rozsah Do until akce.

Než začnete dělat něco jiného, měli byste zkontrolovat, jestli je completed přepis Status nebo error. Condition Přidejte akci, která zkontroluje, jestli jeerror:transcript_status

  • True Ve větvi přidejte Terminate akci.
    • Nastavte Status na hodnotu Failed.
    • Nastavte Code na hodnotu Transcript Error.
    • Error Předejte z výstupu Get Transcript parametruMessage.
  • Větev můžete nechat prázdnou False .

Teď můžete přidat libovolnou Condition akci po zjištění stavu completedpřepisu a můžete načíst jakékoli výstupní vlastnosti Get Transcript akce.

Přidejte další akce

Teď, když máte dokončený přepis, můžete použít mnoho dalších akcí předávaných ID přepisem, například

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Známé problémy a omezení

V současné době nejsou žádné známé problémy. Nepodporujeme streamování řeči –To-Text (v reálném čase), protože není možné používat vlastní konektory.

Běžné chyby a nápravné prostředky

Další informace o chybách najdete v dokumentaci AssemblyAI.

časté otázky

Nejčastější dotazy najdete v naší dokumentaci.

Vytvoření připojení

Konektor podporuje následující typy ověřování:

výchozí Parametry pro vytvoření připojení Všechny oblasti Nesdílitelné

Výchozí

Použitelné: Všechny oblasti

Parametry pro vytvoření připojení

Toto připojení není možné sdílet. Pokud se power app sdílí s jiným uživatelem, zobrazí se výzva k explicitní vytvoření nového připojení.

Název Typ Description Povinné
Klíč rozhraní API AssemblyAI securestring Klíč rozhraní ASSEMBLYAI API pro ověření rozhraní AssemblyAI API. Pravdivé

Limity omezování

Name Volání Období obnovení
Volání rozhraní API na připojení 100 60 sekund

Akce

Hledat slova v přepisu

Prohledejte přepis klíčových slov. Můžete hledat jednotlivá slova, čísla nebo fráze obsahující až pět slov nebo čísel.

Nahrání multimediálního souboru

Nahrajte multimediální soubor na servery AssemblyAI.

Načíst odpověď LeMUR

Načtěte odpověď LeMUR, která byla dříve vygenerována.

Odstranit přepis

Odstraňte přepis. Odstranění neodstraní samotný prostředek, ale odebere data z prostředku a označí je jako odstraněné.

Přepis zvuku

Vytvořte přepis z mediálního souboru, který je přístupný prostřednictvím adresy URL.

Spuštění úlohy pomocí LeMUR

Pomocí koncového bodu úlohy LeMUR zadejte vlastní výzvu LLM.

Vymazání dat žádosti LeMUR

Odstraňte data pro dříve odeslanou žádost LeMUR. Data odpovědí LLM i jakýkoli kontext uvedený v původním požadavku budou odebrány.

Výpis přepisů

Načtěte seznam přepisů, které jste vytvořili. Přepisy jsou seřazené od nejnovějších po nejstarší. Předchozí adresa URL vždy odkazuje na stránku se staršími přepisy.

Získání odstavců v přepisu

Získejte přepis rozdělený podle odstavců. Rozhraní API se pokusí sémanticky segmentovat přepis do odstavců, aby vytvořilo popisnější přepisy pro čtenáře.

Získání přepisu

Získejte prostředek přepisu. Přepis je připravený, až se stav dokončí.

Získání redactovaného zvuku

Načtěte redactovaný zvukový objekt obsahující stav a adresu URL redactovaného zvuku.

Získání titulků pro přepis

Vyexportujte přepis ve formátu SRT nebo VTT, abyste ho mohli použít s přehrávačem videa pro titulky a skryté titulky.

Získání vět v přepisu

Získejte přepis rozdělený podle vět. Rozhraní API se pokusí sémanticky segmentovat přepis do vět, aby vytvořilo srozumitelnější přepisy pro čtenáře.

Hledat slova v přepisu

Prohledejte přepis klíčových slov. Můžete hledat jednotlivá slova, čísla nebo fráze obsahující až pět slov nebo čísel.

Parametry

Name Klíč Vyžadováno Typ Description
ID přepisu
transcript_id True string

ID přepisu

Slova
words True array

Klíčová slova, která chcete vyhledat

Návraty

Nahrání multimediálního souboru

Nahrajte multimediální soubor na servery AssemblyAI.

Parametry

Name Klíč Vyžadováno Typ Description
Obsah souboru
file True binary

Soubor, který chcete nahrát.

Návraty

Načíst odpověď LeMUR

Načtěte odpověď LeMUR, která byla dříve vygenerována.

Parametry

Name Klíč Vyžadováno Typ Description
ID žádosti LeMUR
request_id True string

ID žádosti LeMUR, kterou jste předtím provedli. To by bylo nalezeno v odpovědi původního požadavku.

Návraty

Odstranit přepis

Odstraňte přepis. Odstranění neodstraní samotný prostředek, ale odebere data z prostředku a označí je jako odstraněné.

Parametry

Name Klíč Vyžadováno Typ Description
ID přepisu
transcript_id True string

ID přepisu

Návraty

Objekt přepisu

Body
Transcript

Přepis zvuku

Vytvořte přepis z mediálního souboru, který je přístupný prostřednictvím adresy URL.

Parametry

Name Klíč Vyžadováno Typ Description
Adresa URL zvuku
audio_url True string

Adresa URL zvukového souboru nebo videosouboru, který chcete přepsat.

Kód jazyka
language_code string

Jazyk zvukového souboru. Možné hodnoty jsou nalezeny v podporovaných jazycích. Výchozí hodnota je en_us.

Rozpoznávání jazyka
language_detection boolean

Povolte automatickou detekci jazyka, buď true, nebo false.

Speech Model
speech_model string

Model řeči, který se má použít pro přepis.

Kouskovat
punctuate boolean

Povolit automatickou interpunkci, může být true nebo false

Formátování textu
format_text boolean

Povolit formátování textu, může být true nebo false

Disfluencies
disfluencies boolean

Přepis filler words, jako "um", ve vašem mediálním souboru; může být true nebo false

Duální kanál
dual_channel boolean

Povolit přepis duálního kanálu může být true nebo false.

Adresa URL webhooku
webhook_url string

Adresa URL, na kterou odesíláme požadavky webhooku. Posíláme dva různé typy požadavků webhooku. Jeden požadavek po dokončení nebo selhání přepisu a jeden požadavek, když je redactovaný zvuk připravený, pokud je povolená redact_pii_audio.

Název hlavičky ověřování webhooku
webhook_auth_header_name string

Název hlavičky, který se má odeslat s vyplněným přepisem nebo neúspěšnými požadavky webhooku

Hodnota hlavičky ověřování webhooku
webhook_auth_header_value string

Hodnota hlavičky pro odeslání zpět s dokončeným přepisem nebo neúspěšnými požadavky webhooku na přidání zabezpečení

Klíčové fráze
auto_highlights boolean

Povolení klíčových frází, true nebo false

Začátek zvuku od
audio_start_from integer

Bod v čase, v milisekundách, aby se začal přepisovat v multimediálním souboru

Konec zvuku na
audio_end_at integer

Bod v čase v milisekundách pro zastavení přepisování v multimediálním souboru

Word Boost
word_boost array of string

Seznam vlastních slovníků pro zvýšení pravděpodobnosti přepisu pro

Úroveň zvýšení úrovně wordu
boost_param string

Jak moc zvýšit počet zadaných slov

Filtrování vulgárních výrazů
filter_profanity boolean

Filtrování vulgárních výrazů z přepisovaného textu může být pravdivé nebo nepravdivé.

Redact PII
redact_pii boolean

Redact PII z přepisovaného textu pomocí modelu Redact PII může být true nebo false

Redact PII Audio
redact_pii_audio boolean

Vygenerujte kopii původního mediálního souboru s mluveným piI "pípnuto", může to být pravda nebo nepravda. Další podrobnosti najdete v redakci PII.

Redact PII Audio Quality
redact_pii_audio_quality string

Určuje typ souboru zvuku vytvořeného redact_pii_audio. Aktuálně podporuje mp3 (výchozí) a wav. Další podrobnosti najdete v redakci PII.

Zásady pii pro redact
redact_pii_policies array of string

Seznam zásad redakce PII, které se mají povolit. Další podrobnosti najdete v redakci PII.

Náhrada pii redact
redact_pii_sub string

Logika nahrazení zjištěného PII může být "entity_name" nebo "hash". Další podrobnosti najdete v redakci PII.

Popisky mluvčího
speaker_labels boolean

Povolit diarizaci mluvčího, může být true nebo false

Očekává se přednášející
speakers_expected integer

Řekne modelu popisku mluvčího, kolik mluvčích se má pokusit identifikovat, až 10. Další podrobnosti najdete v tématu Diarizace mluvčího.

Moderování obsahu
content_safety boolean

Povolit moderování obsahu, může být true nebo false

Spolehlivost moderování obsahu
content_safety_confidence integer

Prahová hodnota spolehlivosti pro model moderování obsahu. Hodnoty musí být v rozsahu 25 až 100.

Rozpoznávání témat
iab_categories boolean

Povolit detekci témat může být true nebo false

Od
from True array of string

Slova nebo fráze, které se mají nahradit

To
to True string

Slovo nebo slovní spojení, které chcete nahradit

Analýza mínění
sentiment_analysis boolean

Povolit analýzu mínění, může být true nebo false

Automatické kapitoly
auto_chapters boolean

Povolit automatické kapitoly, může být true nebo false

Detekce entit
entity_detection boolean

Povolit detekci entit může být true nebo false

Prahová hodnota řeči
speech_threshold float

Zamítnout zvukové soubory, které obsahují méně než tento zlomek řeči. Platné hodnoty jsou v rozsahu [0, 1] včetně.

Povolení souhrnu
summarization boolean

Povolit souhrn, může být true nebo false

Souhrnný model
summary_model string

Model pro shrnutí přepisu

Typ souhrnu
summary_type string

Typ souhrnu

Povolit vlastní témata
custom_topics boolean

Povolení vlastních témat, true nebo false

Vlastní témata
topics array of string

Seznam vlastních témat

Návraty

Objekt přepisu

Body
Transcript

Spuštění úlohy pomocí LeMUR

Pomocí koncového bodu úlohy LeMUR zadejte vlastní výzvu LLM.

Parametry

Name Klíč Vyžadováno Typ Description
Podnět
prompt True string

Text k zobrazení výzvy k vytvoření požadovaného výstupu, včetně jakéhokoli kontextu, který chcete do modelu předat.

ID přepisu
transcript_ids array of uuid

Seznam dokončených přepisů s textem Maximálně 100 souborů nebo 100 hodin, podle toho, co je nižší. Jako vstup do LeMUR použijte transcript_ids nebo input_text.

Vstupní text
input_text string

Vlastní formátovaná data přepisu Maximální velikost je kontextový limit vybraného modelu, který má výchozí hodnotu 1 00000. Jako vstup do LeMUR použijte transcript_ids nebo input_text.

Context
context string

Kontext pro poskytnutí modelu Může to být řetězec nebo hodnota JSON volného tvaru.

Konečný model
final_model string

Model, který se použije pro poslední výzvu po provedení komprese.

Maximální velikost výstupu
max_output_size integer

Maximální velikost výstupu v tokenech, až 4 000

Teplota
temperature float

Teplota, která se má použít pro model. Vyšší hodnoty vedou k tomu, že odpovědi jsou kreativní a nižší hodnoty jsou konzervativnější. Může mít libovolnou hodnotu od 0,0 do 1,0 včetně.

Návraty

Vymazání dat žádosti LeMUR

Odstraňte data pro dříve odeslanou žádost LeMUR. Data odpovědí LLM i jakýkoli kontext uvedený v původním požadavku budou odebrány.

Parametry

Name Klíč Vyžadováno Typ Description
ID žádosti LeMUR
request_id True string

ID požadavku LeMUR, jehož data chcete odstranit. To by bylo nalezeno v odpovědi původního požadavku.

Návraty

Výpis přepisů

Načtěte seznam přepisů, které jste vytvořili. Přepisy jsou seřazené od nejnovějších po nejstarší. Předchozí adresa URL vždy odkazuje na stránku se staršími přepisy.

Parametry

Name Klíč Vyžadováno Typ Description
Omezení
limit integer

Maximální počet přepisů, které se mají načíst

Stav
status string

Stav přepisu. Možné hodnoty jsou zařazené do fronty, zpracování, dokončení nebo chyba.

Vytvořeno dne
created_on date

Získat pouze přepisy vytvořené k tomuto datu

Před ID
before_id uuid

Získání přepisů vytvořených před tímto ID přepisu

Po ID
after_id uuid

Získání přepisů vytvořených po tomto ID přepisu

Omezení pouze
throttled_only boolean

Získání omezených přepisů, přepsání filtru stavu

Návraty

Seznam přepisů Přepisy jsou seřazené od nejnovějších po nejstarší. Předchozí adresa URL vždy odkazuje na stránku se staršími přepisy.

Získání odstavců v přepisu

Získejte přepis rozdělený podle odstavců. Rozhraní API se pokusí sémanticky segmentovat přepis do odstavců, aby vytvořilo popisnější přepisy pro čtenáře.

Parametry

Name Klíč Vyžadováno Typ Description
ID přepisu
transcript_id True string

ID přepisu

Návraty

Získání přepisu

Získejte prostředek přepisu. Přepis je připravený, až se stav dokončí.

Parametry

Name Klíč Vyžadováno Typ Description
ID přepisu
transcript_id True string

ID přepisu

Návraty

Objekt přepisu

Body
Transcript

Získání redactovaného zvuku

Načtěte redactovaný zvukový objekt obsahující stav a adresu URL redactovaného zvuku.

Parametry

Name Klíč Vyžadováno Typ Description
ID přepisu
transcript_id True string

ID přepisu

Návraty

Získání titulků pro přepis

Vyexportujte přepis ve formátu SRT nebo VTT, abyste ho mohli použít s přehrávačem videa pro titulky a skryté titulky.

Parametry

Name Klíč Vyžadováno Typ Description
ID přepisu
transcript_id True string

ID přepisu

Formát titulků
subtitle_format True string

Formát titulků

Počet znaků na titulek
chars_per_caption integer

Maximální počet znaků na titulek

Návraty

response
string

Získání vět v přepisu

Získejte přepis rozdělený podle vět. Rozhraní API se pokusí sémanticky segmentovat přepis do vět, aby vytvořilo srozumitelnější přepisy pro čtenáře.

Parametry

Name Klíč Vyžadováno Typ Description
ID přepisu
transcript_id True string

ID přepisu

Návraty

Definice

RedactedAudioResponse

Name Cesta Typ Description
Stav
status string

Stav redactovaného zvuku

Redacted Audio URL
redacted_audio_url string

Adresa URL redactovaného zvukového souboru

WordSearchResponse

Name Cesta Typ Description
ID přepisu
id uuid

ID přepisu

Celkový počet shod
total_count integer

Celkový počet všech shodných instancí. Například slovo 1 odpovídá 2krát a slovo 2 odpovídá 3krát, total_count se rovná 5.

Odpovídá
matches array of object

Shody hledání

Text
matches.text string

Odpovídající slovo

Počet
matches.count integer

Celková doba, po kterou je slovo v přepisu

Časová razítka
matches.timestamps array of array

Pole časových razítek

Časová značka
matches.timestamps array of integer

Pole časových razítek strukturovaných jako [start_time, end_time] v milisekundách

Indexes
matches.indexes array of integer

Pole všech umístění indexů pro toto slovo v poli slov dokončeného přepisu

Přepis

Objekt přepisu

Name Cesta Typ Description
ID
id uuid

Jedinečný identifikátor přepisu

Adresa URL zvuku
audio_url string

Adresa URL média, která byla přepsána

Stav
status string

Stav přepisu. Možné hodnoty jsou zařazené do fronty, zpracování, dokončení nebo chyba.

Kód jazyka
language_code string

Jazyk zvukového souboru. Možné hodnoty jsou nalezeny v podporovaných jazycích. Výchozí hodnota je en_us.

Rozpoznávání jazyka
language_detection boolean

Jestli je povolená automatická detekce jazyka, pravda nebo nepravda

Speech Model
speech_model string

Model řeči, který se má použít pro přepis.

Text
text string

Textový přepis multimediálního souboru

Slova
words array of object

Pole časově sekvenčních objektů slova, jedno pro každé slovo v přepisu. Další informace najdete v tématu Rozpoznávání řeči.

Spolehlivost
words.confidence double
Začátek
words.start integer
konec
words.end integer
Text
words.text string
Reproduktor
words.speaker string

Mluvčí věty, pokud je povolená diarizace mluvčího, jinak má hodnotu null.

Prohlášení
utterances array of object

Pokud je povolená dual_channel nebo speaker_labels, zobrazí se seznam objektů promluv pro odevzdání. Další informace najdete v tématu Diarizace mluvčího.

Spolehlivost
utterances.confidence double

Skóre spolehlivosti pro přepis této promluvy

Začátek
utterances.start integer

Počáteční čas promluvy ve zvukovém souboru v milisekundách

konec
utterances.end integer

Koncový čas promluvy ve zvukovém souboru v milisekundách

Text
utterances.text string

Text této promluvy

Slova
utterances.words array of object

Slova v promluvě.

Spolehlivost
utterances.words.confidence double
Začátek
utterances.words.start integer
konec
utterances.words.end integer
Text
utterances.words.text string
Reproduktor
utterances.words.speaker string

Mluvčí věty, pokud je povolená diarizace mluvčího, jinak má hodnotu null.

Reproduktor
utterances.speaker string

Mluvčí této promluvy, kde je každému mluvčímu přiřazeno sekvenční velké písmeno , např. "A" pro mluvčího A, "B" pro mluvčího B atd.

Spolehlivost
confidence double

Skóre spolehlivosti pro přepis, mezi 0,0 (nízká spolehlivost) a 1,0 (vysoká spolehlivost)

Doba trvání zvuku
audio_duration integer

Doba trvání mediálního souboru tohoto objektu přepisu v sekundách

Kouskovat
punctuate boolean

Jestli je povolená automatická interpunkce, pravda nebo nepravda

Formátování textu
format_text boolean

Zda je povolené formátování textu, pravda nebo nepravda

Disfluencies
disfluencies boolean

Přepis filler words, jako "um", ve vašem mediálním souboru; může být true nebo false

Duální kanál
dual_channel boolean

Zda byl v žádosti o přepis povolen přepis duálního kanálu, buď true, nebo false

Adresa URL webhooku
webhook_url string

Adresa URL, na kterou odesíláme požadavky webhooku. Posíláme dva různé typy požadavků webhooku. Jeden požadavek po dokončení nebo selhání přepisu a jeden požadavek, když je redactovaný zvuk připravený, pokud je povolená redact_pii_audio.

Stavový kód HTTP webhooku
webhook_status_code integer

Stavový kód, který jsme obdrželi z vašeho serveru při doručení žádosti o dokončení přepisu nebo neúspěšného požadavku webhooku, pokud byla zadána adresa URL webhooku

Povolené ověřování webhooku
webhook_auth boolean

Zda byly zadané podrobnosti ověřování webhooku

Název hlavičky ověřování webhooku
webhook_auth_header_name string

Název hlavičky, který se má odeslat s vyplněným přepisem nebo neúspěšnými požadavky webhooku

Zrychlení
speed_boost boolean

Zda je povoleno zvýšení rychlosti

Klíčové fráze
auto_highlights boolean

Jestli jsou povolené klíčové fráze, pravda nebo nepravda

Stav
auto_highlights_result.status string

Úspěch nebo nedostupnost ve výjimečných případech, kdy model selhal

Results
auto_highlights_result.results array of object

Časově sekvenční pole klíčových frází

Počet
auto_highlights_result.results.count integer

Celkový počet výskytů klíčové fráze ve zvukovém souboru

Hodnost
auto_highlights_result.results.rank float

Celkový význam celkového zvukového souboru této klíčové fráze – větší počet znamená relevantnější

Text
auto_highlights_result.results.text string

Samotný text klíčové fráze

Časová razítka
auto_highlights_result.results.timestamps array of object

Časové razítko klíčové fráze

Začátek
auto_highlights_result.results.timestamps.start integer

Počáteční čas v milisekundách

konec
auto_highlights_result.results.timestamps.end integer

Koncový čas v milisekundách

Začátek zvuku od
audio_start_from integer

Bod v čase v milisekundách v souboru, ve kterém byl přepis zahájen

Konec zvuku na
audio_end_at integer

Bod v čase v milisekundách v souboru, ve kterém byl přepis ukončen

Word Boost
word_boost array of string

Seznam vlastních slovníků pro zvýšení pravděpodobnosti přepisu pro

Zvýšit
boost_param string

Hodnota parametru boost slovo

Filtrování vulgárních výrazů
filter_profanity boolean

Jestli je povolené filtrování vulgárních výrazů, true nebo false

Redact PII
redact_pii boolean

Jestli je povolená redakce PII, true nebo false

Redact PII Audio
redact_pii_audio boolean

Zda byla vygenerována redacted verze zvukového souboru, buď true, nebo false. Další informace najdete v redakci PII.

Redact PII Audio Quality
redact_pii_audio_quality string

Určuje typ souboru zvuku vytvořeného redact_pii_audio. Aktuálně podporuje mp3 (výchozí) a wav. Další podrobnosti najdete v redakci PII.

Zásady pii pro redact
redact_pii_policies array of string

Seznam zásad redakce PII, které byly povoleny, pokud je povolená redaction PII. Další informace najdete v redakci PII.

Náhrada pii redact
redact_pii_sub string

Logika nahrazení zjištěného PII může být "entity_name" nebo "hash". Další podrobnosti najdete v redakci PII.

Popisky mluvčího
speaker_labels boolean

Jestli je povolená diarizace mluvčího, může to být pravda nebo nepravda.

Očekává se přednášející
speakers_expected integer

Řekněte modelu popisku mluvčího, kolik mluvčích by se mělo pokusit identifikovat, až 10. Další podrobnosti najdete v tématu Diarizace mluvčího.

Moderování obsahu
content_safety boolean

Jestli je povolený moderování obsahu, může to být pravda nebo nepravda.

Stav
content_safety_labels.status string

Úspěch nebo nedostupnost ve výjimečných případech, kdy model selhal

Results
content_safety_labels.results array of object
Text
content_safety_labels.results.text string

Přepis oddílu označeného modelem moderování obsahu

Štítky
content_safety_labels.results.labels array of object

Pole bezpečnostních popisků, jedno pro citlivé téma, které bylo zjištěno v části

Označení
content_safety_labels.results.labels.label string

Popisek citlivého tématu

Spolehlivost
content_safety_labels.results.labels.confidence double

Skóre spolehlivosti pro téma, které je popsáno, od 0 do 1

Závažnost
content_safety_labels.results.labels.severity double

Jak závažně se téma popisuje v části od 0 do 1

Začátek věty
content_safety_labels.results.sentences_idx_start integer

Index věty, na kterém oddíl začíná

Konec indexu věty
content_safety_labels.results.sentences_idx_end integer

Index věty, na kterém končí oddíl

Začátek
content_safety_labels.results.timestamp.start integer

Počáteční čas v milisekundách

konec
content_safety_labels.results.timestamp.end integer

Koncový čas v milisekundách

Shrnutí
content_safety_labels.summary object

Souhrn výsledků spolehlivosti moderování obsahu pro celý zvukový soubor

Souhrn skóre závažnosti
content_safety_labels.severity_score_summary object

Souhrn výsledků závažnosti moderování obsahu pro celý zvukový soubor

Rozpoznávání témat
iab_categories boolean

Jestli je povolené zjišťování témat, může to být pravda nebo nepravda.

Stav
iab_categories_result.status string

Úspěch nebo nedostupnost ve výjimečných případech, kdy model selhal

Results
iab_categories_result.results array of object

Pole výsledků pro model detekce témat

Text
iab_categories_result.results.text string

Text v přepisu, ve kterém se vyskytuje zjištěné téma

Štítky
iab_categories_result.results.labels array of object
Relevance
iab_categories_result.results.labels.relevance double

Jak relevantní je zjištěné téma zjištěného tématu

Označení
iab_categories_result.results.labels.label string

Taxonomický popisek IAB pro popisek zjištěného tématu, kde > označuje supertopický/dílčí vztah

Začátek
iab_categories_result.results.timestamp.start integer

Počáteční čas v milisekundách

konec
iab_categories_result.results.timestamp.end integer

Koncový čas v milisekundách

Shrnutí
iab_categories_result.summary object

Celkový význam tématu pro celý zvukový soubor

Vlastní pravopis
custom_spelling array of object

Přizpůsobení způsobu psaní a formátování slov pomocí hodnot a z hodnot

Od
custom_spelling.from array of string

Slova nebo fráze, které se mají nahradit

To
custom_spelling.to string

Slovo nebo slovní spojení, které chcete nahradit

Povolená automatická kapitola
auto_chapters boolean

Zda jsou povoleny automatické kapitoly, mohou být pravdivé nebo nepravdivé.

Kapitoly
chapters array of object

Pole časově sekvenčních kapitol pro zvukový soubor

Podstata
chapters.gist string

Ultra-krátký souhrn (jen pár slov) obsahu mluveného v kapitole

Titulek
chapters.headline string

Shrnutí obsahu mluveného během kapitoly o jedné větě

Shrnutí
chapters.summary string

Shrnutí obsahu mluveného během kapitoly o jednom odstavci

Začátek
chapters.start integer

Počáteční čas v milisekundách kapitoly

konec
chapters.end integer

Počáteční čas v milisekundách kapitoly

Povoleno shrnutí
summarization boolean

Jestli je povolená sumarizace, pravda nebo nepravda

Typ souhrnu
summary_type string

Typ vygenerovaného souhrnu, pokud je povolená funkce Souhrn

Souhrnný model
summary_model string

Model souhrnu, který se používá k vygenerování souhrnu, pokud je povoleno shrnutí

Shrnutí
summary string

Vygenerovaný souhrn multimediálního souboru, pokud je povolená funkce Souhrn

Povolená vlastní témata
custom_topics boolean

Jestli jsou povolená vlastní témata, pravda nebo nepravda

Témata
topics array of string

Seznam vlastních témat zadaných v případě, že jsou povolená vlastní témata

Analýza mínění
sentiment_analysis boolean

Jestli je povolená analýza mínění, může to být pravda nebo nepravda.

Výsledky analýzy mínění
sentiment_analysis_results array of object

Pole výsledků pro model analýzy mínění, pokud je povoleno. Další informace najdete v tématu Analýza mínění.

Text
sentiment_analysis_results.text string

Přepis věty

Začátek
sentiment_analysis_results.start integer

Počáteční čas věty v milisekundách

konec
sentiment_analysis_results.end integer

Koncový čas v milisekundách věty

Smýšlení
sentiment_analysis_results.sentiment

Rozpoznané mínění pro větu, jedno z POZITIVNÍch, NEUTRÁLNÍch, NEGATIVNÍch

Spolehlivost
sentiment_analysis_results.confidence double

Skóre spolehlivosti zjištěného mínění věty od 0 do 1

Reproduktor
sentiment_analysis_results.speaker string

Mluvčí věty, pokud je povolená diarizace mluvčího, jinak má hodnotu null.

Detekce entit
entity_detection boolean

Jestli je povolená detekce entit, může to být pravda nebo nepravda.

Entitety
entities array of object

Pole výsledků pro model detekce entit, pokud je povoleno. Další informace najdete v tématu Detekce entit.

Typ entity
entities.entity_type string

Typ entity pro detekovanou entitu

Text
entities.text string

Text zjištěné entity

Začátek
entities.start integer

Počáteční čas v milisekundách, ve kterém se rozpoznaná entita objeví ve zvukovém souboru

konec
entities.end integer

Koncový čas v milisekundách pro rozpoznanou entitu ve zvukovém souboru

Prahová hodnota řeči
speech_threshold float

Výchozí hodnota je null. Zamítnout zvukové soubory, které obsahují méně než tento zlomek řeči. Platné hodnoty jsou v rozsahu [0, 1] včetně.

Omezený
throttled boolean

Hodnota True, pokud je požadavek omezený a nepravda, pokud už požadavek není omezený

Error
error string

Chybová zpráva o tom, proč se přepis nezdařil

Jazykový model
language_model string

Jazykový model, který byl použit pro přepis

Akustický model
acoustic_model string

Akustický model, který byl použit pro přepis

VětyResponse

Name Cesta Typ Description
ID přepisu
id uuid
Spolehlivost
confidence double
Doba trvání zvuku
audio_duration number
Věty
sentences array of object
Text
sentences.text string
Začátek
sentences.start integer
konec
sentences.end integer
Spolehlivost
sentences.confidence double
Slova
sentences.words array of object
Spolehlivost
sentences.words.confidence double
Začátek
sentences.words.start integer
konec
sentences.words.end integer
Text
sentences.words.text string
Reproduktor
sentences.words.speaker string

Mluvčí věty, pokud je povolená diarizace mluvčího, jinak má hodnotu null.

Reproduktor
sentences.speaker string

Mluvčí věty, pokud je povolená diarizace mluvčího, jinak má hodnotu null.

ParagraphsResponse

Name Cesta Typ Description
ID přepisu
id uuid
Spolehlivost
confidence double
Doba trvání zvuku
audio_duration number
Odstavce
paragraphs array of object
Text
paragraphs.text string
Začátek
paragraphs.start integer
konec
paragraphs.end integer
Spolehlivost
paragraphs.confidence double
Slova
paragraphs.words array of object
Spolehlivost
paragraphs.words.confidence double
Začátek
paragraphs.words.start integer
konec
paragraphs.words.end integer
Text
paragraphs.words.text string
Reproduktor
paragraphs.words.speaker string

Mluvčí věty, pokud je povolená diarizace mluvčího, jinak má hodnotu null.

Reproduktor
paragraphs.speaker string

Mluvčí věty, pokud je povolená diarizace mluvčího, jinak má hodnotu null.

Seznam přepisů

Seznam přepisů Přepisy jsou seřazené od nejnovějších po nejstarší. Předchozí adresa URL vždy odkazuje na stránku se staršími přepisy.

Name Cesta Typ Description
Omezení
page_details.limit integer

Počet výsledků této stránky je omezen na

Počet výsledků
page_details.result_count integer

Skutečný počet výsledků na stránce

Aktuální adresa URL
page_details.current_url string

Adresa URL použitá k načtení aktuální stránky přepisů

Předchozí adresa URL
page_details.prev_url string

Adresa URL na další stránku přepisů Předchozí adresa URL vždy odkazuje na stránku se staršími přepisy.

Další adresa URL
page_details.next_url string

Adresa URL na další stránku přepisů Další adresa URL vždy odkazuje na stránku s novějšími přepisy.

Transcripts
transcripts array of object
ID
transcripts.id uuid
Adresa URL prostředku
transcripts.resource_url string
Stav
transcripts.status string

Stav přepisu. Možné hodnoty jsou zařazené do fronty, zpracování, dokončení nebo chyba.

Vytvořené
transcripts.created string
Dokončeno
transcripts.completed string
Adresa URL zvuku
transcripts.audio_url string
Error
transcripts.error string

Chybová zpráva o tom, proč se přepis nezdařil

Nahraný soubor

Name Cesta Typ Description
Adresa URL nahraného souboru
upload_url string

Adresa URL, která odkazuje na váš zvukový soubor, přístupná pouze servery AssemblyAI

PurgeLemurRequestDataResponse

Name Cesta Typ Description
Vyprázdnění ID žádosti
request_id uuid

ID žádosti o odstranění žádosti LeMUR

ID žádosti LeMUR k vyprázdnění
request_id_to_purge uuid

ID žádosti LeMUR o vymazání údajů pro

Odstraněné
deleted boolean

Zda byla data požadavku odstraněna

LemurTaskResponse

Name Cesta Typ Description
Odezva
response string

Odpověď vygenerovaná LeMURem.

ID žádosti LeMUR
request_id uuid

ID žádosti LeMUR

Vstupní tokeny
usage.input_tokens integer

Počet vstupních tokenů používaných modelem

Výstupní tokeny
usage.output_tokens integer

Počet výstupních tokenů vygenerovaných modelem

LemurResponse

Name Cesta Typ Description
Odezva
response string

Odpověď vygenerovaná LeMURem.

ID žádosti LeMUR
request_id uuid

ID žádosti LeMUR

Vstupní tokeny
usage.input_tokens integer

Počet vstupních tokenů používaných modelem

Výstupní tokeny
usage.output_tokens integer

Počet výstupních tokenů vygenerovaných modelem

řetězec

Toto je základní datový typ String.