Udostępnij przez


AssemblyAI (wersja zapoznawcza)

Transkrypcja i wyodrębnianie danych z dźwięku przy użyciu sztucznej inteligencji mowy assemblyAI.

Ten łącznik jest dostępny w następujących produktach i regionach:

Usługa Class Regions
Copilot Studio Premium Wszystkie regiony usługi Power Automate z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Logic Apps Standard Wszystkie regiony usługi Logic Apps z wyjątkiem następujących:
     — Regiony platformy Azure Government
     — Regiony platformy Azure (Chiny)
     - Departament Obrony USA (DoD)
Power Apps Premium Wszystkie regiony usługi Power Apps z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Power Automate Premium Wszystkie regiony usługi Power Automate z wyjątkiem następujących:
     - Rząd USA (GCC)
     - Rząd USA (GCC High)
     - China Cloud obsługiwane przez firmę 21Vianet
     - Departament Obrony USA (DoD)
Kontakt
Name Support
adres URL https://www.assemblyai.com/docs/
Email support@assemblyai.com
Metadane łącznika
Publisher AssemblyAI
Witryna internetowa https://www.assemblyai.com
Zasady ochrony prywatności https://www.assemblyai.com/legal/privacy-policy
Kategorie AI

Za pomocą łącznika AssemblyAI można używać modeli AssemblyAI do przetwarzania danych audio przez transkrypcję ich za pomocą modeli rozpoznawania mowy, analizowanie ich za pomocą modeli analizy audio i tworzenie funkcji generowania na ich podstawie za pomocą funkcji LLMs.

  • Zamiana mowy na tekst obejmująca wiele konfigurowalnych funkcji, takich jak diaryzacja osoby mówiącej, pisownia niestandardowa, słownictwo niestandardowe itp.
  • Modele analizy audio to dodatkowe modele sztucznej inteligencji dostępne i konfigurowane za pośrednictwem konfiguracji transkrypcji.
  • Firma LeMUR umożliwia stosowanie różnych modeli LLM do transkrypcji bez konieczności tworzenia własnej infrastruktury RAG na potrzeby bardzo dużych transkrypcji.

Wymagania wstępne

Aby kontynuować, musisz wykonać następujące czynności:

Jak uzyskać poświadczenia

Klucz interfejsu API assemblyAI można uzyskać bezpłatnie, tworząc konto i kopiując klucz interfejsu API z pulpitu nawigacyjnego.

Wprowadzenie do łącznika

Wykonaj następujące kroki, aby transkrybować dźwięk przy użyciu łącznika AssemblyAI.

Przekazywanie pliku

Aby transkrypcja pliku audio przy użyciu interfejsu AssemblyAI, plik musi być dostępny dla interfejsu AssemblyAI. Jeśli plik audio jest już dostępny za pośrednictwem adresu URL, możesz użyć istniejącego adresu URL.

W przeciwnym razie możesz użyć Upload a File akcji , aby przekazać plik do assemblyAI. Otrzymasz adres URL pliku, którego można użyć tylko do transkrypcji przy użyciu klucza interfejsu API. Po transkrypcji pliku plik zostanie usunięty z serwerów assemblyAI.

Transkrypcja dźwięku

Aby transkrybować dźwięk, skonfiguruj Audio URL parametr przy użyciu adresu URL pliku audio. Następnie skonfiguruj dodatkowe parametry, aby włączyć więcej funkcji rozpoznawania mowy i modeli analizy audio .

Wynikiem akcji Transkrypcja audio jest transkrypcja w kolejce, która rozpocznie przetwarzanie natychmiast. Aby uzyskać ukończoną transkrypcję, dostępne są dwie opcje:

  1. Obsługa gotowego elementu webhook transkrypcji
  2. Sonduj stan transkrypcji

Obsługa gotowego elementu webhook transkrypcji

Jeśli nie chcesz obsługiwać elementu webhook przy użyciu usługi Logic Apps lub Power Automate, skonfiguruj parametr w Transcribe Audio akcji i zaimplementuj Webhook URL element webhook zgodnie z dokumentacją elementu webhook zestawu AI.

Aby obsłużyć element webhook przy użyciu usługi Logic Apps lub Power Automate, wykonaj następujące kroki:

  1. Tworzenie oddzielnej aplikacji logiki lub usługi Power Automate Flow

  2. Skonfiguruj When an HTTP request is received jako wyzwalacz:

    • Ustaw element Who Can Trigger The Flow? na wartość Anyone
    • Ustaw Request Body JSON Schema na:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Ustaw element Method na wartość POST
  3. Dodaj akcję AssemblyAI Get Transcript , przekazując transcript_id element z wyzwalacza do parametru Transcript ID .

  4. Przed wykonaniem czegokolwiek innego należy sprawdzić, czy element Status ma wartość completed , czy error. Dodaj akcję sprawdzającą Condition , czy element Status z danych wyjściowych Get Transcript to error:

    • True W gałęzi dodaj Terminate akcję
      • Ustaw wartość na StatusFailed
      • Ustaw wartość na CodeTranscript Error
      • Przekaż element Error z danych wyjściowych Get Transcript do parametru Message .
    • Możesz pozostawić gałąź pustą False .

    Teraz możesz dodać dowolną akcję po Condition tym, jak wiadomo, że stan transkrypcji to completed, i możesz pobrać dowolne właściwości Get Transcript wyjściowe akcji.

  5. Zapisz aplikację logiki lub przepływ. Zostanie HTTP URL wygenerowany dla When an HTTP request is received wyzwalacza. Skopiuj i HTTP URL wróć do oryginalnej aplikacji logiki lub usługi Flow.

  6. W oryginalnej aplikacji logiki lub usłudze Flow zaktualizuj Transcribe Audio akcję. HTTP URL Wklej skopiowane wcześniej polecenie do parametru Webhook URL i zapisz.

Gdy stan transkrypcji stanie się completed lub error, usługa AssemblyAI wyśle żądanie HTTP POST do adresu URL elementu webhook, który będzie obsługiwany przez inną aplikację logiki lub przepływ.

Alternatywą dla używania elementu webhook możesz sondować stan transkrypcji zgodnie z opisem w następnej sekcji.

Sonduj stan transkrypcji

Stan transkrypcji można sondować, wykonując następujące kroki:

  • Initialize variable Dodawanie akcji

    • Ustaw element Name na wartość transcript_status
    • Ustaw element Type na wartość String
    • Zapisz element Status z danych wyjściowych Transcribe Audio w parametrze Value
  • Do until Dodawanie akcji

    • Skonfiguruj parametr przy Loop Until użyciu następującego kodu Fx:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Ten kod sprawdza, czy zmienna transcript_status ma completed wartość , czy error.
    • Konfigurowanie parametru na Count86400
    • Konfigurowanie parametru na TimeoutPT24H

    Do until Wewnątrz akcji dodaj następujące akcje:

    • Delay Dodawanie akcji, która czeka na jedną sekundę
    • Get Transcript Dodaj akcję i przekaż element ID z danych wyjściowych Transcribe Audio do parametru Transcript ID .
    • Set variable Dodawanie akcji
      • Ustaw element Name na wartość transcript_status
      • Status Przekazywanie danych wyjściowych Get Transcript do parametru Value

    Pętla będzie kontynuowana Do until do momentu zakończenia transkrypcji lub wystąpienia błędu.

  • Dodaj kolejną Get Transcript akcję, tak jak poprzednio, ale dodaj ją po Do until pętli, aby jej dane wyjściowe stały się dostępne poza zakresem Do until akcji.

Przed wykonaniem czegokolwiek innego należy sprawdzić, czy transkrypcja Status jest completed czy error. Dodaj akcję sprawdzającą Condition , czy element transcript_status ma wartość error:

  • True W gałęzi dodaj Terminate akcję
    • Ustaw element Status na wartość Failed
    • Ustaw element Code na wartość Transcript Error
    • Przekaż element Error z danych wyjściowych Get Transcript do parametru Message .
  • Możesz pozostawić gałąź pustą False .

Teraz możesz dodać dowolną akcję po Condition tym, jak wiadomo, że stan transkrypcji to completed, i możesz pobrać dowolne właściwości Get Transcript wyjściowe akcji.

Dodawanie kolejnych akcji

Teraz, gdy masz ukończoną transkrypcję, możesz użyć wielu innych akcji przekazujących ID transkrypcję, takich jak

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Znane problemy i ograniczenia

Obecnie nie ma znanych problemów. Nie obsługujemy przesyłania strumieniowego mowy —To-Text (w czasie rzeczywistym), ponieważ nie jest to możliwe przy użyciu łączników niestandardowych.

Typowe błędy i środki zaradcze

Więcej informacji o błędach można znaleźć w dokumentacji assemblyAI.

Często zadawane pytania

Często zadawane pytania można znaleźć w naszej dokumentacji.

Tworzenie połączenia

Łącznik obsługuje następujące typy uwierzytelniania:

Wartość domyślna Parametry tworzenia połączenia. Wszystkie regiony Nie można udostępniać

Domyślny

Dotyczy: wszystkie regiony

Parametry tworzenia połączenia.

Nie jest to możliwe do udostępnienia połączenie. Jeśli aplikacja power zostanie udostępniona innemu użytkownikowi, zostanie wyświetlony monit o jawne utworzenie nowego połączenia.

Name Typ Description Wymagane
Klucz interfejsu API assemblyAI securestring Klucz interfejsu API assemblyAI do uwierzytelniania interfejsu API AssemblyAI. Prawda

Limity ograniczania

Nazwa Wywołania Okres odnowienia
Wywołania interfejsu API na połączenie 100 60 sekund

Akcje

Lista transkrypcji

Pobierz listę utworzonych transkrypcji. Transkrypcje są sortowane od najnowszych do najstarszych. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.

Pobieranie akapitów w transkrypcji

Pobierz transkrypcję podzieloną według akapitów. Interfejs API spróbuje semantycznie podzielić transkrypcję na akapity, aby utworzyć bardziej przyjazne dla czytelnika transkrypcje.

Pobieranie napisów na potrzeby transkrypcji

Wyeksportuj transkrypcję w formacie SRT lub VTT do użycia z odtwarzaczem wideo dla napisów i napisów.

Pobieranie odpowiedzi LeMUR

Pobierz odpowiedź LeMUR, która została wcześniej wygenerowana.

Pobieranie transkrypcji

Pobierz zasób transkrypcji. Transkrypcja jest gotowa po zakończeniu "statusu".

Pobieranie zdań w transkrypcji

Pobierz transkrypcję podzieloną według zdań. Interfejs API spróbuje semantycznie podzielić transkrypcję na zdania, aby utworzyć bardziej przyjazne dla czytelnika transkrypcje.

Pobieranie zredagowanego dźwięku

Pobierz zredagowany obiekt audio zawierający stan i adres URL do zredagowanego dźwięku.

Przeczyszczanie danych żądania LeMUR

Usuń dane dla wcześniej przesłanego żądania LeMUR. Dane odpowiedzi LLM, a także kontekst podany w oryginalnym żądaniu zostaną usunięte.

Przekazywanie pliku multimedialnego

Przekaż plik multimedialny na serwery AssemblyAI.

Transkrypcja dźwięku

Utwórz transkrypcję na podstawie pliku multimedialnego, który jest dostępny za pośrednictwem adresu URL.

Uruchamianie zadania przy użyciu rozwiązania LeMUR

Użyj punktu końcowego zadania LeMUR, aby wprowadzić własny monit LLM.

Usuwanie transkrypcji

Usuń transkrypcję. Usunięcie nie powoduje usunięcia samego zasobu, ale usuwa dane z zasobu i oznacza je jako usunięte.

Wyszukiwanie wyrazów w transkrypcji

Przeszukaj transkrypcję słów kluczowych. Możesz wyszukać pojedyncze wyrazy, liczby lub frazy zawierające maksymalnie pięć wyrazów lub liczb.

Lista transkrypcji

Pobierz listę utworzonych transkrypcji. Transkrypcje są sortowane od najnowszych do najstarszych. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.

Parametry

Nazwa Klucz Wymagane Typ Opis
Ograniczenie
limit integer

Maksymalna liczba transkrypcji do pobrania

Status
status string

Stan transkrypcji. Możliwe wartości są kolejkowane, przetwarzane, ukończone lub błędy.

Utworzono
created_on date

Pobieranie tylko transkrypcji utworzonych w tej dacie

Przed identyfikatorem
before_id uuid

Pobieranie transkrypcji utworzonych przed tym identyfikatorem transkrypcji

Po identyfikatorze
after_id uuid

Pobieranie transkrypcji utworzonych po tym identyfikatorze transkrypcji

Tylko ograniczone
throttled_only boolean

Tylko uzyskać ograniczone transkrypcje, przesłania filtr stanu

Zwraca

Lista transkrypcji. Transkrypcje są sortowane od najnowszych do najstarszych. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.

Pobieranie akapitów w transkrypcji

Pobierz transkrypcję podzieloną według akapitów. Interfejs API spróbuje semantycznie podzielić transkrypcję na akapity, aby utworzyć bardziej przyjazne dla czytelnika transkrypcje.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator transkrypcji
transcript_id True string

Identyfikator transkrypcji

Zwraca

Pobieranie napisów na potrzeby transkrypcji

Wyeksportuj transkrypcję w formacie SRT lub VTT do użycia z odtwarzaczem wideo dla napisów i napisów.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator transkrypcji
transcript_id True string

Identyfikator transkrypcji

Format podtytułu
subtitle_format True string

Format napisów

Liczba znaków na podpis
chars_per_caption integer

Maksymalna liczba znaków na podpis

Zwraca

response
string

Pobieranie odpowiedzi LeMUR

Pobierz odpowiedź LeMUR, która została wcześniej wygenerowana.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator żądania LeMUR
request_id True string

Identyfikator wcześniej wykonanego żądania LeMUR. Zostanie to znalezione w odpowiedzi na oryginalne żądanie.

Zwraca

Pobieranie transkrypcji

Pobierz zasób transkrypcji. Transkrypcja jest gotowa po zakończeniu "statusu".

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator transkrypcji
transcript_id True string

Identyfikator transkrypcji

Zwraca

Obiekt transkrypcji

Body
Transcript

Pobieranie zdań w transkrypcji

Pobierz transkrypcję podzieloną według zdań. Interfejs API spróbuje semantycznie podzielić transkrypcję na zdania, aby utworzyć bardziej przyjazne dla czytelnika transkrypcje.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator transkrypcji
transcript_id True string

Identyfikator transkrypcji

Zwraca

Pobieranie zredagowanego dźwięku

Pobierz zredagowany obiekt audio zawierający stan i adres URL do zredagowanego dźwięku.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator transkrypcji
transcript_id True string

Identyfikator transkrypcji

Zwraca

Przeczyszczanie danych żądania LeMUR

Usuń dane dla wcześniej przesłanego żądania LeMUR. Dane odpowiedzi LLM, a także kontekst podany w oryginalnym żądaniu zostaną usunięte.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator żądania LeMUR
request_id True string

Identyfikator żądania LeMUR, którego dane chcesz usunąć. Zostanie to znalezione w odpowiedzi na oryginalne żądanie.

Zwraca

Przekazywanie pliku multimedialnego

Przekaż plik multimedialny na serwery AssemblyAI.

Parametry

Nazwa Klucz Wymagane Typ Opis
Zawartość pliku
file True binary

Plik do przekazania.

Zwraca

Transkrypcja dźwięku

Utwórz transkrypcję na podstawie pliku multimedialnego, który jest dostępny za pośrednictwem adresu URL.

Parametry

Nazwa Klucz Wymagane Typ Opis
Audio URL
audio_url True string

Adres URL pliku audio lub wideo do transkrypcji.

Kod języka
language_code string

Język pliku audio. Możliwe wartości znajdują się w obsługiwanych językach. Wartość domyślna to "en_us".

wykrywanie języka
language_detection boolean

Włącz automatyczne wykrywanie języka, prawda lub fałsz.

Model mowy
speech_model string

Model mowy używany do transkrypcji.

Znak interpunkcyjny
punctuate boolean

Włącz automatyczną interpunkcję, może mieć wartość true lub false

Formatuj tekst
format_text boolean

Włącz formatowanie tekstu, może mieć wartość true lub false

Dysfluencje
disfluencies boolean

Transkrypcja wyrazów wypełnienia, takich jak "um", w pliku multimedialnym; może mieć wartość true lub false

Dwukanałowa
dual_channel boolean

Włącz transkrypcję z podwójnym kanałem, może mieć wartość true lub false.

Webhook URL
webhook_url string

Adres URL, do którego wysyłamy żądania elementu webhook. Wysyłamy dwa różne typy żądań elementu webhook. Jedno żądanie po zakończeniu transkrypcji lub niepomyślnie, a jedno żądanie, gdy zredagowany dźwięk jest gotowy, jeśli redact_pii_audio jest włączona.

Nazwa nagłówka uwierzytelniania elementu webhook
webhook_auth_header_name string

Nazwa nagłówka do wysłania z ukończoną transkrypcją lub nieudanymi żądaniami elementu webhook

Wartość nagłówka uwierzytelniania elementu webhook
webhook_auth_header_value string

Wartość nagłówka do wysłania z powrotem z ukończoną transkrypcją lub nieudanymi żądaniami elementu webhook dla dodanych zabezpieczeń

Frazy kluczowe
auto_highlights boolean

Włącz frazy kluczowe, prawda lub fałsz

Początek dźwięku od
audio_start_from integer

Punkt w czasie , w milisekundach, aby rozpocząć transkrypcję w pliku multimedialnym

Dźwięk na końcu od
audio_end_at integer

Punkt w czasie w milisekundach, aby zatrzymać transkrypcję w pliku multimedialnym

Zwiększenie wyrazów
word_boost array of string

Lista niestandardowego słownictwa w celu zwiększenia prawdopodobieństwa transkrypcji dla

Poziom zwiększania wyrazów
boost_param string

Ile należy zwiększyć określone słowa

Filtrowanie wulgaryzmów
filter_profanity boolean

Filtrowanie wulgaryzmów z transkrypcji tekstu może być prawdziwe lub fałszywe

Redact PII
redact_pii boolean

Redact PII z transkrypcji tekstu przy użyciu modelu Redact PII, może mieć wartość true lub false

Redact PII Audio
redact_pii_audio boolean

Wygeneruj kopię oryginalnego pliku multimedialnego z mówionym identyfikatorem PII "beeped" out, może być prawda lub fałsz. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).

Redact PII Audio Quality
redact_pii_audio_quality string

Określa typ pliku dźwięku utworzonego przez redact_pii_audio. Obecnie obsługuje pliki mp3 (domyślne) i wav. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).

Redact PII Policies
redact_pii_policies array of string

Lista zasad redaction pii do włączenia. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).

Redact PII Substytucja
redact_pii_sub string

Logika zastępcza dla wykrytych danych pii może być "entity_name" lub "skrót". Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).

Etykiety osoby mówiącej
speaker_labels boolean

Włącz diaryzacja osoby mówiącej może mieć wartość true lub false

Oczekiwano prelegentów
speakers_expected integer

Informuje model etykiety osoby mówiącej o tylu głośnikach, które powinny podjąć próbę zidentyfikowania, do 10. Aby uzyskać więcej informacji, zobacz Diarization prelegenta.

Moderowanie zawartości
content_safety boolean

Włączanie moderowania zawartości może mieć wartość true lub false

Pewność moderowania zawartości
content_safety_confidence integer

Próg ufności dla modelu moderowania zawartości. Wartości muszą należeć do zakresu od 25 do 100.

wykrywanie tematów
iab_categories boolean

Włączanie wykrywania tematów może mieć wartość true lub false

Źródło
from True array of string

Wyrazy lub frazy do zastąpienia

Do
to True string

Wyraz lub fraza do zamiany na

analiza tonacji
sentiment_analysis boolean

Włącz analizę tonacji, może mieć wartość true lub false

Automatyczne rozdziały
auto_chapters boolean

Włącz automatyczne rozdziały, może mieć wartość true lub false

Wykrywanie jednostek
entity_detection boolean

Włączanie wykrywania jednostek może mieć wartość true lub false

Próg mowy
speech_threshold float

Odrzuć pliki audio, które zawierają mniej niż ten ułamek mowy. Prawidłowe wartości znajdują się w zakresie [0, 1] włącznie.

Włącz podsumowywanie
summarization boolean

Włącz podsumowywanie, może mieć wartość true lub false

Model podsumowania
summary_model string

Model podsumowujący transkrypcję

Typ podsumowania
summary_type string

Typ podsumowania

Włączanie tematów niestandardowych
custom_topics boolean

Włączanie tematów niestandardowych, prawda lub fałsz

Tematy niestandardowe
topics array of string

Lista tematów niestandardowych

Zwraca

Obiekt transkrypcji

Body
Transcript

Uruchamianie zadania przy użyciu rozwiązania LeMUR

Użyj punktu końcowego zadania LeMUR, aby wprowadzić własny monit LLM.

Parametry

Nazwa Klucz Wymagane Typ Opis
Podpowiedź
prompt True string

Tekst monitu o wygenerowanie przez model żądanych danych wyjściowych, w tym dowolnego kontekstu, który chcesz przekazać do modelu.

Identyfikatory transkrypcji
transcript_ids array of uuid

Lista ukończonych transkrypcji z tekstem. Maksymalnie 100 plików lub 100 godzin, w zależności od tego, która wartość jest niższa. Użyj transcript_ids lub input_text jako danych wejściowych w usłudze LeMUR.

Tekst wejściowy
input_text string

Niestandardowe sformatowane dane transkrypcji. Maksymalny rozmiar to limit kontekstu wybranego modelu, który domyślnie wynosi 100000. Użyj transcript_ids lub input_text jako danych wejściowych w usłudze LeMUR.

Context
context string

Kontekst umożliwiający podanie modelu. Może to być ciąg lub dowolna wartość JSON.

Ostateczny model
final_model string

Model, który jest używany do ostatniego monitu po wykonaniu kompresji.

Maksymalny rozmiar danych wyjściowych
max_output_size integer

Maksymalny rozmiar danych wyjściowych w tokenach, do 4000

Temperatura
temperature float

Temperatura do użycia dla modelu. Wyższe wartości powodują odpowiedzi, które są bardziej kreatywne, niższe wartości są bardziej konserwatywne. Może być dowolną wartością z zakresu od 0.0 do 1.0 włącznie.

Zwraca

Usuwanie transkrypcji

Usuń transkrypcję. Usunięcie nie powoduje usunięcia samego zasobu, ale usuwa dane z zasobu i oznacza je jako usunięte.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator transkrypcji
transcript_id True string

Identyfikator transkrypcji

Zwraca

Obiekt transkrypcji

Body
Transcript

Wyszukiwanie wyrazów w transkrypcji

Przeszukaj transkrypcję słów kluczowych. Możesz wyszukać pojedyncze wyrazy, liczby lub frazy zawierające maksymalnie pięć wyrazów lub liczb.

Parametry

Nazwa Klucz Wymagane Typ Opis
Identyfikator transkrypcji
transcript_id True string

Identyfikator transkrypcji

Słowa
words True array

Słowa kluczowe do wyszukania

Zwraca

Definicje

RedactedAudioResponse

Nazwa Ścieżka Typ Opis
Status
status string

Stan zredagowanego dźwięku

Redacted Audio URL
redacted_audio_url string

Adres URL zredagowanego pliku audio

WordSearchResponse

Nazwa Ścieżka Typ Opis
Identyfikator transkrypcji
id uuid

Identyfikator transkrypcji

Łączna liczba dopasowań
total_count integer

Łączna liczba wszystkich dopasowanych wystąpień. Na przykład wyraz 1 dopasowany 2 razy, a wyraz 2 dopasowany 3 razy, total_count będzie równa 5.

Dopasowania
matches array of object

Dopasowania wyszukiwania

Tekst
matches.text string

Dopasowany wyraz

Liczba
matches.count integer

Łączna liczba razy, w których wyraz znajduje się w transkrypcji

Sygnatury czasowe
matches.timestamps array of array

Tablica sygnatur czasowych

Sygnatura czasowa
matches.timestamps array of integer

Tablica sygnatur czasowych ze strukturą [start_time, end_time] w milisekundach

Indexes
matches.indexes array of integer

Tablica wszystkich lokalizacji indeksu dla tego wyrazu w tablicy wyrazów ukończonej transkrypcji

Transkrypcja

Obiekt transkrypcji

Nazwa Ścieżka Typ Opis
identyfikator
id uuid

Unikatowy identyfikator transkrypcji

Audio URL
audio_url string

Adres URL nośnika, który został transkrypcji

Status
status string

Stan transkrypcji. Możliwe wartości są kolejkowane, przetwarzane, ukończone lub błędy.

Kod języka
language_code string

Język pliku audio. Możliwe wartości znajdują się w obsługiwanych językach. Wartość domyślna to "en_us".

wykrywanie języka
language_detection boolean

Czy automatyczne wykrywanie języka jest włączone, prawda czy fałsz

Model mowy
speech_model string

Model mowy używany do transkrypcji.

Tekst
text string

Tekstowa transkrypcja pliku multimedialnego

Słowa
words array of object

Tablica czasowo sekwencyjnych obiektów wyrazów, po jednym dla każdego wyrazu w transkrypcji. Aby uzyskać więcej informacji, zobacz Rozpoznawanie mowy.

Pewność
words.confidence double
Start
words.start integer
Koniec
words.end integer
Tekst
words.text string
Głośnik
words.speaker string

Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

Wypowiedzi
utterances array of object

Po włączeniu dual_channel lub speaker_labels lista obiektów wypowiedzi turn-by-turn. Aby uzyskać więcej informacji, zobacz Diarization prelegenta.

Pewność
utterances.confidence double

Współczynnik ufności dla transkrypcji tej wypowiedzi

Start
utterances.start integer

Czas rozpoczęcia w milisekundach wypowiedzi w pliku audio

Koniec
utterances.end integer

Czas zakończenia w milisekundach wypowiedzi w pliku audio

Tekst
utterances.text string

Tekst tej wypowiedzi

Słowa
utterances.words array of object

Słowa w wypowiedzi.

Pewność
utterances.words.confidence double
Start
utterances.words.start integer
Koniec
utterances.words.end integer
Tekst
utterances.words.text string
Głośnik
utterances.words.speaker string

Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

Głośnik
utterances.speaker string

Prelegent tej wypowiedzi, gdzie każdy prelegent ma przypisaną sekwencyjną główną literę - np. "A" dla osoby mówiącej A, "B" dla osoby mówiącej B itp.

Pewność
confidence double

Wskaźnik ufności dla transkrypcji z zakresu od 0,0 (niska ufność) do 1,0 (wysoka pewność)

Czas trwania dźwięku
audio_duration integer

Czas trwania pliku multimedialnego tego obiektu transkrypcji w sekundach

Znak interpunkcyjny
punctuate boolean

Czy automatyczne interpunkcja jest włączona, prawda czy fałsz

Formatuj tekst
format_text boolean

Czy formatowanie tekstu jest włączone, prawda czy fałsz

Dysfluencje
disfluencies boolean

Transkrypcja wyrazów wypełnienia, takich jak "um", w pliku multimedialnym; może mieć wartość true lub false

Dwukanałowa
dual_channel boolean

Czy transkrypcja podwójnego kanału została włączona w żądaniu transkrypcji, prawda lub fałsz

Webhook URL
webhook_url string

Adres URL, do którego wysyłamy żądania elementu webhook. Wysyłamy dwa różne typy żądań elementu webhook. Jedno żądanie po zakończeniu transkrypcji lub niepomyślnie, a jedno żądanie, gdy zredagowany dźwięk jest gotowy, jeśli redact_pii_audio jest włączona.

Kod stanu HTTP elementu webhook
webhook_status_code integer

Kod stanu otrzymany z serwera podczas dostarczania ukończonego lub zakończonego żądania elementu webhook zakończonego lub zakończonego niepowodzeniem, jeśli podano adres URL elementu webhook

Włączone uwierzytelnianie elementu webhook
webhook_auth boolean

Czy podano szczegóły uwierzytelniania elementu webhook

Nazwa nagłówka uwierzytelniania elementu webhook
webhook_auth_header_name string

Nazwa nagłówka do wysłania z ukończoną transkrypcją lub nieudanymi żądaniami elementu webhook

Przyspieszenie
speed_boost boolean

Określa, czy włączono zwiększenie szybkości

Frazy kluczowe
auto_highlights boolean

Czy frazy kluczowe są włączone, prawda czy fałsz

Status
auto_highlights_result.status string

Powodzenie lub niedostępna w rzadkich przypadkach, w których model zakończył się niepowodzeniem

Results
auto_highlights_result.results array of object

Czasowa tablica sekwencyjnych fraz kluczowych

Liczba
auto_highlights_result.results.count integer

Łączna liczba wystąpień kluczowych fraz w pliku audio

Ranga
auto_highlights_result.results.rank float

Całkowita trafność dla ogólnego pliku audio tej kluczowej frazy — większa liczba oznacza bardziej istotne

Tekst
auto_highlights_result.results.text string

Sam tekst frazy kluczowej

Sygnatury czasowe
auto_highlights_result.results.timestamps array of object

Sygnatura czasowa frazy kluczowej

Start
auto_highlights_result.results.timestamps.start integer

Godzina rozpoczęcia w milisekundach

Koniec
auto_highlights_result.results.timestamps.end integer

Czas zakończenia w milisekundach

Początek dźwięku od
audio_start_from integer

Punkt w czasie, w milisekundach, w pliku, w którym rozpoczęto transkrypcję

Dźwięk na końcu od
audio_end_at integer

Punkt w czasie, w milisekundach, w pliku, w którym transkrypcja została zakończona

Zwiększenie wyrazów
word_boost array of string

Lista niestandardowego słownictwa w celu zwiększenia prawdopodobieństwa transkrypcji dla

Zwiększyć
boost_param string

Wartość parametru boost wyrazu

Filtrowanie wulgaryzmów
filter_profanity boolean

Czy filtrowanie wulgaryzmów jest włączone, prawda czy fałsz

Redact PII
redact_pii boolean

Czy funkcja redaction pii jest włączona, prawda czy fałsz

Redact PII Audio
redact_pii_audio boolean

Czy wygenerowano zredagowaną wersję pliku audio, prawda czy fałsz. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).

Redact PII Audio Quality
redact_pii_audio_quality string

Określa typ pliku dźwięku utworzonego przez redact_pii_audio. Obecnie obsługuje pliki mp3 (domyślne) i wav. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).

Redact PII Policies
redact_pii_policies array of string

Lista zasad redaction piI, które zostały włączone, jeśli funkcja redaction piI jest włączona. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).

Redact PII Substytucja
redact_pii_sub string

Logika zastępcza dla wykrytych danych pii może być "entity_name" lub "skrót". Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).

Etykiety osoby mówiącej
speaker_labels boolean

Czy diaryzacja osoby mówiącej jest włączona, może mieć wartość true lub false

Oczekiwano prelegentów
speakers_expected integer

Poinformuj model etykiety osoby mówiącej o tylu głośnikach, które powinny podjąć próbę zidentyfikowania, do 10. Aby uzyskać więcej informacji, zobacz Diarization prelegenta.

Moderowanie zawartości
content_safety boolean

Czy moderowanie zawartości jest włączone, może mieć wartość true lub false

Status
content_safety_labels.status string

Powodzenie lub niedostępna w rzadkich przypadkach, w których model zakończył się niepowodzeniem

Results
content_safety_labels.results array of object
Tekst
content_safety_labels.results.text string

Transkrypcja sekcji oflagowana przez model moderowania zawartości

Etykiety
content_safety_labels.results.labels array of object

Tablica etykiet bezpieczeństwa, jedna na temat poufny, który został wykryty w sekcji

Etykieta
content_safety_labels.results.labels.label string

Etykieta poufnego tematu

Pewność
content_safety_labels.results.labels.confidence double

Współczynnik ufności omawianego tematu z zakresu od 0 do 1

Severity
content_safety_labels.results.labels.severity double

Jak poważnie temat został omówiony w sekcji z zakresu od 0 do 1

Początek indeksu zdań
content_safety_labels.results.sentences_idx_start integer

Indeks zdań, w którym rozpoczyna się sekcja

Koniec indeksu zdań
content_safety_labels.results.sentences_idx_end integer

Indeks zdań, w którym kończy się sekcja

Start
content_safety_labels.results.timestamp.start integer

Godzina rozpoczęcia w milisekundach

Koniec
content_safety_labels.results.timestamp.end integer

Czas zakończenia w milisekundach

Podsumowanie
content_safety_labels.summary object

Podsumowanie wyników ufności moderowania zawartości dla całego pliku audio

Podsumowanie oceny ważności
content_safety_labels.severity_score_summary object

Podsumowanie wyników ważności moderowania zawartości dla całego pliku audio

wykrywanie tematów
iab_categories boolean

Czy wykrywanie tematów jest włączone, może mieć wartość true lub false

Status
iab_categories_result.status string

Powodzenie lub niedostępna w rzadkich przypadkach, w których model zakończył się niepowodzeniem

Results
iab_categories_result.results array of object

Tablica wyników dla modelu wykrywania tematów

Tekst
iab_categories_result.results.text string

Tekst w transkrypcji, w którym występuje wykryty temat

Etykiety
iab_categories_result.results.labels array of object
Znaczenie
iab_categories_result.results.labels.relevance double

Jak istotny jest wykryty temat

Etykieta
iab_categories_result.results.labels.label string

Etykieta taksonomiczna IAB dla etykiety wykrytego tematu, gdzie > określa relację supertopic/subtopic

Start
iab_categories_result.results.timestamp.start integer

Godzina rozpoczęcia w milisekundach

Koniec
iab_categories_result.results.timestamp.end integer

Czas zakończenia w milisekundach

Podsumowanie
iab_categories_result.summary object

Ogólne znaczenie tematu dla całego pliku audio

Niestandardowe pisownie
custom_spelling array of object

Dostosowywanie sposobu pisowni i formatowania wyrazów przy użyciu parametrów do i z wartości

Źródło
custom_spelling.from array of string

Wyrazy lub frazy do zastąpienia

Do
custom_spelling.to string

Wyraz lub fraza do zamiany na

Włączone automatyczne rozdziały
auto_chapters boolean

Czy automatyczne rozdziały są włączone, może mieć wartość true lub false

Rozdziałów
chapters array of object

Tablica czasowo sekwencyjnych rozdziałów dla pliku audio

Istota
chapters.gist string

Ultra-krótkie podsumowanie (zaledwie kilka słów) treści wypowiadanych w rozdziale

Nagłówek
chapters.headline string

Jedno zdanie podsumowania zawartości wypowiadanej w rozdziale

Podsumowanie
chapters.summary string

Jedno akapitowe podsumowanie zawartości wypowiadanej w rozdziale

Start
chapters.start integer

Czas rozpoczęcia w milisekundach dla rozdziału

Koniec
chapters.end integer

Czas rozpoczęcia w milisekundach dla rozdziału

Włączono podsumowywanie
summarization boolean

Czy funkcja podsumowania jest włączona, prawda czy fałsz

Typ podsumowania
summary_type string

Typ wygenerowanego podsumowania, jeśli jest włączona funkcja podsumowania

Model podsumowania
summary_model string

Model podsumowania używany do generowania podsumowania, jeśli jest włączona funkcja podsumowania

Podsumowanie
summary string

Wygenerowane podsumowanie pliku multimedialnego, jeśli jest włączone podsumowanie podsumowania

Tematy niestandardowe włączone
custom_topics boolean

Czy tematy niestandardowe są włączone, prawda czy fałsz

Tematy
topics array of string

Lista tematów niestandardowych udostępnianych, jeśli tematy niestandardowe są włączone

analiza tonacji
sentiment_analysis boolean

Niezależnie od tego, czy jest włączona analiza tonacji, może to być prawda czy fałsz

Wyniki analizy tonacji
sentiment_analysis_results array of object

Tablica wyników dla modelu Analizy tonacji, jeśli jest włączona. Aby uzyskać więcej informacji, zobacz Analiza tonacji.

Tekst
sentiment_analysis_results.text string

Transkrypcja zdania

Start
sentiment_analysis_results.start integer

Godzina początkowa w milisekundach zdania

Koniec
sentiment_analysis_results.end integer

Godzina zakończenia zdania w milisekundach

Opinia
sentiment_analysis_results.sentiment

Wykryto tonację zdania, jedną z dodatnich, neutralnych, ujemnych

Pewność
sentiment_analysis_results.confidence double

Wskaźnik ufności dla wykrytej tonacji zdania z zakresu od 0 do 1

Głośnik
sentiment_analysis_results.speaker string

Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

Wykrywanie jednostek
entity_detection boolean

Czy wykrywanie jednostek jest włączone, może mieć wartość true lub false

Entities
entities array of object

Tablica wyników dla modelu wykrywania jednostek, jeśli jest włączona. Aby uzyskać więcej informacji, zobacz Wykrywanie jednostek.

Typ jednostki
entities.entity_type string

Typ jednostki dla wykrytej jednostki

Tekst
entities.text string

Tekst wykrytej jednostki

Start
entities.start integer

Godzina początkowa w milisekundach, w której wykryta jednostka jest wyświetlana w pliku audio

Koniec
entities.end integer

Godzina zakończenia w milisekundach dla wykrytej jednostki w pliku audio

Próg mowy
speech_threshold float

Wartość domyślna to null. Odrzuć pliki audio, które zawierają mniej niż ten ułamek mowy. Prawidłowe wartości znajdują się w zakresie [0, 1] włącznie.

Przyhamowana
throttled boolean

Prawda, gdy żądanie jest ograniczane i fałsz, gdy żądanie nie jest już ograniczane

Error
error string

Komunikat o błędzie informujący o tym, dlaczego transkrypcja nie powiodła się

Model językowy
language_model string

Model językowy, który został użyty do transkrypcji

Model akustyczny
acoustic_model string

Model akustyczny używany do transkrypcji

ZdaniaResponse

Nazwa Ścieżka Typ Opis
Identyfikator transkrypcji
id uuid
Pewność
confidence double
Czas trwania dźwięku
audio_duration number
Zdań
sentences array of object
Tekst
sentences.text string
Start
sentences.start integer
Koniec
sentences.end integer
Pewność
sentences.confidence double
Słowa
sentences.words array of object
Pewność
sentences.words.confidence double
Start
sentences.words.start integer
Koniec
sentences.words.end integer
Tekst
sentences.words.text string
Głośnik
sentences.words.speaker string

Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

Głośnik
sentences.speaker string

Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

AkapityResponse

Nazwa Ścieżka Typ Opis
Identyfikator transkrypcji
id uuid
Pewność
confidence double
Czas trwania dźwięku
audio_duration number
Ustępy
paragraphs array of object
Tekst
paragraphs.text string
Start
paragraphs.start integer
Koniec
paragraphs.end integer
Pewność
paragraphs.confidence double
Słowa
paragraphs.words array of object
Pewność
paragraphs.words.confidence double
Start
paragraphs.words.start integer
Koniec
paragraphs.words.end integer
Tekst
paragraphs.words.text string
Głośnik
paragraphs.words.speaker string

Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

Głośnik
paragraphs.speaker string

Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

Lista transkrypcji

Lista transkrypcji. Transkrypcje są sortowane od najnowszych do najstarszych. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.

Nazwa Ścieżka Typ Opis
Ograniczenie
page_details.limit integer

Liczba wyników na tej stronie jest ograniczona do

Liczba wyników
page_details.result_count integer

Rzeczywista liczba wyników na stronie

Bieżący adres URL
page_details.current_url string

Adres URL używany do pobierania bieżącej strony transkrypcji

Poprzedni adres URL
page_details.prev_url string

Adres URL na następną stronę transkrypcji. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.

Następny adres URL
page_details.next_url string

Adres URL na następną stronę transkrypcji. Następny adres URL zawsze wskazuje stronę z nowszymi transkrypcjami.

Transcripts
transcripts array of object
identyfikator
transcripts.id uuid
Adres URL zasobu
transcripts.resource_url string
Status
transcripts.status string

Stan transkrypcji. Możliwe wartości są kolejkowane, przetwarzane, ukończone lub błędy.

Created
transcripts.created string
Zakończone
transcripts.completed string
Audio URL
transcripts.audio_url string
Error
transcripts.error string

Komunikat o błędzie informujący o tym, dlaczego transkrypcja nie powiodła się

Przekazany plik

Nazwa Ścieżka Typ Opis
Adres URL przekazanego pliku
upload_url string

Adres URL wskazujący plik audio dostępny tylko przez serwery AssemblyAI

PrzeczyśćLemurRequestDataResponse

Nazwa Ścieżka Typ Opis
Identyfikator żądania przeczyszczania
request_id uuid

Identyfikator żądania usunięcia żądania LeMUR

Identyfikator żądania LeMUR do przeczyszczenia
request_id_to_purge uuid

Identyfikator żądania LeMUR w celu przeczyszczenia danych dla

Usunięte
deleted boolean

Czy dane żądania zostały usunięte

LemurTaskResponse

Nazwa Ścieżka Typ Opis
Odpowiedź
response string

Odpowiedź wygenerowana przez firmę LeMUR.

Identyfikator żądania LeMUR
request_id uuid

Identyfikator żądania LeMUR

Tokeny wejściowe
usage.input_tokens integer

Liczba tokenów wejściowych używanych przez model

Tokeny wyjściowe
usage.output_tokens integer

Liczba tokenów wyjściowych wygenerowanych przez model

LemurResponse

Nazwa Ścieżka Typ Opis
Odpowiedź
response string

Odpowiedź wygenerowana przez firmę LeMUR.

Identyfikator żądania LeMUR
request_id uuid

Identyfikator żądania LeMUR

Tokeny wejściowe
usage.input_tokens integer

Liczba tokenów wejściowych używanych przez model

Tokeny wyjściowe
usage.output_tokens integer

Liczba tokenów wyjściowych wygenerowanych przez model

ciąg

Jest to podstawowy typ danych "string".