AssemblyAI (wersja zapoznawcza)

Transkrypcja i wyodrębnianie danych z dźwięku przy użyciu sztucznej inteligencji mowy assemblyAI.

Ten łącznik jest dostępny w następujących produktach i regionach:

Usługa	Class	Regions
Copilot Studio	Premium	Wszystkie regiony usługi Power Automate z wyjątkiem następujących: - Rząd USA (GCC) - Rząd USA (GCC High) - China Cloud obsługiwane przez firmę 21Vianet - Departament Obrony USA (DoD)
Logic Apps	Standard	Wszystkie regiony usługi Logic Apps z wyjątkiem następujących: — Regiony platformy Azure Government — Regiony platformy Azure (Chiny) - Departament Obrony USA (DoD)
Power Apps	Premium	Wszystkie regiony usługi Power Apps z wyjątkiem następujących: - Rząd USA (GCC) - Rząd USA (GCC High) - China Cloud obsługiwane przez firmę 21Vianet - Departament Obrony USA (DoD)
Power Automate	Premium	Wszystkie regiony usługi Power Automate z wyjątkiem następujących: - Rząd USA (GCC) - Rząd USA (GCC High) - China Cloud obsługiwane przez firmę 21Vianet - Departament Obrony USA (DoD)

Kontakt
Name	Support
adres URL	https://www.assemblyai.com/docs/
Email	support@assemblyai.com

Metadane łącznika
Publisher	AssemblyAI
Witryna internetowa	https://www.assemblyai.com
Zasady ochrony prywatności	https://www.assemblyai.com/legal/privacy-policy
Kategorie	AI

Za pomocą łącznika AssemblyAI można używać modeli AssemblyAI do przetwarzania danych audio przez transkrypcję ich za pomocą modeli rozpoznawania mowy, analizowanie ich za pomocą modeli analizy audio i tworzenie funkcji generowania na ich podstawie za pomocą funkcji LLMs.

Zamiana mowy na tekst obejmująca wiele konfigurowalnych funkcji, takich jak diaryzacja osoby mówiącej, pisownia niestandardowa, słownictwo niestandardowe itp.
Modele analizy audio to dodatkowe modele sztucznej inteligencji dostępne i konfigurowane za pośrednictwem konfiguracji transkrypcji.
Firma LeMUR umożliwia stosowanie różnych modeli LLM do transkrypcji bez konieczności tworzenia własnej infrastruktury RAG na potrzeby bardzo dużych transkrypcji.

Wymagania wstępne

Aby kontynuować, musisz wykonać następujące czynności:

Klucz interfejsu API assemblyAI (pobierz go bezpłatnie)

Jak uzyskać poświadczenia

Klucz interfejsu API assemblyAI można uzyskać bezpłatnie, tworząc konto i kopiując klucz interfejsu API z pulpitu nawigacyjnego.

Wprowadzenie do łącznika

Wykonaj następujące kroki, aby transkrybować dźwięk przy użyciu łącznika AssemblyAI.

Przekazywanie pliku

Aby transkrypcja pliku audio przy użyciu interfejsu AssemblyAI, plik musi być dostępny dla interfejsu AssemblyAI. Jeśli plik audio jest już dostępny za pośrednictwem adresu URL, możesz użyć istniejącego adresu URL.

W przeciwnym razie możesz użyć Upload a File akcji , aby przekazać plik do assemblyAI. Otrzymasz adres URL pliku, którego można użyć tylko do transkrypcji przy użyciu klucza interfejsu API. Po transkrypcji pliku plik zostanie usunięty z serwerów assemblyAI.

Transkrypcja dźwięku

Aby transkrybować dźwięk, skonfiguruj Audio URL parametr przy użyciu adresu URL pliku audio. Następnie skonfiguruj dodatkowe parametry, aby włączyć więcej funkcji rozpoznawania mowy i modeli analizy audio .

Wynikiem akcji Transkrypcja audio jest transkrypcja w kolejce, która rozpocznie przetwarzanie natychmiast. Aby uzyskać ukończoną transkrypcję, dostępne są dwie opcje:

Obsługa gotowego elementu webhook transkrypcji
Sonduj stan transkrypcji

Obsługa gotowego elementu webhook transkrypcji

Jeśli nie chcesz obsługiwać elementu webhook przy użyciu usługi Logic Apps lub Power Automate, skonfiguruj parametr w Transcribe Audio akcji i zaimplementuj Webhook URL element webhook zgodnie z dokumentacją elementu webhook zestawu AI.

Aby obsłużyć element webhook przy użyciu usługi Logic Apps lub Power Automate, wykonaj następujące kroki:

Tworzenie oddzielnej aplikacji logiki lub usługi Power Automate Flow
Skonfiguruj When an HTTP request is received jako wyzwalacz:
- Ustaw element Who Can Trigger The Flow? na wartość Anyone
- Ustaw Request Body JSON Schema na:
```
{
  "type": "object",
  "properties": {
    "transcript_id": {
      "type": "string"
    },
    "status": {
      "type": "string"
    }
  }
}
```
- Ustaw element Method na wartość POST
Dodaj akcję AssemblyAI Get Transcript , przekazując transcript_id element z wyzwalacza do parametru Transcript ID .
Przed wykonaniem czegokolwiek innego należy sprawdzić, czy element Status ma wartość completed , czy error. Dodaj akcję sprawdzającą Condition , czy element Status z danych wyjściowych Get Transcript to error:
- True W gałęzi dodaj Terminate akcję
  - Ustaw wartość na StatusFailed
  - Ustaw wartość na CodeTranscript Error
  - Przekaż element Error z danych wyjściowych Get Transcript do parametru Message .
- Możesz pozostawić gałąź pustą False .
Teraz możesz dodać dowolną akcję po Condition tym, jak wiadomo, że stan transkrypcji to completed, i możesz pobrać dowolne właściwości Get Transcript wyjściowe akcji.
Zapisz aplikację logiki lub przepływ. Zostanie HTTP URL wygenerowany dla When an HTTP request is received wyzwalacza. Skopiuj i HTTP URL wróć do oryginalnej aplikacji logiki lub usługi Flow.
W oryginalnej aplikacji logiki lub usłudze Flow zaktualizuj Transcribe Audio akcję. HTTP URL Wklej skopiowane wcześniej polecenie do parametru Webhook URL i zapisz.

Gdy stan transkrypcji stanie się completed lub error, usługa AssemblyAI wyśle żądanie HTTP POST do adresu URL elementu webhook, który będzie obsługiwany przez inną aplikację logiki lub przepływ.

Alternatywą dla używania elementu webhook możesz sondować stan transkrypcji zgodnie z opisem w następnej sekcji.

Sonduj stan transkrypcji

Stan transkrypcji można sondować, wykonując następujące kroki:

Initialize variable Dodawanie akcji
- Ustaw element Name na wartość transcript_status
- Ustaw element Type na wartość String
- Zapisz element Status z danych wyjściowych Transcribe Audio w parametrze Value
Do until Dodawanie akcji
- Skonfiguruj parametr przy Loop Until użyciu następującego kodu Fx:
```
or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
```
  Ten kod sprawdza, czy zmienna transcript_status ma completed wartość , czy error.
- Konfigurowanie parametru na Count86400
- Konfigurowanie parametru na TimeoutPT24H
Do until Wewnątrz akcji dodaj następujące akcje:
- Delay Dodawanie akcji, która czeka na jedną sekundę
- Get Transcript Dodaj akcję i przekaż element ID z danych wyjściowych Transcribe Audio do parametru Transcript ID .
- Set variable Dodawanie akcji
  - Ustaw element Name na wartość transcript_status
  - Status Przekazywanie danych wyjściowych Get Transcript do parametru Value
Pętla będzie kontynuowana Do until do momentu zakończenia transkrypcji lub wystąpienia błędu.
Dodaj kolejną Get Transcript akcję, tak jak poprzednio, ale dodaj ją po Do until pętli, aby jej dane wyjściowe stały się dostępne poza zakresem Do until akcji.

Przed wykonaniem czegokolwiek innego należy sprawdzić, czy transkrypcja Status jest completed czy error. Dodaj akcję sprawdzającą Condition , czy element transcript_status ma wartość error:

True W gałęzi dodaj Terminate akcję
- Ustaw element Status na wartość Failed
- Ustaw element Code na wartość Transcript Error
- Przekaż element Error z danych wyjściowych Get Transcript do parametru Message .
Możesz pozostawić gałąź pustą False .

Teraz możesz dodać dowolną akcję po Condition tym, jak wiadomo, że stan transkrypcji to completed, i możesz pobrać dowolne właściwości Get Transcript wyjściowe akcji.

Dodawanie kolejnych akcji

Teraz, gdy masz ukończoną transkrypcję, możesz użyć wielu innych akcji przekazujących ID transkrypcję, takich jak

Get Sentences of Transcript
Get Paragraphs of Transcript
Get Subtitles of Transcript
Get Redacted Audio
Search Transcript for Words
Run a Task using LeMUR

Znane problemy i ograniczenia

Obecnie nie ma znanych problemów. Nie obsługujemy przesyłania strumieniowego mowy —To-Text (w czasie rzeczywistym), ponieważ nie jest to możliwe przy użyciu łączników niestandardowych.

Typowe błędy i środki zaradcze

Więcej informacji o błędach można znaleźć w dokumentacji assemblyAI.

Często zadawane pytania

Często zadawane pytania można znaleźć w naszej dokumentacji.

Tworzenie połączenia

Łącznik obsługuje następujące typy uwierzytelniania:


Wartość domyślna	Parametry tworzenia połączenia.	Wszystkie regiony	Nie można udostępniać

Domyślny

Dotyczy: wszystkie regiony

Parametry tworzenia połączenia.

Nie jest to możliwe do udostępnienia połączenie. Jeśli aplikacja power zostanie udostępniona innemu użytkownikowi, zostanie wyświetlony monit o jawne utworzenie nowego połączenia.

Name	Typ	Description	Wymagane
Klucz interfejsu API assemblyAI	securestring	Klucz interfejsu API assemblyAI do uwierzytelniania interfejsu API AssemblyAI.	Prawda

Limity ograniczania

Nazwa	Wywołania	Okres odnowienia
Wywołania interfejsu API na połączenie	100	60 sekund

Akcje

Lista transkrypcji	Pobierz listę utworzonych transkrypcji. Transkrypcje są sortowane od najnowszych do najstarszych. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.
Pobieranie akapitów w transkrypcji	Pobierz transkrypcję podzieloną według akapitów. Interfejs API spróbuje semantycznie podzielić transkrypcję na akapity, aby utworzyć bardziej przyjazne dla czytelnika transkrypcje.
Pobieranie napisów na potrzeby transkrypcji	Wyeksportuj transkrypcję w formacie SRT lub VTT do użycia z odtwarzaczem wideo dla napisów i napisów.
Pobieranie odpowiedzi LeMUR	Pobierz odpowiedź LeMUR, która została wcześniej wygenerowana.
Pobieranie transkrypcji	Pobierz zasób transkrypcji. Transkrypcja jest gotowa po zakończeniu "statusu".
Pobieranie zdań w transkrypcji	Pobierz transkrypcję podzieloną według zdań. Interfejs API spróbuje semantycznie podzielić transkrypcję na zdania, aby utworzyć bardziej przyjazne dla czytelnika transkrypcje.
Pobieranie zredagowanego dźwięku	Pobierz zredagowany obiekt audio zawierający stan i adres URL do zredagowanego dźwięku.
Przeczyszczanie danych żądania LeMUR	Usuń dane dla wcześniej przesłanego żądania LeMUR. Dane odpowiedzi LLM, a także kontekst podany w oryginalnym żądaniu zostaną usunięte.
Przekazywanie pliku multimedialnego	Przekaż plik multimedialny na serwery AssemblyAI.
Transkrypcja dźwięku	Utwórz transkrypcję na podstawie pliku multimedialnego, który jest dostępny za pośrednictwem adresu URL.
Uruchamianie zadania przy użyciu rozwiązania LeMUR	Użyj punktu końcowego zadania LeMUR, aby wprowadzić własny monit LLM.
Usuwanie transkrypcji	Usuń transkrypcję. Usunięcie nie powoduje usunięcia samego zasobu, ale usuwa dane z zasobu i oznacza je jako usunięte.
Wyszukiwanie wyrazów w transkrypcji	Przeszukaj transkrypcję słów kluczowych. Możesz wyszukać pojedyncze wyrazy, liczby lub frazy zawierające maksymalnie pięć wyrazów lub liczb.

Lista transkrypcji

Identyfikator operacji:: ListTranscripts

Pobierz listę utworzonych transkrypcji. Transkrypcje są sortowane od najnowszych do najstarszych. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.

Parametry

Nazwa	Klucz	Typ	Opis
Ograniczenie	limit	integer	Maksymalna liczba transkrypcji do pobrania
Status	status	string	Stan transkrypcji. Możliwe wartości są kolejkowane, przetwarzane, ukończone lub błędy.
Utworzono	created_on	date	Pobieranie tylko transkrypcji utworzonych w tej dacie
Przed identyfikatorem	before_id	uuid	Pobieranie transkrypcji utworzonych przed tym identyfikatorem transkrypcji
Po identyfikatorze	after_id	uuid	Pobieranie transkrypcji utworzonych po tym identyfikatorze transkrypcji
Tylko ograniczone	throttled_only	boolean	Tylko uzyskać ograniczone transkrypcje, przesłania filtr stanu

Zwraca

Lista transkrypcji. Transkrypcje są sortowane od najnowszych do najstarszych. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.

Body: TranscriptList

Pobieranie akapitów w transkrypcji

Identyfikator operacji:: GetTranscriptParagraphs

Pobierz transkrypcję podzieloną według akapitów. Interfejs API spróbuje semantycznie podzielić transkrypcję na akapity, aby utworzyć bardziej przyjazne dla czytelnika transkrypcje.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator transkrypcji	transcript_id	True	string	Identyfikator transkrypcji

Zwraca

Body: ParagraphsResponse

Pobieranie napisów na potrzeby transkrypcji

Identyfikator operacji:: GetSubtitles

Wyeksportuj transkrypcję w formacie SRT lub VTT do użycia z odtwarzaczem wideo dla napisów i napisów.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator transkrypcji	transcript_id	True	string	Identyfikator transkrypcji
Format podtytułu	subtitle_format	True	string	Format napisów
Liczba znaków na podpis	chars_per_caption		integer	Maksymalna liczba znaków na podpis

Zwraca

response: string

Pobieranie odpowiedzi LeMUR

Identyfikator operacji:: GetLemurResponse

Pobierz odpowiedź LeMUR, która została wcześniej wygenerowana.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator żądania LeMUR	request_id	True	string	Identyfikator wcześniej wykonanego żądania LeMUR. Zostanie to znalezione w odpowiedzi na oryginalne żądanie.

Zwraca

Body: LemurResponse

Pobieranie transkrypcji

Identyfikator operacji:: GetTranscript

Pobierz zasób transkrypcji. Transkrypcja jest gotowa po zakończeniu "statusu".

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator transkrypcji	transcript_id	True	string	Identyfikator transkrypcji

Zwraca

Obiekt transkrypcji

Body: Transcript

Pobieranie zdań w transkrypcji

Identyfikator operacji:: GetTranscriptSentences

Pobierz transkrypcję podzieloną według zdań. Interfejs API spróbuje semantycznie podzielić transkrypcję na zdania, aby utworzyć bardziej przyjazne dla czytelnika transkrypcje.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator transkrypcji	transcript_id	True	string	Identyfikator transkrypcji

Zwraca

Body: SentencesResponse

Pobieranie zredagowanego dźwięku

Identyfikator operacji:: GetRedactedAudio

Pobierz zredagowany obiekt audio zawierający stan i adres URL do zredagowanego dźwięku.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator transkrypcji	transcript_id	True	string	Identyfikator transkrypcji

Zwraca

Body: RedactedAudioResponse

Przeczyszczanie danych żądania LeMUR

Identyfikator operacji:: PurgeLemurRequestData

Usuń dane dla wcześniej przesłanego żądania LeMUR. Dane odpowiedzi LLM, a także kontekst podany w oryginalnym żądaniu zostaną usunięte.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator żądania LeMUR	request_id	True	string	Identyfikator żądania LeMUR, którego dane chcesz usunąć. Zostanie to znalezione w odpowiedzi na oryginalne żądanie.

Zwraca

Body: PurgeLemurRequestDataResponse

Przekazywanie pliku multimedialnego

Identyfikator operacji:: UploadFile

Przekaż plik multimedialny na serwery AssemblyAI.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Zawartość pliku	file	True	binary	Plik do przekazania.

Zwraca

Body: UploadedFile

Transkrypcja dźwięku

Identyfikator operacji:: CreateTranscript

Utwórz transkrypcję na podstawie pliku multimedialnego, który jest dostępny za pośrednictwem adresu URL.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Audio URL	audio_url	True	string	Adres URL pliku audio lub wideo do transkrypcji.
Kod języka	language_code		string	Język pliku audio. Możliwe wartości znajdują się w obsługiwanych językach. Wartość domyślna to "en_us".
wykrywanie języka	language_detection		boolean	Włącz automatyczne wykrywanie języka, prawda lub fałsz.
Model mowy	speech_model		string	Model mowy używany do transkrypcji.
Znak interpunkcyjny	punctuate		boolean	Włącz automatyczną interpunkcję, może mieć wartość true lub false
Formatuj tekst	format_text		boolean	Włącz formatowanie tekstu, może mieć wartość true lub false
Dysfluencje	disfluencies		boolean	Transkrypcja wyrazów wypełnienia, takich jak "um", w pliku multimedialnym; może mieć wartość true lub false
Dwukanałowa	dual_channel		boolean	Włącz transkrypcję z podwójnym kanałem, może mieć wartość true lub false.
Webhook URL	webhook_url		string	Adres URL, do którego wysyłamy żądania elementu webhook. Wysyłamy dwa różne typy żądań elementu webhook. Jedno żądanie po zakończeniu transkrypcji lub niepomyślnie, a jedno żądanie, gdy zredagowany dźwięk jest gotowy, jeśli redact_pii_audio jest włączona.
Nazwa nagłówka uwierzytelniania elementu webhook	webhook_auth_header_name		string	Nazwa nagłówka do wysłania z ukończoną transkrypcją lub nieudanymi żądaniami elementu webhook
Wartość nagłówka uwierzytelniania elementu webhook	webhook_auth_header_value		string	Wartość nagłówka do wysłania z powrotem z ukończoną transkrypcją lub nieudanymi żądaniami elementu webhook dla dodanych zabezpieczeń
Frazy kluczowe	auto_highlights		boolean	Włącz frazy kluczowe, prawda lub fałsz
Początek dźwięku od	audio_start_from		integer	Punkt w czasie , w milisekundach, aby rozpocząć transkrypcję w pliku multimedialnym
Dźwięk na końcu od	audio_end_at		integer	Punkt w czasie w milisekundach, aby zatrzymać transkrypcję w pliku multimedialnym
Zwiększenie wyrazów	word_boost		array of string	Lista niestandardowego słownictwa w celu zwiększenia prawdopodobieństwa transkrypcji dla
Poziom zwiększania wyrazów	boost_param		string	Ile należy zwiększyć określone słowa
Filtrowanie wulgaryzmów	filter_profanity		boolean	Filtrowanie wulgaryzmów z transkrypcji tekstu może być prawdziwe lub fałszywe
Redact PII	redact_pii		boolean	Redact PII z transkrypcji tekstu przy użyciu modelu Redact PII, może mieć wartość true lub false
Redact PII Audio	redact_pii_audio		boolean	Wygeneruj kopię oryginalnego pliku multimedialnego z mówionym identyfikatorem PII "beeped" out, może być prawda lub fałsz. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).
Redact PII Audio Quality	redact_pii_audio_quality		string	Określa typ pliku dźwięku utworzonego przez redact_pii_audio. Obecnie obsługuje pliki mp3 (domyślne) i wav. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).
Redact PII Policies	redact_pii_policies		array of string	Lista zasad redaction pii do włączenia. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).
Redact PII Substytucja	redact_pii_sub		string	Logika zastępcza dla wykrytych danych pii może być "entity_name" lub "skrót". Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).
Etykiety osoby mówiącej	speaker_labels		boolean	Włącz diaryzacja osoby mówiącej może mieć wartość true lub false
Oczekiwano prelegentów	speakers_expected		integer	Informuje model etykiety osoby mówiącej o tylu głośnikach, które powinny podjąć próbę zidentyfikowania, do 10. Aby uzyskać więcej informacji, zobacz Diarization prelegenta.
Moderowanie zawartości	content_safety		boolean	Włączanie moderowania zawartości może mieć wartość true lub false
Pewność moderowania zawartości	content_safety_confidence		integer	Próg ufności dla modelu moderowania zawartości. Wartości muszą należeć do zakresu od 25 do 100.
wykrywanie tematów	iab_categories		boolean	Włączanie wykrywania tematów może mieć wartość true lub false
Źródło	from	True	array of string	Wyrazy lub frazy do zastąpienia
Do	to	True	string	Wyraz lub fraza do zamiany na
analiza tonacji	sentiment_analysis		boolean	Włącz analizę tonacji, może mieć wartość true lub false
Automatyczne rozdziały	auto_chapters		boolean	Włącz automatyczne rozdziały, może mieć wartość true lub false
Wykrywanie jednostek	entity_detection		boolean	Włączanie wykrywania jednostek może mieć wartość true lub false
Próg mowy	speech_threshold		float	Odrzuć pliki audio, które zawierają mniej niż ten ułamek mowy. Prawidłowe wartości znajdują się w zakresie [0, 1] włącznie.
Włącz podsumowywanie	summarization		boolean	Włącz podsumowywanie, może mieć wartość true lub false
Model podsumowania	summary_model		string	Model podsumowujący transkrypcję
Typ podsumowania	summary_type		string	Typ podsumowania
Włączanie tematów niestandardowych	custom_topics		boolean	Włączanie tematów niestandardowych, prawda lub fałsz
Tematy niestandardowe	topics		array of string	Lista tematów niestandardowych

Zwraca

Obiekt transkrypcji

Body: Transcript

Uruchamianie zadania przy użyciu rozwiązania LeMUR

Identyfikator operacji:: LemurTask

Użyj punktu końcowego zadania LeMUR, aby wprowadzić własny monit LLM.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Podpowiedź	prompt	True	string	Tekst monitu o wygenerowanie przez model żądanych danych wyjściowych, w tym dowolnego kontekstu, który chcesz przekazać do modelu.
Identyfikatory transkrypcji	transcript_ids		array of uuid	Lista ukończonych transkrypcji z tekstem. Maksymalnie 100 plików lub 100 godzin, w zależności od tego, która wartość jest niższa. Użyj transcript_ids lub input_text jako danych wejściowych w usłudze LeMUR.
Tekst wejściowy	input_text		string	Niestandardowe sformatowane dane transkrypcji. Maksymalny rozmiar to limit kontekstu wybranego modelu, który domyślnie wynosi 100000. Użyj transcript_ids lub input_text jako danych wejściowych w usłudze LeMUR.
Context	context		string	Kontekst umożliwiający podanie modelu. Może to być ciąg lub dowolna wartość JSON.
Ostateczny model	final_model		string	Model, który jest używany do ostatniego monitu po wykonaniu kompresji.
Maksymalny rozmiar danych wyjściowych	max_output_size		integer	Maksymalny rozmiar danych wyjściowych w tokenach, do 4000
Temperatura	temperature		float	Temperatura do użycia dla modelu. Wyższe wartości powodują odpowiedzi, które są bardziej kreatywne, niższe wartości są bardziej konserwatywne. Może być dowolną wartością z zakresu od 0.0 do 1.0 włącznie.

Zwraca

Body: LemurTaskResponse

Usuwanie transkrypcji

Identyfikator operacji:: DeleteTranscript

Usuń transkrypcję. Usunięcie nie powoduje usunięcia samego zasobu, ale usuwa dane z zasobu i oznacza je jako usunięte.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator transkrypcji	transcript_id	True	string	Identyfikator transkrypcji

Zwraca

Obiekt transkrypcji

Body: Transcript

Wyszukiwanie wyrazów w transkrypcji

Identyfikator operacji:: WordSearch

Przeszukaj transkrypcję słów kluczowych. Możesz wyszukać pojedyncze wyrazy, liczby lub frazy zawierające maksymalnie pięć wyrazów lub liczb.

Parametry

Nazwa	Klucz	Wymagane	Typ	Opis
Identyfikator transkrypcji	transcript_id	True	string	Identyfikator transkrypcji
Słowa	words	True	array	Słowa kluczowe do wyszukania

Zwraca

Body: WordSearchResponse

Definicje

RedactedAudioResponse

Nazwa	Ścieżka	Typ	Opis
Status	status	string	Stan zredagowanego dźwięku
Redacted Audio URL	redacted_audio_url	string	Adres URL zredagowanego pliku audio

WordSearchResponse

Nazwa	Ścieżka	Typ	Opis
Identyfikator transkrypcji	id	uuid	Identyfikator transkrypcji
Łączna liczba dopasowań	total_count	integer	Łączna liczba wszystkich dopasowanych wystąpień. Na przykład wyraz 1 dopasowany 2 razy, a wyraz 2 dopasowany 3 razy, total_count będzie równa 5.
Dopasowania	matches	array of object	Dopasowania wyszukiwania
Tekst	matches.text	string	Dopasowany wyraz
Liczba	matches.count	integer	Łączna liczba razy, w których wyraz znajduje się w transkrypcji
Sygnatury czasowe	matches.timestamps	array of array	Tablica sygnatur czasowych
Sygnatura czasowa	matches.timestamps	array of integer	Tablica sygnatur czasowych ze strukturą [start_time, end_time] w milisekundach
Indexes	matches.indexes	array of integer	Tablica wszystkich lokalizacji indeksu dla tego wyrazu w tablicy wyrazów ukończonej transkrypcji

Transkrypcja

Obiekt transkrypcji

Nazwa	Ścieżka	Typ	Opis
identyfikator	id	uuid	Unikatowy identyfikator transkrypcji
Audio URL	audio_url	string	Adres URL nośnika, który został transkrypcji
Status	status	string	Stan transkrypcji. Możliwe wartości są kolejkowane, przetwarzane, ukończone lub błędy.
Kod języka	language_code	string	Język pliku audio. Możliwe wartości znajdują się w obsługiwanych językach. Wartość domyślna to "en_us".
wykrywanie języka	language_detection	boolean	Czy automatyczne wykrywanie języka jest włączone, prawda czy fałsz
Model mowy	speech_model	string	Model mowy używany do transkrypcji.
Tekst	text	string	Tekstowa transkrypcja pliku multimedialnego
Słowa	words	array of object	Tablica czasowo sekwencyjnych obiektów wyrazów, po jednym dla każdego wyrazu w transkrypcji. Aby uzyskać więcej informacji, zobacz Rozpoznawanie mowy.
Pewność	words.confidence	double
Start	words.start	integer
Koniec	words.end	integer
Tekst	words.text	string
Głośnik	words.speaker	string	Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null
Wypowiedzi	utterances	array of object	Po włączeniu dual_channel lub speaker_labels lista obiektów wypowiedzi turn-by-turn. Aby uzyskać więcej informacji, zobacz Diarization prelegenta.
Pewność	utterances.confidence	double	Współczynnik ufności dla transkrypcji tej wypowiedzi
Start	utterances.start	integer	Czas rozpoczęcia w milisekundach wypowiedzi w pliku audio
Koniec	utterances.end	integer	Czas zakończenia w milisekundach wypowiedzi w pliku audio
Tekst	utterances.text	string	Tekst tej wypowiedzi
Słowa	utterances.words	array of object	Słowa w wypowiedzi.
Pewność	utterances.words.confidence	double
Start	utterances.words.start	integer
Koniec	utterances.words.end	integer
Tekst	utterances.words.text	string
Głośnik	utterances.words.speaker	string	Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null
Głośnik	utterances.speaker	string	Prelegent tej wypowiedzi, gdzie każdy prelegent ma przypisaną sekwencyjną główną literę - np. "A" dla osoby mówiącej A, "B" dla osoby mówiącej B itp.
Pewność	confidence	double	Wskaźnik ufności dla transkrypcji z zakresu od 0,0 (niska ufność) do 1,0 (wysoka pewność)
Czas trwania dźwięku	audio_duration	integer	Czas trwania pliku multimedialnego tego obiektu transkrypcji w sekundach
Znak interpunkcyjny	punctuate	boolean	Czy automatyczne interpunkcja jest włączona, prawda czy fałsz
Formatuj tekst	format_text	boolean	Czy formatowanie tekstu jest włączone, prawda czy fałsz
Dysfluencje	disfluencies	boolean	Transkrypcja wyrazów wypełnienia, takich jak "um", w pliku multimedialnym; może mieć wartość true lub false
Dwukanałowa	dual_channel	boolean	Czy transkrypcja podwójnego kanału została włączona w żądaniu transkrypcji, prawda lub fałsz
Webhook URL	webhook_url	string	Adres URL, do którego wysyłamy żądania elementu webhook. Wysyłamy dwa różne typy żądań elementu webhook. Jedno żądanie po zakończeniu transkrypcji lub niepomyślnie, a jedno żądanie, gdy zredagowany dźwięk jest gotowy, jeśli redact_pii_audio jest włączona.
Kod stanu HTTP elementu webhook	webhook_status_code	integer	Kod stanu otrzymany z serwera podczas dostarczania ukończonego lub zakończonego żądania elementu webhook zakończonego lub zakończonego niepowodzeniem, jeśli podano adres URL elementu webhook
Włączone uwierzytelnianie elementu webhook	webhook_auth	boolean	Czy podano szczegóły uwierzytelniania elementu webhook
Nazwa nagłówka uwierzytelniania elementu webhook	webhook_auth_header_name	string	Nazwa nagłówka do wysłania z ukończoną transkrypcją lub nieudanymi żądaniami elementu webhook
Przyspieszenie	speed_boost	boolean	Określa, czy włączono zwiększenie szybkości
Frazy kluczowe	auto_highlights	boolean	Czy frazy kluczowe są włączone, prawda czy fałsz
Status	auto_highlights_result.status	string	Powodzenie lub niedostępna w rzadkich przypadkach, w których model zakończył się niepowodzeniem
Results	auto_highlights_result.results	array of object	Czasowa tablica sekwencyjnych fraz kluczowych
Liczba	auto_highlights_result.results.count	integer	Łączna liczba wystąpień kluczowych fraz w pliku audio
Ranga	auto_highlights_result.results.rank	float	Całkowita trafność dla ogólnego pliku audio tej kluczowej frazy — większa liczba oznacza bardziej istotne
Tekst	auto_highlights_result.results.text	string	Sam tekst frazy kluczowej
Sygnatury czasowe	auto_highlights_result.results.timestamps	array of object	Sygnatura czasowa frazy kluczowej
Start	auto_highlights_result.results.timestamps.start	integer	Godzina rozpoczęcia w milisekundach
Koniec	auto_highlights_result.results.timestamps.end	integer	Czas zakończenia w milisekundach
Początek dźwięku od	audio_start_from	integer	Punkt w czasie, w milisekundach, w pliku, w którym rozpoczęto transkrypcję
Dźwięk na końcu od	audio_end_at	integer	Punkt w czasie, w milisekundach, w pliku, w którym transkrypcja została zakończona
Zwiększenie wyrazów	word_boost	array of string	Lista niestandardowego słownictwa w celu zwiększenia prawdopodobieństwa transkrypcji dla
Zwiększyć	boost_param	string	Wartość parametru boost wyrazu
Filtrowanie wulgaryzmów	filter_profanity	boolean	Czy filtrowanie wulgaryzmów jest włączone, prawda czy fałsz
Redact PII	redact_pii	boolean	Czy funkcja redaction pii jest włączona, prawda czy fałsz
Redact PII Audio	redact_pii_audio	boolean	Czy wygenerowano zredagowaną wersję pliku audio, prawda czy fałsz. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).
Redact PII Audio Quality	redact_pii_audio_quality	string	Określa typ pliku dźwięku utworzonego przez redact_pii_audio. Obecnie obsługuje pliki mp3 (domyślne) i wav. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).
Redact PII Policies	redact_pii_policies	array of string	Lista zasad redaction piI, które zostały włączone, jeśli funkcja redaction piI jest włączona. Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).
Redact PII Substytucja	redact_pii_sub	string	Logika zastępcza dla wykrytych danych pii może być "entity_name" lub "skrót". Aby uzyskać więcej informacji, zobacz Redaction (Ponowne wdrażanie danych osobowych).
Etykiety osoby mówiącej	speaker_labels	boolean	Czy diaryzacja osoby mówiącej jest włączona, może mieć wartość true lub false
Oczekiwano prelegentów	speakers_expected	integer	Poinformuj model etykiety osoby mówiącej o tylu głośnikach, które powinny podjąć próbę zidentyfikowania, do 10. Aby uzyskać więcej informacji, zobacz Diarization prelegenta.
Moderowanie zawartości	content_safety	boolean	Czy moderowanie zawartości jest włączone, może mieć wartość true lub false
Status	content_safety_labels.status	string	Powodzenie lub niedostępna w rzadkich przypadkach, w których model zakończył się niepowodzeniem
Results	content_safety_labels.results	array of object
Tekst	content_safety_labels.results.text	string	Transkrypcja sekcji oflagowana przez model moderowania zawartości
Etykiety	content_safety_labels.results.labels	array of object	Tablica etykiet bezpieczeństwa, jedna na temat poufny, który został wykryty w sekcji
Etykieta	content_safety_labels.results.labels.label	string	Etykieta poufnego tematu
Pewność	content_safety_labels.results.labels.confidence	double	Współczynnik ufności omawianego tematu z zakresu od 0 do 1
Severity	content_safety_labels.results.labels.severity	double	Jak poważnie temat został omówiony w sekcji z zakresu od 0 do 1
Początek indeksu zdań	content_safety_labels.results.sentences_idx_start	integer	Indeks zdań, w którym rozpoczyna się sekcja
Koniec indeksu zdań	content_safety_labels.results.sentences_idx_end	integer	Indeks zdań, w którym kończy się sekcja
Start	content_safety_labels.results.timestamp.start	integer	Godzina rozpoczęcia w milisekundach
Koniec	content_safety_labels.results.timestamp.end	integer	Czas zakończenia w milisekundach
Podsumowanie	content_safety_labels.summary	object	Podsumowanie wyników ufności moderowania zawartości dla całego pliku audio
Podsumowanie oceny ważności	content_safety_labels.severity_score_summary	object	Podsumowanie wyników ważności moderowania zawartości dla całego pliku audio
wykrywanie tematów	iab_categories	boolean	Czy wykrywanie tematów jest włączone, może mieć wartość true lub false
Status	iab_categories_result.status	string	Powodzenie lub niedostępna w rzadkich przypadkach, w których model zakończył się niepowodzeniem
Results	iab_categories_result.results	array of object	Tablica wyników dla modelu wykrywania tematów
Tekst	iab_categories_result.results.text	string	Tekst w transkrypcji, w którym występuje wykryty temat
Etykiety	iab_categories_result.results.labels	array of object
Znaczenie	iab_categories_result.results.labels.relevance	double	Jak istotny jest wykryty temat
Etykieta	iab_categories_result.results.labels.label	string	Etykieta taksonomiczna IAB dla etykiety wykrytego tematu, gdzie > określa relację supertopic/subtopic
Start	iab_categories_result.results.timestamp.start	integer	Godzina rozpoczęcia w milisekundach
Koniec	iab_categories_result.results.timestamp.end	integer	Czas zakończenia w milisekundach
Podsumowanie	iab_categories_result.summary	object	Ogólne znaczenie tematu dla całego pliku audio
Niestandardowe pisownie	custom_spelling	array of object	Dostosowywanie sposobu pisowni i formatowania wyrazów przy użyciu parametrów do i z wartości
Źródło	custom_spelling.from	array of string	Wyrazy lub frazy do zastąpienia
Do	custom_spelling.to	string	Wyraz lub fraza do zamiany na
Włączone automatyczne rozdziały	auto_chapters	boolean	Czy automatyczne rozdziały są włączone, może mieć wartość true lub false
Rozdziałów	chapters	array of object	Tablica czasowo sekwencyjnych rozdziałów dla pliku audio
Istota	chapters.gist	string	Ultra-krótkie podsumowanie (zaledwie kilka słów) treści wypowiadanych w rozdziale
Nagłówek	chapters.headline	string	Jedno zdanie podsumowania zawartości wypowiadanej w rozdziale
Podsumowanie	chapters.summary	string	Jedno akapitowe podsumowanie zawartości wypowiadanej w rozdziale
Start	chapters.start	integer	Czas rozpoczęcia w milisekundach dla rozdziału
Koniec	chapters.end	integer	Czas rozpoczęcia w milisekundach dla rozdziału
Włączono podsumowywanie	summarization	boolean	Czy funkcja podsumowania jest włączona, prawda czy fałsz
Typ podsumowania	summary_type	string	Typ wygenerowanego podsumowania, jeśli jest włączona funkcja podsumowania
Model podsumowania	summary_model	string	Model podsumowania używany do generowania podsumowania, jeśli jest włączona funkcja podsumowania
Podsumowanie	summary	string	Wygenerowane podsumowanie pliku multimedialnego, jeśli jest włączone podsumowanie podsumowania
Tematy niestandardowe włączone	custom_topics	boolean	Czy tematy niestandardowe są włączone, prawda czy fałsz
Tematy	topics	array of string	Lista tematów niestandardowych udostępnianych, jeśli tematy niestandardowe są włączone
analiza tonacji	sentiment_analysis	boolean	Niezależnie od tego, czy jest włączona analiza tonacji, może to być prawda czy fałsz
Wyniki analizy tonacji	sentiment_analysis_results	array of object	Tablica wyników dla modelu Analizy tonacji, jeśli jest włączona. Aby uzyskać więcej informacji, zobacz Analiza tonacji.
Tekst	sentiment_analysis_results.text	string	Transkrypcja zdania
Start	sentiment_analysis_results.start	integer	Godzina początkowa w milisekundach zdania
Koniec	sentiment_analysis_results.end	integer	Godzina zakończenia zdania w milisekundach
Opinia	sentiment_analysis_results.sentiment		Wykryto tonację zdania, jedną z dodatnich, neutralnych, ujemnych
Pewność	sentiment_analysis_results.confidence	double	Wskaźnik ufności dla wykrytej tonacji zdania z zakresu od 0 do 1
Głośnik	sentiment_analysis_results.speaker	string	Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null
Wykrywanie jednostek	entity_detection	boolean	Czy wykrywanie jednostek jest włączone, może mieć wartość true lub false
Entities	entities	array of object	Tablica wyników dla modelu wykrywania jednostek, jeśli jest włączona. Aby uzyskać więcej informacji, zobacz Wykrywanie jednostek.
Typ jednostki	entities.entity_type	string	Typ jednostki dla wykrytej jednostki
Tekst	entities.text	string	Tekst wykrytej jednostki
Start	entities.start	integer	Godzina początkowa w milisekundach, w której wykryta jednostka jest wyświetlana w pliku audio
Koniec	entities.end	integer	Godzina zakończenia w milisekundach dla wykrytej jednostki w pliku audio
Próg mowy	speech_threshold	float	Wartość domyślna to null. Odrzuć pliki audio, które zawierają mniej niż ten ułamek mowy. Prawidłowe wartości znajdują się w zakresie [0, 1] włącznie.
Przyhamowana	throttled	boolean	Prawda, gdy żądanie jest ograniczane i fałsz, gdy żądanie nie jest już ograniczane
Error	error	string	Komunikat o błędzie informujący o tym, dlaczego transkrypcja nie powiodła się
Model językowy	language_model	string	Model językowy, który został użyty do transkrypcji
Model akustyczny	acoustic_model	string	Model akustyczny używany do transkrypcji

ZdaniaResponse

Nazwa	Ścieżka	Typ	Opis
Identyfikator transkrypcji	id	uuid
Pewność	confidence	double
Czas trwania dźwięku	audio_duration	number
Zdań	sentences	array of object
Tekst	sentences.text	string
Start	sentences.start	integer
Koniec	sentences.end	integer
Pewność	sentences.confidence	double
Słowa	sentences.words	array of object
Pewność	sentences.words.confidence	double
Start	sentences.words.start	integer
Koniec	sentences.words.end	integer
Tekst	sentences.words.text	string
Głośnik	sentences.words.speaker	string	Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null
Głośnik	sentences.speaker	string	Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

AkapityResponse

Nazwa	Ścieżka	Typ	Opis
Identyfikator transkrypcji	id	uuid
Pewność	confidence	double
Czas trwania dźwięku	audio_duration	number
Ustępy	paragraphs	array of object
Tekst	paragraphs.text	string
Start	paragraphs.start	integer
Koniec	paragraphs.end	integer
Pewność	paragraphs.confidence	double
Słowa	paragraphs.words	array of object
Pewność	paragraphs.words.confidence	double
Start	paragraphs.words.start	integer
Koniec	paragraphs.words.end	integer
Tekst	paragraphs.words.text	string
Głośnik	paragraphs.words.speaker	string	Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null
Głośnik	paragraphs.speaker	string	Prelegent zdania, jeśli funkcja diaryzacji osoby mówiącej jest włączona, w przeciwnym razie wartość null

Lista transkrypcji

Lista transkrypcji. Transkrypcje są sortowane od najnowszych do najstarszych. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.

Nazwa	Ścieżka	Typ	Opis
Ograniczenie	page_details.limit	integer	Liczba wyników na tej stronie jest ograniczona do
Liczba wyników	page_details.result_count	integer	Rzeczywista liczba wyników na stronie
Bieżący adres URL	page_details.current_url	string	Adres URL używany do pobierania bieżącej strony transkrypcji
Poprzedni adres URL	page_details.prev_url	string	Adres URL na następną stronę transkrypcji. Poprzedni adres URL zawsze wskazuje stronę ze starszymi transkrypcjami.
Następny adres URL	page_details.next_url	string	Adres URL na następną stronę transkrypcji. Następny adres URL zawsze wskazuje stronę z nowszymi transkrypcjami.
Transcripts	transcripts	array of object
identyfikator	transcripts.id	uuid
Adres URL zasobu	transcripts.resource_url	string
Status	transcripts.status	string	Stan transkrypcji. Możliwe wartości są kolejkowane, przetwarzane, ukończone lub błędy.
Created	transcripts.created	string
Zakończone	transcripts.completed	string
Audio URL	transcripts.audio_url	string
Error	transcripts.error	string	Komunikat o błędzie informujący o tym, dlaczego transkrypcja nie powiodła się

Przekazany plik

Nazwa	Ścieżka	Typ	Opis
Adres URL przekazanego pliku	upload_url	string	Adres URL wskazujący plik audio dostępny tylko przez serwery AssemblyAI

PrzeczyśćLemurRequestDataResponse

Nazwa	Ścieżka	Typ	Opis
Identyfikator żądania przeczyszczania	request_id	uuid	Identyfikator żądania usunięcia żądania LeMUR
Identyfikator żądania LeMUR do przeczyszczenia	request_id_to_purge	uuid	Identyfikator żądania LeMUR w celu przeczyszczenia danych dla
Usunięte	deleted	boolean	Czy dane żądania zostały usunięte

LemurTaskResponse

Nazwa	Ścieżka	Typ	Opis
Odpowiedź	response	string	Odpowiedź wygenerowana przez firmę LeMUR.
Identyfikator żądania LeMUR	request_id	uuid	Identyfikator żądania LeMUR
Tokeny wejściowe	usage.input_tokens	integer	Liczba tokenów wejściowych używanych przez model
Tokeny wyjściowe	usage.output_tokens	integer	Liczba tokenów wyjściowych wygenerowanych przez model

LemurResponse

Nazwa	Ścieżka	Typ	Opis
Odpowiedź	response	string	Odpowiedź wygenerowana przez firmę LeMUR.
Identyfikator żądania LeMUR	request_id	uuid	Identyfikator żądania LeMUR
Tokeny wejściowe	usage.input_tokens	integer	Liczba tokenów wejściowych używanych przez model
Tokeny wyjściowe	usage.output_tokens	integer	Liczba tokenów wyjściowych wygenerowanych przez model

ciąg

Jest to podstawowy typ danych "string".

Udostępnij przez

AssemblyAI (wersja zapoznawcza)

Wymagania wstępne

Jak uzyskać poświadczenia

Wprowadzenie do łącznika

Przekazywanie pliku

Transkrypcja dźwięku

Obsługa gotowego elementu webhook transkrypcji

Sonduj stan transkrypcji

Dodawanie kolejnych akcji

Znane problemy i ograniczenia

Typowe błędy i środki zaradcze

Często zadawane pytania

Tworzenie połączenia

Domyślny

Limity ograniczania

Akcje

Lista transkrypcji

Parametry

Zwraca

Pobieranie akapitów w transkrypcji

Parametry

Zwraca

Pobieranie napisów na potrzeby transkrypcji

Parametry

Zwraca

Pobieranie odpowiedzi LeMUR

Parametry

Zwraca

Pobieranie transkrypcji

Parametry

Zwraca

Pobieranie zdań w transkrypcji

Parametry

Zwraca

Pobieranie zredagowanego dźwięku

Parametry

Zwraca

Przeczyszczanie danych żądania LeMUR

Parametry

Zwraca

Przekazywanie pliku multimedialnego

Parametry

Zwraca

Transkrypcja dźwięku

Parametry

Zwraca

Uruchamianie zadania przy użyciu rozwiązania LeMUR

Parametry

Zwraca

Usuwanie transkrypcji

Parametry

Zwraca

Wyszukiwanie wyrazów w transkrypcji

Parametry

Zwraca

Definicje

RedactedAudioResponse

WordSearchResponse

Transkrypcja

ZdaniaResponse

AkapityResponse

Lista transkrypcji

Przekazany plik

PrzeczyśćLemurRequestDataResponse

LemurTaskResponse

LemurResponse

ciąg