AssemblyAI (anteprima)
Trascrivere ed estrarre dati dall'audio usando l'intelligenza artificiale voce di AssemblyAI.
Questo connettore è disponibile nei prodotti e nelle aree seguenti:
| Servizio | Class | Regions |
|---|---|---|
| Copilot Studio | Di alta qualità | Tutte le aree di Power Automate , ad eccezione delle seguenti: - Governo degli Stati Uniti (GCC) - Us Government (GCC High) - China Cloud gestito da 21Vianet - Dipartimento della Difesa degli Stati Uniti (DoD) |
| App per la logica | Normale | Tutte le aree di App per la logica , ad eccezione delle seguenti: - Aree di Azure per enti pubblici - Aree di Azure Cina - Dipartimento della Difesa degli Stati Uniti (DoD) |
| Power Apps | Di alta qualità | Tutte le aree di Power Apps , ad eccezione dei seguenti: - Governo degli Stati Uniti (GCC) - Us Government (GCC High) - China Cloud gestito da 21Vianet - Dipartimento della Difesa degli Stati Uniti (DoD) |
| Power Automate | Di alta qualità | Tutte le aree di Power Automate , ad eccezione delle seguenti: - Governo degli Stati Uniti (GCC) - Us Government (GCC High) - China Cloud gestito da 21Vianet - Dipartimento della Difesa degli Stati Uniti (DoD) |
| Contatto | |
|---|---|
| Nome | Support |
| URL | https://www.assemblyai.com/docs/ |
| support@assemblyai.com |
| Metadati del connettore | |
|---|---|
| Editore | AssemblyAI |
| Sito web | https://www.assemblyai.com |
| Informativa sulla privacy | https://www.assemblyai.com/legal/privacy-policy |
| Categorie | AI |
Con il connettore AssemblyAI , è possibile usare i modelli di AssemblyAI per elaborare i dati audio trascrivendoli con i modelli di riconoscimento vocale, analizzandoli con modelli di intelligenza audio e creando funzionalità generative su di esso con llMs.
- Riconoscimento vocale , incluse molte funzionalità configurabili, ad esempio la diarizzazione del parlante, l'ortografia personalizzata, il vocabolario personalizzato e così via.
- I modelli di intelligenza artificiale audio sono modelli di intelligenza artificiale aggiuntivi disponibili e configurati tramite la configurazione della trascrizione.
- LeMUR consente di applicare vari modelli LLM alle trascrizioni senza la necessità di creare un'infrastruttura RAG personalizzata per trascrizioni di grandi dimensioni.
Prerequisiti
Per procedere, è necessario quanto segue:
- Una chiave API AssemblyAI (ottenere gratuitamente una chiave API)
Come ottenere le credenziali
È possibile ottenere gratuitamente una chiave API AssemblyAI eseguendo l'iscrizione a un account e copiando la chiave API dal dashboard.
Introduzione al connettore
Seguire questa procedura per trascrivere l'audio usando il connettore AssemblyAI.
Caricare un file
Per trascrivere un file audio usando AssemblyAI, il file deve essere accessibile ad AssemblyAI. Se il file audio è già accessibile tramite un URL, è possibile usare l'URL esistente.
In caso contrario, è possibile usare l'azione Upload a File per caricare un file in AssemblyAI.
Si otterrà un URL per il file che può essere usato solo per trascrivere usando la chiave API.
Dopo aver trascritto il file, il file verrà rimosso dai server di AssemblyAI.
Trascrivere audio
Per trascrivere l'audio, configurare il parametro usando l'URL Audio URL del file audio.
Configurare quindi i parametri aggiuntivi per abilitare altre funzionalità di riconoscimento vocale e modelli di Intelligenza audio .
Il risultato dell'azione Trascrivi audio è una trascrizione in coda che inizierà a essere elaborata immediatamente. Per ottenere la trascrizione completata, sono disponibili due opzioni:
Gestire il webhook pronto per la trascrizione
Se non si vuole gestire il webhook usando App per la logica o Power Automate, configurare il Webhook URL parametro nell'azione Transcribe Audio e implementare il webhook seguendo la documentazione del webhook di AssemblyAI.
Per gestire il webhook usando App per la logica o Power Automate, seguire questa procedura:
Creare un'app per la logica separata o un flusso di Power Automate
Configurare
When an HTTP request is receivedcome trigger:- Impostare
Who Can Trigger The Flow?suAnyone - Impostare
Request Body JSON Schemasu:{ "type": "object", "properties": { "transcript_id": { "type": "string" }, "status": { "type": "string" } } } - Impostare
MethodsuPOST
- Impostare
Aggiungere un'azione AssemblyAI
Get Transcriptpassandotranscript_iddal trigger alTranscript IDparametro .Prima di eseguire qualsiasi altra operazione, è necessario verificare se
Statusècompletedoerror. Aggiungere un'azioneConditionche controlla se l'oggettoStatusdell'outputGet Transcriptèerror:-
TrueNel ramo aggiungere un'azioneTerminate- Impostare su
StatusFailed - Impostare su
CodeTranscript Error - Passare l'oggetto
Errordall'outputGet TranscriptalMessageparametro .
- Impostare su
- È possibile lasciare vuoto il
Falseramo.
È ora possibile aggiungere qualsiasi azione dopo aver
Conditionappreso lo stato della trascrizione ècompletede è possibile recuperare qualsiasi proprietà di output dell'azioneGet Transcript.-
Salvare l'app per la logica o flow. Verrà
HTTP URLgenerato per ilWhen an HTTP request is receivedtrigger. Copiare e tornare all'app per laHTTP URLlogica originale o a Flow.Nell'app per la logica o nel flusso originale aggiornare l'azione
Transcribe Audio. Incollare l'oggettoHTTP URLcopiato in precedenza nelWebhook URLparametro e salvarlo.
Quando lo stato della trascrizione diventa completed o error, AssemblyAI invierà una richiesta HTTP POST all'URL del webhook, che verrà gestito dall'altra app per la logica o da Flow.
In alternativa all'uso del webhook, è possibile eseguire il polling dello stato della trascrizione come illustrato nella sezione successiva.
Eseguire il polling dello stato della trascrizione
È possibile eseguire il polling dello stato della trascrizione seguendo questa procedura:
Aggiungere un'azione
Initialize variable- Impostare
Namesutranscript_status - Impostare
TypesuString - Archiviare l'oggetto
Statusdall'outputTranscribe AudionelValueparametro
- Impostare
Aggiungere un'azione
Do until- Configurare il
Loop Untilparametro con il codice Fx seguente:
Questo codice controlla se laor(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))transcript_statusvariabile ècompletedoerror. - Configurare il
Countparametro in86400 - Configurare il
Timeoutparametro inPT24H
All'interno dell'azione
Do untilaggiungere le azioni seguenti:- Aggiungere un'azione
Delayche attende un secondo - Aggiungere un'azione
Get Transcripte passare l'oggettoIDdall'outputTranscribe AudioalTranscript IDparametro . - Aggiungere un'azione
Set variable- Impostare
Namesutranscript_status - Passare l'oggetto
Statusdell'outputGet TranscriptalValueparametro
- Impostare
Il
Do untilciclo continuerà fino al completamento della trascrizione o si è verificato un errore.- Configurare il
Aggiungere un'altra
Get Transcriptazione, ad esempio prima, ma aggiungerla dopo il ciclo in modo che l'outputDo untildiventi disponibile all'esterno dell'ambito dell'azioneDo until.
Prima di eseguire qualsiasi altra operazione, è necessario verificare se la trascrizione Status è completed o error.
Aggiungere un'azione Condition che controlla se transcript_status è error:
-
TrueNel ramo aggiungere un'azioneTerminate- Impostare
StatussuFailed - Impostare
CodesuTranscript Error - Passare l'oggetto
Errordall'outputGet TranscriptalMessageparametro .
- Impostare
- È possibile lasciare vuoto il
Falseramo.
È ora possibile aggiungere qualsiasi azione dopo aver Condition appreso lo stato della trascrizione è completede è possibile recuperare qualsiasi proprietà di output dell'azione Get Transcript .
Aggiungi più azioni
Ora che è stata completata la trascrizione, è possibile usare molte altre azioni che passano la ID trascrizione, ad esempio
Get Sentences of TranscriptGet Paragraphs of TranscriptGet Subtitles of TranscriptGet Redacted AudioSearch Transcript for WordsRun a Task using LeMUR
Problemi noti e limitazioni
Nessun problema noto attualmente. Non è supportata la funzionalità Streaming Speech-To-Text (in tempo reale) perché non è possibile usare connettori personalizzati.
Errori e rimedi comuni
Altre informazioni sugli errori sono disponibili nella documentazione di AssemblyAI.
Domande frequenti
È possibile trovare le domande frequenti nella documentazione.
Creazione di una connessione
Il connettore supporta i tipi di autenticazione seguenti:
| Predefinita | Parametri per la creazione della connessione. | Tutte le aree geografiche | Non condivisibile |
Predefinito
Applicabile: tutte le aree
Parametri per la creazione della connessione.
Questa non è una connessione condivisibile. Se l'app power viene condivisa con un altro utente, verrà richiesto a un altro utente di creare una nuova connessione in modo esplicito.
| Nome | TIPO | Description | Obbligatorio |
|---|---|---|---|
| Chiave API AssemblyAI | securestring | Chiave API AssemblyAI per autenticare l'API AssemblyAI. | Vero |
Limiti per la limitazione delle richieste
| Nome | Chiamate | Periodo di rinnovo |
|---|---|---|
| Chiamate API per connessione | 100 | 60 secondi |
Azioni
| Caricare un file multimediale |
Caricare un file multimediale nei server assemblyAI. |
| Cerca parole nella trascrizione |
Cercare le parole chiave nella trascrizione. È possibile cercare singole parole, numeri o frasi contenenti fino a cinque parole o numeri. |
| Elencare le trascrizioni |
Recuperare un elenco di trascrizioni create. Le trascrizioni vengono ordinate da più recenti a meno recenti. L'URL precedente punta sempre a una pagina con trascrizioni precedenti. |
| Elimina trascrizione |
Eliminare la trascrizione. L'eliminazione non elimina la risorsa stessa, ma rimuove i dati dalla risorsa e li contrassegna come eliminati. |
| Eseguire un'attività usando LeMUR |
Usare l'endpoint dell'attività LeMUR per immettere un prompt LLM personalizzato. |
| Ottenere frasi nella trascrizione |
Ottenere la trascrizione divisa per frasi. L'API tenterà di segmentare semanticamente la trascrizione in frasi per creare trascrizioni più descrittive per il lettore. |
| Ottenere l'audio reditto |
Recuperare l'oggetto audio redatto contenente lo stato e l'URL per l'audio redatto. |
| Ottenere la trascrizione |
Ottenere la risorsa di trascrizione. La trascrizione è pronta quando lo "stato" è "completato". |
| Ottenere paragrafi nella trascrizione |
Ottiene la divisione della trascrizione in base ai paragrafi. L'API tenterà di segmentare semanticamente la trascrizione in paragrafi per creare trascrizioni più descrittive per il lettore. |
| Ottenere sottotitoli per la trascrizione |
Esportare la trascrizione in formato SRT o VTT da usare con un lettore video per sottotitoli e sottotitoli. |
| Recuperare la risposta LeMUR |
Recuperare una risposta LeMUR generata in precedenza. |
| Ripulire i dati della richiesta LeMUR |
Eliminare i dati per una richiesta LeMUR inviata in precedenza. I dati di risposta LLM e qualsiasi contesto fornito nella richiesta originale verranno rimossi. |
| Trascrivere audio |
Creare una trascrizione da un file multimediale accessibile tramite un URL. |
Caricare un file multimediale
Caricare un file multimediale nei server assemblyAI.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
Contenuto del file
|
file | True | binary |
File da caricare. |
Restituisce
- Corpo
- UploadedFile
Cerca parole nella trascrizione
Cercare le parole chiave nella trascrizione. È possibile cercare singole parole, numeri o frasi contenenti fino a cinque parole o numeri.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID trascrizione
|
transcript_id | True | string |
ID della trascrizione |
|
Word
|
words | True | array |
Parole chiave da cercare |
Restituisce
- Corpo
- WordSearchResponse
Elencare le trascrizioni
Recuperare un elenco di trascrizioni create. Le trascrizioni vengono ordinate da più recenti a meno recenti. L'URL precedente punta sempre a una pagina con trascrizioni precedenti.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
Limite
|
limit | integer |
Quantità massima di trascrizioni da recuperare |
|
|
stato
|
status | string |
Stato della trascrizione. I valori possibili sono in coda, elaborazione, completamento o errore. |
|
|
Data di creazione
|
created_on | date |
Ottenere solo le trascrizioni create in questa data |
|
|
Prima dell'ID
|
before_id | uuid |
Ottenere le trascrizioni create prima di questo ID trascrizione |
|
|
Dopo l'ID
|
after_id | uuid |
Ottenere le trascrizioni create dopo questo ID di trascrizione |
|
|
Solo limitazione
|
throttled_only | boolean |
Ottiene solo le trascrizioni limitate, esegue l'override del filtro di stato |
Restituisce
Elenco di trascrizioni. Le trascrizioni vengono ordinate da più recenti a meno recenti. L'URL precedente punta sempre a una pagina con trascrizioni precedenti.
- Corpo
- TranscriptList
Elimina trascrizione
Eliminare la trascrizione. L'eliminazione non elimina la risorsa stessa, ma rimuove i dati dalla risorsa e li contrassegna come eliminati.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID trascrizione
|
transcript_id | True | string |
ID della trascrizione |
Restituisce
Oggetto trascrizione
- Corpo
- Transcript
Eseguire un'attività usando LeMUR
Usare l'endpoint dell'attività LeMUR per immettere un prompt LLM personalizzato.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
Rapido
|
prompt | True | string |
Testo per richiedere al modello di produrre un output desiderato, incluso qualsiasi contesto da passare al modello. |
|
ID trascrizione
|
transcript_ids | array of uuid |
Elenco di trascrizioni completate con testo. Fino a un massimo di 100 file o 100 ore, a qualsiasi livello inferiore. Usare transcript_ids o input_text come input in LeMUR. |
|
|
Testo di input
|
input_text | string |
Dati di trascrizione formattati personalizzati. La dimensione massima è il limite di contesto del modello selezionato, che per impostazione predefinita è 100000. Usare transcript_ids o input_text come input in LeMUR. |
|
|
Context
|
context | string |
Contesto per fornire il modello. Può trattarsi di una stringa o di un valore JSON in formato libero. |
|
|
Modello finale
|
final_model | string |
Modello utilizzato per il prompt finale dopo l'esecuzione della compressione. |
|
|
Dimensioni massime output
|
max_output_size | integer |
Dimensioni massime di output nei token, fino a 4000 |
|
|
Temperatura
|
temperature | float |
Temperatura da usare per il modello. I valori più elevati generano risposte più creative, valori inferiori sono più conservativi. Può essere qualsiasi valore compreso tra 0,0 e 1,0 inclusi. |
Restituisce
- Corpo
- LemurTaskResponse
Ottenere frasi nella trascrizione
Ottenere la trascrizione divisa per frasi. L'API tenterà di segmentare semanticamente la trascrizione in frasi per creare trascrizioni più descrittive per il lettore.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID trascrizione
|
transcript_id | True | string |
ID della trascrizione |
Restituisce
- Corpo
- SentencesResponse
Ottenere l'audio reditto
Recuperare l'oggetto audio redatto contenente lo stato e l'URL per l'audio redatto.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID trascrizione
|
transcript_id | True | string |
ID della trascrizione |
Restituisce
- Corpo
- RedactedAudioResponse
Ottenere la trascrizione
Ottenere la risorsa di trascrizione. La trascrizione è pronta quando lo "stato" è "completato".
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID trascrizione
|
transcript_id | True | string |
ID della trascrizione |
Restituisce
Oggetto trascrizione
- Corpo
- Transcript
Ottenere paragrafi nella trascrizione
Ottiene la divisione della trascrizione in base ai paragrafi. L'API tenterà di segmentare semanticamente la trascrizione in paragrafi per creare trascrizioni più descrittive per il lettore.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID trascrizione
|
transcript_id | True | string |
ID della trascrizione |
Restituisce
- Corpo
- ParagraphsResponse
Ottenere sottotitoli per la trascrizione
Esportare la trascrizione in formato SRT o VTT da usare con un lettore video per sottotitoli e sottotitoli.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID trascrizione
|
transcript_id | True | string |
ID della trascrizione |
|
Formato sottotitoli
|
subtitle_format | True | string |
Formato dei sottotitoli |
|
Numero di caratteri per didascalia
|
chars_per_caption | integer |
Numero massimo di caratteri per didascalia |
Restituisce
- response
- string
Recuperare la risposta LeMUR
Recuperare una risposta LeMUR generata in precedenza.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID richiesta LeMUR
|
request_id | True | string |
ID della richiesta LeMUR effettuata in precedenza. Ciò si trova nella risposta della richiesta originale. |
Restituisce
- Corpo
- LemurResponse
Ripulire i dati della richiesta LeMUR
Eliminare i dati per una richiesta LeMUR inviata in precedenza. I dati di risposta LLM e qualsiasi contesto fornito nella richiesta originale verranno rimossi.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID richiesta LeMUR
|
request_id | True | string |
ID della richiesta LeMUR di cui si desidera eliminare i dati. Ciò si trova nella risposta della richiesta originale. |
Restituisce
Trascrivere audio
Creare una trascrizione da un file multimediale accessibile tramite un URL.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
Audio URL
|
audio_url | True | string |
URL del file audio o video da trascrivere. |
|
Codice lingua
|
language_code | string |
Lingua del file audio. I valori possibili sono disponibili in Lingue supportate. Il valore predefinito è 'en_us'. |
|
|
Language Detection
|
language_detection | boolean |
Abilitare il rilevamento automatico della lingua, true o false. |
|
|
Modello di riconoscimento vocale
|
speech_model | string |
Modello di riconoscimento vocale da usare per la trascrizione. |
|
|
Punteggiare
|
punctuate | boolean |
Abilitare la punteggiatura automatica, può essere true o false |
|
|
Formato testo
|
format_text | boolean |
Abilitare la formattazione del testo, può essere true o false |
|
|
Disfluenze
|
disfluencies | boolean |
Trascrivere parole filler, come "um", nel file multimediale; può essere true o false |
|
|
Doppio canale
|
dual_channel | boolean |
Abilitare la trascrizione dual channel, può essere true o false. |
|
|
Webhook URL
|
webhook_url | string |
URL a cui si inviano richieste webhook. Vengono inviati due tipi diversi di richieste webhook. Una richiesta quando una trascrizione viene completata o non è riuscita e una richiesta quando l'audio redatto è pronto se redact_pii_audio è abilitato. |
|
|
Nome intestazione autenticazione webhook
|
webhook_auth_header_name | string |
Nome dell'intestazione da inviare con la trascrizione completata o con richieste webhook non riuscite |
|
|
Valore intestazione autenticazione webhook
|
webhook_auth_header_value | string |
Valore dell'intestazione da restituire con la trascrizione completata o con richieste webhook non riuscite per la sicurezza aggiunta |
|
|
Frasi chiave
|
auto_highlights | boolean |
Abilitare frasi chiave, true o false |
|
|
Inizio audio da
|
audio_start_from | integer |
Temporizzato, in millisecondi, per iniziare la trascrizione nel file multimediale |
|
|
Audio End At
|
audio_end_at | integer |
Temporizzato, in millisecondi, per interrompere la trascrizione nel file multimediale |
|
|
Word Boost
|
word_boost | array of string |
Elenco di vocabolari personalizzati per aumentare la probabilità di trascrizione per |
|
|
Livello di boost di Word
|
boost_param | string |
Quanto aumentare le parole specificate |
|
|
Filtrare il contenuto volgare
|
filter_profanity | boolean |
Filtrare il contenuto volgare dal testo trascritto, può essere true o false |
|
|
Redact PII
|
redact_pii | boolean |
Redact PII from the transcriscritto text using the Redact PII model, can be true o false |
|
|
Redact PII Audio
|
redact_pii_audio | boolean |
Generare una copia del file multimediale originale con informazioni personali pronunciate "beeped", può essere true o false. Per altri dettagli, vedere Ridistribuzione delle informazioni personali. |
|
|
Redact PII Audio Quality
|
redact_pii_audio_quality | string |
Controlla il tipo di file dell'audio creato da redact_pii_audio. Attualmente supporta mp3 (impostazione predefinita) e wav. Per altri dettagli, vedere Ridistribuzione delle informazioni personali. |
|
|
Redact PII Policies
|
redact_pii_policies | array of string |
Elenco dei criteri di reindirizzamento delle informazioni personali da abilitare. Per altri dettagli, vedere Ridistribuzione delle informazioni personali. |
|
|
Redact PII Substitution
|
redact_pii_sub | string |
La logica di sostituzione per le informazioni personali rilevate può essere "entity_name" o "hash". Per altri dettagli, vedere Ridistribuzione delle informazioni personali. |
|
|
Etichette voce
|
speaker_labels | boolean |
Abilitare la diarizzazione dell'altoparlante, può essere true o false |
|
|
Relatori previsti
|
speakers_expected | integer |
Indica al modello di etichetta dell'altoparlante il numero di altoparlanti che deve tentare di identificare, fino a 10. Per altri dettagli, vedere Diarizzazione del parlante. |
|
|
Moderazione del contenuto
|
content_safety | boolean |
Abilitare la moderazione del contenuto, può essere true o false |
|
|
Attendibilità moderazione contenuto
|
content_safety_confidence | integer |
Soglia di attendibilità per il modello moderazione contenuto. I valori devono essere compresi tra 25 e 100. |
|
|
Rilevamento argomenti
|
iab_categories | boolean |
Abilitare il rilevamento degli argomenti, può essere true o false |
|
|
Da
|
from | True | array of string |
Parole o frasi da sostituire |
|
Per
|
to | True | string |
Parola o frase da sostituire con |
|
Sentiment Analysis
|
sentiment_analysis | boolean |
Abilitare l'analisi del sentiment, può essere true o false |
|
|
Capitoli automatici
|
auto_chapters | boolean |
Abilitare i capitoli automatici, può essere true o false |
|
|
Rilevamento entità
|
entity_detection | boolean |
Abilitare il rilevamento delle entità, può essere true o false |
|
|
Soglia voce
|
speech_threshold | float |
Rifiutare i file audio che contengono meno di questa frazione di parlato. I valori validi sono inclusi nell'intervallo [0, 1]. |
|
|
Abilita riepilogo
|
summarization | boolean |
Abilitare il riepilogo, può essere true o false |
|
|
Modello di riepilogo
|
summary_model | string |
Modello per riepilogare la trascrizione |
|
|
Tipo di riepilogo
|
summary_type | string |
Tipo di riepilogo |
|
|
Abilitare argomenti personalizzati
|
custom_topics | boolean |
Abilitare argomenti personalizzati, true o false |
|
|
Argomenti personalizzati
|
topics | array of string |
Elenco di argomenti personalizzati |
Restituisce
Oggetto trascrizione
- Corpo
- Transcript
Definizioni
RedactedAudioResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
stato
|
status | string |
Stato dell'audio redatto |
|
URL audio modificato
|
redacted_audio_url | string |
URL del file audio redatto |
WordSearchResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
ID trascrizione
|
id | uuid |
ID della trascrizione |
|
Totale conteggio delle corrispondenze
|
total_count | integer |
Conteggio totale di tutte le istanze corrispondenti. Ad esempio, parola 1 corrispondente 2 volte e parola 2 corrispondente 3 volte, total_count sarà uguale a 5. |
|
Corrispondenze
|
matches | array of object |
Corrispondenze della ricerca |
|
Testo
|
matches.text | string |
Parola corrispondente |
|
Conteggio
|
matches.count | integer |
Quantità totale di volte in cui la parola è nella trascrizione |
|
Timestamp
|
matches.timestamps | array of array |
Matrice di timestamp |
|
Marca temporale:
|
matches.timestamps | array of integer |
Matrice di timestamp strutturata come [start_time, end_time] in millisecondi |
|
Indexes
|
matches.indexes | array of integer |
Matrice di tutte le posizioni di indice per tale parola all'interno della matrice di parole della trascrizione completata |
Trascrizione
Oggetto trascrizione
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Documento d'identità
|
id | uuid |
Identificatore univoco della trascrizione |
|
Audio URL
|
audio_url | string |
URL dei supporti trascritti |
|
stato
|
status | string |
Stato della trascrizione. I valori possibili sono in coda, elaborazione, completamento o errore. |
|
Codice lingua
|
language_code | string |
Lingua del file audio. I valori possibili sono disponibili in Lingue supportate. Il valore predefinito è 'en_us'. |
|
Language Detection
|
language_detection | boolean |
Indica se il rilevamento automatico della lingua è abilitato, true o false |
|
Modello di riconoscimento vocale
|
speech_model | string |
Modello di riconoscimento vocale da usare per la trascrizione. |
|
Testo
|
text | string |
Trascrizione testuale del file multimediale |
|
Word
|
words | array of object |
Matrice di oggetti parola sequenziale temporale, uno per ogni parola nella trascrizione. Per altre informazioni, vedere Riconoscimento vocale. |
|
Fiducia
|
words.confidence | double | |
|
Start
|
words.start | integer | |
|
Fine
|
words.end | integer | |
|
Testo
|
words.text | string | |
|
Altoparlante
|
words.speaker | string |
Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null |
|
Espressioni
|
utterances | array of object |
Quando dual_channel o speaker_labels è abilitato, viene visualizzato un elenco di oggetti espressioni turn-by-turn. Per altre informazioni, vedere Diarizzazione del parlante. |
|
Fiducia
|
utterances.confidence | double |
Punteggio di attendibilità per la trascrizione di questa espressione |
|
Start
|
utterances.start | integer |
Ora di inizio, in millisecondi, dell'espressione nel file audio |
|
Fine
|
utterances.end | integer |
Ora di fine, in millisecondi, dell'espressione nel file audio |
|
Testo
|
utterances.text | string |
Testo per questa espressione |
|
Word
|
utterances.words | array of object |
Parole nell'espressione. |
|
Fiducia
|
utterances.words.confidence | double | |
|
Start
|
utterances.words.start | integer | |
|
Fine
|
utterances.words.end | integer | |
|
Testo
|
utterances.words.text | string | |
|
Altoparlante
|
utterances.words.speaker | string |
Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null |
|
Altoparlante
|
utterances.speaker | string |
Il parlante di questa espressione, in cui a ogni altoparlante viene assegnata una lettera maiuscola sequenziale, ad esempio "A" per speaker A, "B" per Speaker B e così via. |
|
Fiducia
|
confidence | double |
Punteggio di attendibilità per la trascrizione, compreso tra 0,0 (attendibilità bassa) e 1,0 (attendibilità elevata) |
|
Durata audio
|
audio_duration | integer |
Durata del file multimediale dell'oggetto trascrizione, espresso in secondi |
|
Punteggiare
|
punctuate | boolean |
Indica se la punteggiatura automatica è abilitata, true o false |
|
Formato testo
|
format_text | boolean |
Indica se la formattazione del testo è abilitata, true o false |
|
Disfluenze
|
disfluencies | boolean |
Trascrivere parole filler, come "um", nel file multimediale; può essere true o false |
|
Doppio canale
|
dual_channel | boolean |
Indica se la trascrizione dual channel è stata abilitata nella richiesta di trascrizione, true o false |
|
Webhook URL
|
webhook_url | string |
URL a cui si inviano richieste webhook. Vengono inviati due tipi diversi di richieste webhook. Una richiesta quando una trascrizione viene completata o non è riuscita e una richiesta quando l'audio redatto è pronto se redact_pii_audio è abilitato. |
|
Codice di stato HTTP webhook
|
webhook_status_code | integer |
Il codice di stato ricevuto dal server durante il recapito della trascrizione completata o la richiesta di webhook non riuscita, se è stato specificato un URL webhook |
|
Autenticazione webhook abilitata
|
webhook_auth | boolean |
Indica se sono stati specificati i dettagli di autenticazione del webhook |
|
Nome intestazione autenticazione webhook
|
webhook_auth_header_name | string |
Nome dell'intestazione da inviare con la trascrizione completata o con richieste webhook non riuscite |
|
Boost di velocità
|
speed_boost | boolean |
Indica se l'aumento della velocità è abilitato |
|
Frasi chiave
|
auto_highlights | boolean |
Indica se le frasi chiave sono abilitate, true o false |
|
stato
|
auto_highlights_result.status | string |
Esito positivo o non disponibile nel caso raro in cui il modello non sia riuscito |
|
Results
|
auto_highlights_result.results | array of object |
Matrice sequenziale temporale di frasi chiave |
|
Conteggio
|
auto_highlights_result.results.count | integer |
Numero totale di volte in cui la frase chiave viene visualizzata nel file audio |
|
Classificazione
|
auto_highlights_result.results.rank | float |
La pertinenza totale per il file audio complessivo di questa frase chiave- un numero maggiore significa più rilevante |
|
Testo
|
auto_highlights_result.results.text | string |
Testo stesso della frase chiave |
|
Timestamp
|
auto_highlights_result.results.timestamps | array of object |
Timestamp della frase chiave |
|
Start
|
auto_highlights_result.results.timestamps.start | integer |
Ora di inizio in millisecondi |
|
Fine
|
auto_highlights_result.results.timestamps.end | integer |
Ora di fine in millisecondi |
|
Inizio audio da
|
audio_start_from | integer |
Punto nel tempo, in millisecondi, nel file in cui è stata avviata la trascrizione |
|
Audio End At
|
audio_end_at | integer |
Punto nel tempo, in millisecondi, nel file in cui è stata terminata la trascrizione |
|
Word Boost
|
word_boost | array of string |
Elenco di vocabolari personalizzati per aumentare la probabilità di trascrizione per |
|
Aumentare
|
boost_param | string |
Valore del parametro word boost |
|
Filtrare il contenuto volgare
|
filter_profanity | boolean |
Indica se è abilitato il filtro per il contenuto volgare, true o false |
|
Redact PII
|
redact_pii | boolean |
Indica se la funzionalità di reindirizzamento delle informazioni personali è abilitata, true o false |
|
Redact PII Audio
|
redact_pii_audio | boolean |
Indica se è stata generata una versione corretta del file audio, true o false. Per altre informazioni, vedere Ridistribuzione delle informazioni personali. |
|
Redact PII Audio Quality
|
redact_pii_audio_quality | string |
Controlla il tipo di file dell'audio creato da redact_pii_audio. Attualmente supporta mp3 (impostazione predefinita) e wav. Per altri dettagli, vedere Ridistribuzione delle informazioni personali. |
|
Redact PII Policies
|
redact_pii_policies | array of string |
Elenco dei criteri di reindirizzamento delle informazioni personali abilitati, se è abilitata la funzionalità di reindirizzamento delle informazioni personali. Per altre informazioni, vedere Ridistribuzione delle informazioni personali. |
|
Redact PII Substitution
|
redact_pii_sub | string |
La logica di sostituzione per le informazioni personali rilevate può essere "entity_name" o "hash". Per altri dettagli, vedere Ridistribuzione delle informazioni personali. |
|
Etichette voce
|
speaker_labels | boolean |
Se la diarizzazione dell'altoparlante è abilitata, può essere true o false |
|
Relatori previsti
|
speakers_expected | integer |
Indicare al modello di etichetta dell'altoparlante il numero di altoparlanti che deve tentare di identificare, fino a 10. Per altri dettagli, vedere Diarizzazione del parlante. |
|
Moderazione del contenuto
|
content_safety | boolean |
Se la moderazione del contenuto è abilitata, può essere true o false |
|
stato
|
content_safety_labels.status | string |
Esito positivo o non disponibile nel caso raro in cui il modello non sia riuscito |
|
Results
|
content_safety_labels.results | array of object | |
|
Testo
|
content_safety_labels.results.text | string |
Trascrizione della sezione contrassegnata dal modello Moderazione contenuto |
|
Etichette
|
content_safety_labels.results.labels | array of object |
Matrice di etichette di sicurezza, una per argomento sensibile rilevata nella sezione |
|
Etichetta
|
content_safety_labels.results.labels.label | string |
Etichetta dell'argomento sensibile |
|
Fiducia
|
content_safety_labels.results.labels.confidence | double |
Punteggio di attendibilità per l'argomento discusso, da 0 a 1 |
|
Severity
|
content_safety_labels.results.labels.severity | double |
Quanto gravemente l'argomento è discusso nella sezione, da 0 a 1 |
|
Inizio indice frasi
|
content_safety_labels.results.sentences_idx_start | integer |
Indice della frase in corrispondenza del quale inizia la sezione |
|
Fine indice frasi
|
content_safety_labels.results.sentences_idx_end | integer |
Indice della frase in corrispondenza del quale termina la sezione |
|
Start
|
content_safety_labels.results.timestamp.start | integer |
Ora di inizio in millisecondi |
|
Fine
|
content_safety_labels.results.timestamp.end | integer |
Ora di fine in millisecondi |
|
Riassunto
|
content_safety_labels.summary | object |
Riepilogo dei risultati di attendibilità moderazione contenuto per l'intero file audio |
|
Riepilogo punteggio gravità
|
content_safety_labels.severity_score_summary | object |
Riepilogo dei risultati della gravità della moderazione del contenuto per l'intero file audio |
|
Rilevamento argomenti
|
iab_categories | boolean |
Se il rilevamento degli argomenti è abilitato, può essere true o false |
|
stato
|
iab_categories_result.status | string |
Esito positivo o non disponibile nel caso raro in cui il modello non sia riuscito |
|
Results
|
iab_categories_result.results | array of object |
Matrice di risultati per il modello rilevamento argomenti |
|
Testo
|
iab_categories_result.results.text | string |
Testo nella trascrizione in cui si verifica un argomento rilevato |
|
Etichette
|
iab_categories_result.results.labels | array of object | |
|
Pertinenza
|
iab_categories_result.results.labels.relevance | double |
La rilevanza dell'argomento rilevato è di un argomento rilevato |
|
Etichetta
|
iab_categories_result.results.labels.label | string |
Etichetta tassonomia IAB per l'etichetta dell'argomento rilevato, dove > indica la relazione supertopic/subtopic |
|
Start
|
iab_categories_result.results.timestamp.start | integer |
Ora di inizio in millisecondi |
|
Fine
|
iab_categories_result.results.timestamp.end | integer |
Ora di fine in millisecondi |
|
Riassunto
|
iab_categories_result.summary | object |
La rilevanza complessiva dell'argomento per l'intero file audio |
|
Ortografia personalizzata
|
custom_spelling | array of object |
Personalizzare il modo in cui le parole vengono digitate e formattate usando i valori da e verso |
|
Da
|
custom_spelling.from | array of string |
Parole o frasi da sostituire |
|
Per
|
custom_spelling.to | string |
Parola o frase da sostituire con |
|
Capitoli automatici abilitati
|
auto_chapters | boolean |
Se i capitoli automatici sono abilitati, possono essere true o false |
|
Capitoli
|
chapters | array of object |
Matrice di capitoli sequenziali temporali per il file audio |
|
Essenza
|
chapters.gist | string |
Un riepilogo ultra breve (poche parole) del contenuto parlato nel capitolo |
|
Titolo
|
chapters.headline | string |
Riepilogo di una singola frase del contenuto pronunciato durante il capitolo |
|
Riassunto
|
chapters.summary | string |
Riepilogo di un paragrafo del contenuto parlato durante il capitolo |
|
Start
|
chapters.start | integer |
Ora di inizio, in millisecondi, per il capitolo |
|
Fine
|
chapters.end | integer |
Ora di inizio, in millisecondi, per il capitolo |
|
Riepilogo abilitato
|
summarization | boolean |
Indica se l'opzione Riepilogo è abilitata, true o false |
|
Tipo di riepilogo
|
summary_type | string |
Tipo di riepilogo generato, se Il riepilogo è abilitato |
|
Modello di riepilogo
|
summary_model | string |
Modello Di riepilogo usato per generare il riepilogo, se è abilitato Il riepilogo |
|
Riassunto
|
summary | string |
Riepilogo generato del file multimediale, se Il riepilogo è abilitato |
|
Argomenti personalizzati abilitati
|
custom_topics | boolean |
Indica se gli argomenti personalizzati sono abilitati, true o false |
|
Argomenti
|
topics | array of string |
Elenco di argomenti personalizzati forniti se gli argomenti personalizzati sono abilitati |
|
Sentiment Analysis
|
sentiment_analysis | boolean |
Se l'analisi del sentiment è abilitata, può essere true o false |
|
Risultati dell'analisi del sentiment
|
sentiment_analysis_results | array of object |
Matrice di risultati per il modello di analisi del sentiment, se abilitata. Per altre informazioni, vedere Analisi del sentiment. |
|
Testo
|
sentiment_analysis_results.text | string |
Trascrizione della frase |
|
Start
|
sentiment_analysis_results.start | integer |
Ora di inizio, in millisecondi, della frase |
|
Fine
|
sentiment_analysis_results.end | integer |
Ora di fine, in millisecondi, della frase |
|
Valutazione
|
sentiment_analysis_results.sentiment |
Sentiment rilevato per la frase, uno di POSITIVE, NEUTRAL, NEGATIVE |
|
|
Fiducia
|
sentiment_analysis_results.confidence | double |
Punteggio di attendibilità per il sentiment rilevato della frase, da 0 a 1 |
|
Altoparlante
|
sentiment_analysis_results.speaker | string |
Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null |
|
Rilevamento entità
|
entity_detection | boolean |
Se il rilevamento delle entità è abilitato, può essere true o false |
|
Entities
|
entities | array of object |
Matrice di risultati per il modello rilevamento entità, se abilitata. Per altre informazioni, vedere Rilevamento delle entità. |
|
Tipo di entità
|
entities.entity_type | string |
Tipo di entità per l'entità rilevata |
|
Testo
|
entities.text | string |
Testo per l'entità rilevata |
|
Start
|
entities.start | integer |
Ora di inizio, in millisecondi, in cui l'entità rilevata viene visualizzata nel file audio |
|
Fine
|
entities.end | integer |
Ora di fine, in millisecondi, per l'entità rilevata nel file audio |
|
Soglia voce
|
speech_threshold | float |
Il valore predefinito è Null. Rifiutare i file audio che contengono meno di questa frazione di parlato. I valori validi sono inclusi nell'intervallo [0, 1]. |
|
Strozzato
|
throttled | boolean |
True mentre una richiesta è limitata e false quando una richiesta non è più limitata |
|
Errore
|
error | string |
Messaggio di errore relativo al motivo per cui la trascrizione non è riuscita |
|
Modello linguistico
|
language_model | string |
Modello linguistico usato per la trascrizione |
|
Modello acustico
|
acoustic_model | string |
Modello acustico usato per la trascrizione |
SentencesResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
ID trascrizione
|
id | uuid | |
|
Fiducia
|
confidence | double | |
|
Durata audio
|
audio_duration | number | |
|
Frasi
|
sentences | array of object | |
|
Testo
|
sentences.text | string | |
|
Start
|
sentences.start | integer | |
|
Fine
|
sentences.end | integer | |
|
Fiducia
|
sentences.confidence | double | |
|
Word
|
sentences.words | array of object | |
|
Fiducia
|
sentences.words.confidence | double | |
|
Start
|
sentences.words.start | integer | |
|
Fine
|
sentences.words.end | integer | |
|
Testo
|
sentences.words.text | string | |
|
Altoparlante
|
sentences.words.speaker | string |
Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null |
|
Altoparlante
|
sentences.speaker | string |
Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null |
ParagraphsResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
ID trascrizione
|
id | uuid | |
|
Fiducia
|
confidence | double | |
|
Durata audio
|
audio_duration | number | |
|
Paragraphs
|
paragraphs | array of object | |
|
Testo
|
paragraphs.text | string | |
|
Start
|
paragraphs.start | integer | |
|
Fine
|
paragraphs.end | integer | |
|
Fiducia
|
paragraphs.confidence | double | |
|
Word
|
paragraphs.words | array of object | |
|
Fiducia
|
paragraphs.words.confidence | double | |
|
Start
|
paragraphs.words.start | integer | |
|
Fine
|
paragraphs.words.end | integer | |
|
Testo
|
paragraphs.words.text | string | |
|
Altoparlante
|
paragraphs.words.speaker | string |
Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null |
|
Altoparlante
|
paragraphs.speaker | string |
Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null |
TranscriptList
Elenco di trascrizioni. Le trascrizioni vengono ordinate da più recenti a meno recenti. L'URL precedente punta sempre a una pagina con trascrizioni precedenti.
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Limite
|
page_details.limit | integer |
Il numero di risultati di questa pagina è limitato a |
|
Conteggio risultati
|
page_details.result_count | integer |
Numero effettivo di risultati nella pagina |
|
URL corrente
|
page_details.current_url | string |
URL usato per recuperare la pagina corrente delle trascrizioni |
|
URL precedente
|
page_details.prev_url | string |
URL della pagina successiva delle trascrizioni. L'URL precedente punta sempre a una pagina con trascrizioni precedenti. |
|
URL successivo
|
page_details.next_url | string |
URL della pagina successiva delle trascrizioni. L'URL successivo punta sempre a una pagina con trascrizioni più recenti. |
|
Transcripts
|
transcripts | array of object | |
|
Documento d'identità
|
transcripts.id | uuid | |
|
URL della risorsa
|
transcripts.resource_url | string | |
|
stato
|
transcripts.status | string |
Stato della trascrizione. I valori possibili sono in coda, elaborazione, completamento o errore. |
|
Created
|
transcripts.created | string | |
|
Finito
|
transcripts.completed | string | |
|
Audio URL
|
transcripts.audio_url | string | |
|
Errore
|
transcripts.error | string |
Messaggio di errore relativo al motivo per cui la trascrizione non è riuscita |
UploadedFile
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
URL file caricato
|
upload_url | string |
URL che punta al file audio, accessibile solo dai server di AssemblyAI |
PurgeLemurRequestDataResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Ripulire l'ID richiesta
|
request_id | uuid |
ID della richiesta di eliminazione della richiesta LeMUR |
|
ID richiesta LeMUR da ripulire
|
request_id_to_purge | uuid |
ID della richiesta LeMUR per ripulire i dati |
|
Cancellato
|
deleted | boolean |
Indica se i dati della richiesta sono stati eliminati |
LemurTaskResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Risposta
|
response | string |
Risposta generata da LeMUR. |
|
ID richiesta LeMUR
|
request_id | uuid |
ID della richiesta LeMUR |
|
Token di input
|
usage.input_tokens | integer |
Numero di token di input usati dal modello |
|
Token di output
|
usage.output_tokens | integer |
Numero di token di output generati dal modello |
LemurResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Risposta
|
response | string |
Risposta generata da LeMUR. |
|
ID richiesta LeMUR
|
request_id | uuid |
ID della richiesta LeMUR |
|
Token di input
|
usage.input_tokens | integer |
Numero di token di input usati dal modello |
|
Token di output
|
usage.output_tokens | integer |
Numero di token di output generati dal modello |
corda
Si tratta del tipo di dati di base 'string'.