Condividi tramite


AssemblyAI (anteprima)

Trascrivere ed estrarre dati dall'audio usando l'intelligenza artificiale voce di AssemblyAI.

Questo connettore è disponibile nei prodotti e nelle aree seguenti:

Servizio Class Regions
Copilot Studio Di alta qualità Tutte le aree di Power Automate , ad eccezione delle seguenti:
     - Governo degli Stati Uniti (GCC)
     - Us Government (GCC High)
     - China Cloud gestito da 21Vianet
     - Dipartimento della Difesa degli Stati Uniti (DoD)
App per la logica Normale Tutte le aree di App per la logica , ad eccezione delle seguenti:
     - Aree di Azure per enti pubblici
     - Aree di Azure Cina
     - Dipartimento della Difesa degli Stati Uniti (DoD)
Power Apps Di alta qualità Tutte le aree di Power Apps , ad eccezione dei seguenti:
     - Governo degli Stati Uniti (GCC)
     - Us Government (GCC High)
     - China Cloud gestito da 21Vianet
     - Dipartimento della Difesa degli Stati Uniti (DoD)
Power Automate Di alta qualità Tutte le aree di Power Automate , ad eccezione delle seguenti:
     - Governo degli Stati Uniti (GCC)
     - Us Government (GCC High)
     - China Cloud gestito da 21Vianet
     - Dipartimento della Difesa degli Stati Uniti (DoD)
Contatto
Nome Support
URL https://www.assemblyai.com/docs/
Email support@assemblyai.com
Metadati del connettore
Editore AssemblyAI
Sito web https://www.assemblyai.com
Informativa sulla privacy https://www.assemblyai.com/legal/privacy-policy
Categorie AI

Con il connettore AssemblyAI , è possibile usare i modelli di AssemblyAI per elaborare i dati audio trascrivendoli con i modelli di riconoscimento vocale, analizzandoli con modelli di intelligenza audio e creando funzionalità generative su di esso con llMs.

  • Riconoscimento vocale , incluse molte funzionalità configurabili, ad esempio la diarizzazione del parlante, l'ortografia personalizzata, il vocabolario personalizzato e così via.
  • I modelli di intelligenza artificiale audio sono modelli di intelligenza artificiale aggiuntivi disponibili e configurati tramite la configurazione della trascrizione.
  • LeMUR consente di applicare vari modelli LLM alle trascrizioni senza la necessità di creare un'infrastruttura RAG personalizzata per trascrizioni di grandi dimensioni.

Prerequisiti

Per procedere, è necessario quanto segue:

Come ottenere le credenziali

È possibile ottenere gratuitamente una chiave API AssemblyAI eseguendo l'iscrizione a un account e copiando la chiave API dal dashboard.

Introduzione al connettore

Seguire questa procedura per trascrivere l'audio usando il connettore AssemblyAI.

Caricare un file

Per trascrivere un file audio usando AssemblyAI, il file deve essere accessibile ad AssemblyAI. Se il file audio è già accessibile tramite un URL, è possibile usare l'URL esistente.

In caso contrario, è possibile usare l'azione Upload a File per caricare un file in AssemblyAI. Si otterrà un URL per il file che può essere usato solo per trascrivere usando la chiave API. Dopo aver trascritto il file, il file verrà rimosso dai server di AssemblyAI.

Trascrivere audio

Per trascrivere l'audio, configurare il parametro usando l'URL Audio URL del file audio. Configurare quindi i parametri aggiuntivi per abilitare altre funzionalità di riconoscimento vocale e modelli di Intelligenza audio .

Il risultato dell'azione Trascrivi audio è una trascrizione in coda che inizierà a essere elaborata immediatamente. Per ottenere la trascrizione completata, sono disponibili due opzioni:

  1. Gestire il webhook pronto per la trascrizione
  2. Eseguire il polling dello stato della trascrizione

Gestire il webhook pronto per la trascrizione

Se non si vuole gestire il webhook usando App per la logica o Power Automate, configurare il Webhook URL parametro nell'azione Transcribe Audio e implementare il webhook seguendo la documentazione del webhook di AssemblyAI.

Per gestire il webhook usando App per la logica o Power Automate, seguire questa procedura:

  1. Creare un'app per la logica separata o un flusso di Power Automate

  2. Configurare When an HTTP request is received come trigger:

    • Impostare Who Can Trigger The Flow? su Anyone
    • Impostare Request Body JSON Schema su:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Impostare Method su POST
  3. Aggiungere un'azione AssemblyAI Get Transcript passando transcript_id dal trigger al Transcript ID parametro .

  4. Prima di eseguire qualsiasi altra operazione, è necessario verificare se Status è completed o error. Aggiungere un'azione Condition che controlla se l'oggetto Status dell'output Get Transcript è error:

    • True Nel ramo aggiungere un'azione Terminate
      • Impostare su StatusFailed
      • Impostare su CodeTranscript Error
      • Passare l'oggetto Error dall'output Get Transcript al Message parametro .
    • È possibile lasciare vuoto il False ramo.

    È ora possibile aggiungere qualsiasi azione dopo aver Condition appreso lo stato della trascrizione è completede è possibile recuperare qualsiasi proprietà di output dell'azione Get Transcript .

  5. Salvare l'app per la logica o flow. Verrà HTTP URL generato per il When an HTTP request is received trigger. Copiare e tornare all'app per la HTTP URL logica originale o a Flow.

  6. Nell'app per la logica o nel flusso originale aggiornare l'azione Transcribe Audio . Incollare l'oggetto HTTP URL copiato in precedenza nel Webhook URL parametro e salvarlo.

Quando lo stato della trascrizione diventa completed o error, AssemblyAI invierà una richiesta HTTP POST all'URL del webhook, che verrà gestito dall'altra app per la logica o da Flow.

In alternativa all'uso del webhook, è possibile eseguire il polling dello stato della trascrizione come illustrato nella sezione successiva.

Eseguire il polling dello stato della trascrizione

È possibile eseguire il polling dello stato della trascrizione seguendo questa procedura:

  • Aggiungere un'azione Initialize variable

    • Impostare Name su transcript_status
    • Impostare Type su String
    • Archiviare l'oggetto Status dall'output Transcribe Audio nel Value parametro
  • Aggiungere un'azione Do until

    • Configurare il Loop Until parametro con il codice Fx seguente:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Questo codice controlla se la transcript_status variabile è completed o error.
    • Configurare il Count parametro in 86400
    • Configurare il Timeout parametro in PT24H

    All'interno dell'azione Do until aggiungere le azioni seguenti:

    • Aggiungere un'azione Delay che attende un secondo
    • Aggiungere un'azione Get Transcript e passare l'oggetto ID dall'output Transcribe Audio al Transcript ID parametro .
    • Aggiungere un'azione Set variable
      • Impostare Name su transcript_status
      • Passare l'oggetto Status dell'output Get Transcript al Value parametro

    Il Do until ciclo continuerà fino al completamento della trascrizione o si è verificato un errore.

  • Aggiungere un'altra Get Transcript azione, ad esempio prima, ma aggiungerla dopo il ciclo in modo che l'output Do until diventi disponibile all'esterno dell'ambito dell'azione Do until .

Prima di eseguire qualsiasi altra operazione, è necessario verificare se la trascrizione Status è completed o error. Aggiungere un'azione Condition che controlla se transcript_status è error:

  • True Nel ramo aggiungere un'azione Terminate
    • Impostare Status su Failed
    • Impostare Code su Transcript Error
    • Passare l'oggetto Error dall'output Get Transcript al Message parametro .
  • È possibile lasciare vuoto il False ramo.

È ora possibile aggiungere qualsiasi azione dopo aver Condition appreso lo stato della trascrizione è completede è possibile recuperare qualsiasi proprietà di output dell'azione Get Transcript .

Aggiungi più azioni

Ora che è stata completata la trascrizione, è possibile usare molte altre azioni che passano la ID trascrizione, ad esempio

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Problemi noti e limitazioni

Nessun problema noto attualmente. Non è supportata la funzionalità Streaming Speech-To-Text (in tempo reale) perché non è possibile usare connettori personalizzati.

Errori e rimedi comuni

Altre informazioni sugli errori sono disponibili nella documentazione di AssemblyAI.

Domande frequenti

È possibile trovare le domande frequenti nella documentazione.

Creazione di una connessione

Il connettore supporta i tipi di autenticazione seguenti:

Predefinita Parametri per la creazione della connessione. Tutte le aree geografiche Non condivisibile

Predefinito

Applicabile: tutte le aree

Parametri per la creazione della connessione.

Questa non è una connessione condivisibile. Se l'app power viene condivisa con un altro utente, verrà richiesto a un altro utente di creare una nuova connessione in modo esplicito.

Nome TIPO Description Obbligatorio
Chiave API AssemblyAI securestring Chiave API AssemblyAI per autenticare l'API AssemblyAI. Vero

Limiti per la limitazione delle richieste

Nome Chiamate Periodo di rinnovo
Chiamate API per connessione 100 60 secondi

Azioni

Caricare un file multimediale

Caricare un file multimediale nei server assemblyAI.

Cerca parole nella trascrizione

Cercare le parole chiave nella trascrizione. È possibile cercare singole parole, numeri o frasi contenenti fino a cinque parole o numeri.

Elencare le trascrizioni

Recuperare un elenco di trascrizioni create. Le trascrizioni vengono ordinate da più recenti a meno recenti. L'URL precedente punta sempre a una pagina con trascrizioni precedenti.

Elimina trascrizione

Eliminare la trascrizione. L'eliminazione non elimina la risorsa stessa, ma rimuove i dati dalla risorsa e li contrassegna come eliminati.

Eseguire un'attività usando LeMUR

Usare l'endpoint dell'attività LeMUR per immettere un prompt LLM personalizzato.

Ottenere frasi nella trascrizione

Ottenere la trascrizione divisa per frasi. L'API tenterà di segmentare semanticamente la trascrizione in frasi per creare trascrizioni più descrittive per il lettore.

Ottenere l'audio reditto

Recuperare l'oggetto audio redatto contenente lo stato e l'URL per l'audio redatto.

Ottenere la trascrizione

Ottenere la risorsa di trascrizione. La trascrizione è pronta quando lo "stato" è "completato".

Ottenere paragrafi nella trascrizione

Ottiene la divisione della trascrizione in base ai paragrafi. L'API tenterà di segmentare semanticamente la trascrizione in paragrafi per creare trascrizioni più descrittive per il lettore.

Ottenere sottotitoli per la trascrizione

Esportare la trascrizione in formato SRT o VTT da usare con un lettore video per sottotitoli e sottotitoli.

Recuperare la risposta LeMUR

Recuperare una risposta LeMUR generata in precedenza.

Ripulire i dati della richiesta LeMUR

Eliminare i dati per una richiesta LeMUR inviata in precedenza. I dati di risposta LLM e qualsiasi contesto fornito nella richiesta originale verranno rimossi.

Trascrivere audio

Creare una trascrizione da un file multimediale accessibile tramite un URL.

Caricare un file multimediale

Caricare un file multimediale nei server assemblyAI.

Parametri

Nome Chiave Necessario Tipo Descrizione
Contenuto del file
file True binary

File da caricare.

Restituisce

Corpo
UploadedFile

Cerca parole nella trascrizione

Cercare le parole chiave nella trascrizione. È possibile cercare singole parole, numeri o frasi contenenti fino a cinque parole o numeri.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID trascrizione
transcript_id True string

ID della trascrizione

Word
words True array

Parole chiave da cercare

Restituisce

Elencare le trascrizioni

Recuperare un elenco di trascrizioni create. Le trascrizioni vengono ordinate da più recenti a meno recenti. L'URL precedente punta sempre a una pagina con trascrizioni precedenti.

Parametri

Nome Chiave Necessario Tipo Descrizione
Limite
limit integer

Quantità massima di trascrizioni da recuperare

stato
status string

Stato della trascrizione. I valori possibili sono in coda, elaborazione, completamento o errore.

Data di creazione
created_on date

Ottenere solo le trascrizioni create in questa data

Prima dell'ID
before_id uuid

Ottenere le trascrizioni create prima di questo ID trascrizione

Dopo l'ID
after_id uuid

Ottenere le trascrizioni create dopo questo ID di trascrizione

Solo limitazione
throttled_only boolean

Ottiene solo le trascrizioni limitate, esegue l'override del filtro di stato

Restituisce

Elenco di trascrizioni. Le trascrizioni vengono ordinate da più recenti a meno recenti. L'URL precedente punta sempre a una pagina con trascrizioni precedenti.

Elimina trascrizione

Eliminare la trascrizione. L'eliminazione non elimina la risorsa stessa, ma rimuove i dati dalla risorsa e li contrassegna come eliminati.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID trascrizione
transcript_id True string

ID della trascrizione

Restituisce

Oggetto trascrizione

Corpo
Transcript

Eseguire un'attività usando LeMUR

Usare l'endpoint dell'attività LeMUR per immettere un prompt LLM personalizzato.

Parametri

Nome Chiave Necessario Tipo Descrizione
Rapido
prompt True string

Testo per richiedere al modello di produrre un output desiderato, incluso qualsiasi contesto da passare al modello.

ID trascrizione
transcript_ids array of uuid

Elenco di trascrizioni completate con testo. Fino a un massimo di 100 file o 100 ore, a qualsiasi livello inferiore. Usare transcript_ids o input_text come input in LeMUR.

Testo di input
input_text string

Dati di trascrizione formattati personalizzati. La dimensione massima è il limite di contesto del modello selezionato, che per impostazione predefinita è 100000. Usare transcript_ids o input_text come input in LeMUR.

Context
context string

Contesto per fornire il modello. Può trattarsi di una stringa o di un valore JSON in formato libero.

Modello finale
final_model string

Modello utilizzato per il prompt finale dopo l'esecuzione della compressione.

Dimensioni massime output
max_output_size integer

Dimensioni massime di output nei token, fino a 4000

Temperatura
temperature float

Temperatura da usare per il modello. I valori più elevati generano risposte più creative, valori inferiori sono più conservativi. Può essere qualsiasi valore compreso tra 0,0 e 1,0 inclusi.

Restituisce

Ottenere frasi nella trascrizione

Ottenere la trascrizione divisa per frasi. L'API tenterà di segmentare semanticamente la trascrizione in frasi per creare trascrizioni più descrittive per il lettore.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID trascrizione
transcript_id True string

ID della trascrizione

Restituisce

Ottenere l'audio reditto

Recuperare l'oggetto audio redatto contenente lo stato e l'URL per l'audio redatto.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID trascrizione
transcript_id True string

ID della trascrizione

Restituisce

Ottenere la trascrizione

Ottenere la risorsa di trascrizione. La trascrizione è pronta quando lo "stato" è "completato".

Parametri

Nome Chiave Necessario Tipo Descrizione
ID trascrizione
transcript_id True string

ID della trascrizione

Restituisce

Oggetto trascrizione

Corpo
Transcript

Ottenere paragrafi nella trascrizione

Ottiene la divisione della trascrizione in base ai paragrafi. L'API tenterà di segmentare semanticamente la trascrizione in paragrafi per creare trascrizioni più descrittive per il lettore.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID trascrizione
transcript_id True string

ID della trascrizione

Restituisce

Ottenere sottotitoli per la trascrizione

Esportare la trascrizione in formato SRT o VTT da usare con un lettore video per sottotitoli e sottotitoli.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID trascrizione
transcript_id True string

ID della trascrizione

Formato sottotitoli
subtitle_format True string

Formato dei sottotitoli

Numero di caratteri per didascalia
chars_per_caption integer

Numero massimo di caratteri per didascalia

Restituisce

response
string

Recuperare la risposta LeMUR

Recuperare una risposta LeMUR generata in precedenza.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID richiesta LeMUR
request_id True string

ID della richiesta LeMUR effettuata in precedenza. Ciò si trova nella risposta della richiesta originale.

Restituisce

Ripulire i dati della richiesta LeMUR

Eliminare i dati per una richiesta LeMUR inviata in precedenza. I dati di risposta LLM e qualsiasi contesto fornito nella richiesta originale verranno rimossi.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID richiesta LeMUR
request_id True string

ID della richiesta LeMUR di cui si desidera eliminare i dati. Ciò si trova nella risposta della richiesta originale.

Restituisce

Trascrivere audio

Creare una trascrizione da un file multimediale accessibile tramite un URL.

Parametri

Nome Chiave Necessario Tipo Descrizione
Audio URL
audio_url True string

URL del file audio o video da trascrivere.

Codice lingua
language_code string

Lingua del file audio. I valori possibili sono disponibili in Lingue supportate. Il valore predefinito è 'en_us'.

Language Detection
language_detection boolean

Abilitare il rilevamento automatico della lingua, true o false.

Modello di riconoscimento vocale
speech_model string

Modello di riconoscimento vocale da usare per la trascrizione.

Punteggiare
punctuate boolean

Abilitare la punteggiatura automatica, può essere true o false

Formato testo
format_text boolean

Abilitare la formattazione del testo, può essere true o false

Disfluenze
disfluencies boolean

Trascrivere parole filler, come "um", nel file multimediale; può essere true o false

Doppio canale
dual_channel boolean

Abilitare la trascrizione dual channel, può essere true o false.

Webhook URL
webhook_url string

URL a cui si inviano richieste webhook. Vengono inviati due tipi diversi di richieste webhook. Una richiesta quando una trascrizione viene completata o non è riuscita e una richiesta quando l'audio redatto è pronto se redact_pii_audio è abilitato.

Nome intestazione autenticazione webhook
webhook_auth_header_name string

Nome dell'intestazione da inviare con la trascrizione completata o con richieste webhook non riuscite

Valore intestazione autenticazione webhook
webhook_auth_header_value string

Valore dell'intestazione da restituire con la trascrizione completata o con richieste webhook non riuscite per la sicurezza aggiunta

Frasi chiave
auto_highlights boolean

Abilitare frasi chiave, true o false

Inizio audio da
audio_start_from integer

Temporizzato, in millisecondi, per iniziare la trascrizione nel file multimediale

Audio End At
audio_end_at integer

Temporizzato, in millisecondi, per interrompere la trascrizione nel file multimediale

Word Boost
word_boost array of string

Elenco di vocabolari personalizzati per aumentare la probabilità di trascrizione per

Livello di boost di Word
boost_param string

Quanto aumentare le parole specificate

Filtrare il contenuto volgare
filter_profanity boolean

Filtrare il contenuto volgare dal testo trascritto, può essere true o false

Redact PII
redact_pii boolean

Redact PII from the transcriscritto text using the Redact PII model, can be true o false

Redact PII Audio
redact_pii_audio boolean

Generare una copia del file multimediale originale con informazioni personali pronunciate "beeped", può essere true o false. Per altri dettagli, vedere Ridistribuzione delle informazioni personali.

Redact PII Audio Quality
redact_pii_audio_quality string

Controlla il tipo di file dell'audio creato da redact_pii_audio. Attualmente supporta mp3 (impostazione predefinita) e wav. Per altri dettagli, vedere Ridistribuzione delle informazioni personali.

Redact PII Policies
redact_pii_policies array of string

Elenco dei criteri di reindirizzamento delle informazioni personali da abilitare. Per altri dettagli, vedere Ridistribuzione delle informazioni personali.

Redact PII Substitution
redact_pii_sub string

La logica di sostituzione per le informazioni personali rilevate può essere "entity_name" o "hash". Per altri dettagli, vedere Ridistribuzione delle informazioni personali.

Etichette voce
speaker_labels boolean

Abilitare la diarizzazione dell'altoparlante, può essere true o false

Relatori previsti
speakers_expected integer

Indica al modello di etichetta dell'altoparlante il numero di altoparlanti che deve tentare di identificare, fino a 10. Per altri dettagli, vedere Diarizzazione del parlante.

Moderazione del contenuto
content_safety boolean

Abilitare la moderazione del contenuto, può essere true o false

Attendibilità moderazione contenuto
content_safety_confidence integer

Soglia di attendibilità per il modello moderazione contenuto. I valori devono essere compresi tra 25 e 100.

Rilevamento argomenti
iab_categories boolean

Abilitare il rilevamento degli argomenti, può essere true o false

Da
from True array of string

Parole o frasi da sostituire

Per
to True string

Parola o frase da sostituire con

Sentiment Analysis
sentiment_analysis boolean

Abilitare l'analisi del sentiment, può essere true o false

Capitoli automatici
auto_chapters boolean

Abilitare i capitoli automatici, può essere true o false

Rilevamento entità
entity_detection boolean

Abilitare il rilevamento delle entità, può essere true o false

Soglia voce
speech_threshold float

Rifiutare i file audio che contengono meno di questa frazione di parlato. I valori validi sono inclusi nell'intervallo [0, 1].

Abilita riepilogo
summarization boolean

Abilitare il riepilogo, può essere true o false

Modello di riepilogo
summary_model string

Modello per riepilogare la trascrizione

Tipo di riepilogo
summary_type string

Tipo di riepilogo

Abilitare argomenti personalizzati
custom_topics boolean

Abilitare argomenti personalizzati, true o false

Argomenti personalizzati
topics array of string

Elenco di argomenti personalizzati

Restituisce

Oggetto trascrizione

Corpo
Transcript

Definizioni

RedactedAudioResponse

Nome Percorso Tipo Descrizione
stato
status string

Stato dell'audio redatto

URL audio modificato
redacted_audio_url string

URL del file audio redatto

WordSearchResponse

Nome Percorso Tipo Descrizione
ID trascrizione
id uuid

ID della trascrizione

Totale conteggio delle corrispondenze
total_count integer

Conteggio totale di tutte le istanze corrispondenti. Ad esempio, parola 1 corrispondente 2 volte e parola 2 corrispondente 3 volte, total_count sarà uguale a 5.

Corrispondenze
matches array of object

Corrispondenze della ricerca

Testo
matches.text string

Parola corrispondente

Conteggio
matches.count integer

Quantità totale di volte in cui la parola è nella trascrizione

Timestamp
matches.timestamps array of array

Matrice di timestamp

Marca temporale:
matches.timestamps array of integer

Matrice di timestamp strutturata come [start_time, end_time] in millisecondi

Indexes
matches.indexes array of integer

Matrice di tutte le posizioni di indice per tale parola all'interno della matrice di parole della trascrizione completata

Trascrizione

Oggetto trascrizione

Nome Percorso Tipo Descrizione
Documento d'identità
id uuid

Identificatore univoco della trascrizione

Audio URL
audio_url string

URL dei supporti trascritti

stato
status string

Stato della trascrizione. I valori possibili sono in coda, elaborazione, completamento o errore.

Codice lingua
language_code string

Lingua del file audio. I valori possibili sono disponibili in Lingue supportate. Il valore predefinito è 'en_us'.

Language Detection
language_detection boolean

Indica se il rilevamento automatico della lingua è abilitato, true o false

Modello di riconoscimento vocale
speech_model string

Modello di riconoscimento vocale da usare per la trascrizione.

Testo
text string

Trascrizione testuale del file multimediale

Word
words array of object

Matrice di oggetti parola sequenziale temporale, uno per ogni parola nella trascrizione. Per altre informazioni, vedere Riconoscimento vocale.

Fiducia
words.confidence double
Start
words.start integer
Fine
words.end integer
Testo
words.text string
Altoparlante
words.speaker string

Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null

Espressioni
utterances array of object

Quando dual_channel o speaker_labels è abilitato, viene visualizzato un elenco di oggetti espressioni turn-by-turn. Per altre informazioni, vedere Diarizzazione del parlante.

Fiducia
utterances.confidence double

Punteggio di attendibilità per la trascrizione di questa espressione

Start
utterances.start integer

Ora di inizio, in millisecondi, dell'espressione nel file audio

Fine
utterances.end integer

Ora di fine, in millisecondi, dell'espressione nel file audio

Testo
utterances.text string

Testo per questa espressione

Word
utterances.words array of object

Parole nell'espressione.

Fiducia
utterances.words.confidence double
Start
utterances.words.start integer
Fine
utterances.words.end integer
Testo
utterances.words.text string
Altoparlante
utterances.words.speaker string

Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null

Altoparlante
utterances.speaker string

Il parlante di questa espressione, in cui a ogni altoparlante viene assegnata una lettera maiuscola sequenziale, ad esempio "A" per speaker A, "B" per Speaker B e così via.

Fiducia
confidence double

Punteggio di attendibilità per la trascrizione, compreso tra 0,0 (attendibilità bassa) e 1,0 (attendibilità elevata)

Durata audio
audio_duration integer

Durata del file multimediale dell'oggetto trascrizione, espresso in secondi

Punteggiare
punctuate boolean

Indica se la punteggiatura automatica è abilitata, true o false

Formato testo
format_text boolean

Indica se la formattazione del testo è abilitata, true o false

Disfluenze
disfluencies boolean

Trascrivere parole filler, come "um", nel file multimediale; può essere true o false

Doppio canale
dual_channel boolean

Indica se la trascrizione dual channel è stata abilitata nella richiesta di trascrizione, true o false

Webhook URL
webhook_url string

URL a cui si inviano richieste webhook. Vengono inviati due tipi diversi di richieste webhook. Una richiesta quando una trascrizione viene completata o non è riuscita e una richiesta quando l'audio redatto è pronto se redact_pii_audio è abilitato.

Codice di stato HTTP webhook
webhook_status_code integer

Il codice di stato ricevuto dal server durante il recapito della trascrizione completata o la richiesta di webhook non riuscita, se è stato specificato un URL webhook

Autenticazione webhook abilitata
webhook_auth boolean

Indica se sono stati specificati i dettagli di autenticazione del webhook

Nome intestazione autenticazione webhook
webhook_auth_header_name string

Nome dell'intestazione da inviare con la trascrizione completata o con richieste webhook non riuscite

Boost di velocità
speed_boost boolean

Indica se l'aumento della velocità è abilitato

Frasi chiave
auto_highlights boolean

Indica se le frasi chiave sono abilitate, true o false

stato
auto_highlights_result.status string

Esito positivo o non disponibile nel caso raro in cui il modello non sia riuscito

Results
auto_highlights_result.results array of object

Matrice sequenziale temporale di frasi chiave

Conteggio
auto_highlights_result.results.count integer

Numero totale di volte in cui la frase chiave viene visualizzata nel file audio

Classificazione
auto_highlights_result.results.rank float

La pertinenza totale per il file audio complessivo di questa frase chiave- un numero maggiore significa più rilevante

Testo
auto_highlights_result.results.text string

Testo stesso della frase chiave

Timestamp
auto_highlights_result.results.timestamps array of object

Timestamp della frase chiave

Start
auto_highlights_result.results.timestamps.start integer

Ora di inizio in millisecondi

Fine
auto_highlights_result.results.timestamps.end integer

Ora di fine in millisecondi

Inizio audio da
audio_start_from integer

Punto nel tempo, in millisecondi, nel file in cui è stata avviata la trascrizione

Audio End At
audio_end_at integer

Punto nel tempo, in millisecondi, nel file in cui è stata terminata la trascrizione

Word Boost
word_boost array of string

Elenco di vocabolari personalizzati per aumentare la probabilità di trascrizione per

Aumentare
boost_param string

Valore del parametro word boost

Filtrare il contenuto volgare
filter_profanity boolean

Indica se è abilitato il filtro per il contenuto volgare, true o false

Redact PII
redact_pii boolean

Indica se la funzionalità di reindirizzamento delle informazioni personali è abilitata, true o false

Redact PII Audio
redact_pii_audio boolean

Indica se è stata generata una versione corretta del file audio, true o false. Per altre informazioni, vedere Ridistribuzione delle informazioni personali.

Redact PII Audio Quality
redact_pii_audio_quality string

Controlla il tipo di file dell'audio creato da redact_pii_audio. Attualmente supporta mp3 (impostazione predefinita) e wav. Per altri dettagli, vedere Ridistribuzione delle informazioni personali.

Redact PII Policies
redact_pii_policies array of string

Elenco dei criteri di reindirizzamento delle informazioni personali abilitati, se è abilitata la funzionalità di reindirizzamento delle informazioni personali. Per altre informazioni, vedere Ridistribuzione delle informazioni personali.

Redact PII Substitution
redact_pii_sub string

La logica di sostituzione per le informazioni personali rilevate può essere "entity_name" o "hash". Per altri dettagli, vedere Ridistribuzione delle informazioni personali.

Etichette voce
speaker_labels boolean

Se la diarizzazione dell'altoparlante è abilitata, può essere true o false

Relatori previsti
speakers_expected integer

Indicare al modello di etichetta dell'altoparlante il numero di altoparlanti che deve tentare di identificare, fino a 10. Per altri dettagli, vedere Diarizzazione del parlante.

Moderazione del contenuto
content_safety boolean

Se la moderazione del contenuto è abilitata, può essere true o false

stato
content_safety_labels.status string

Esito positivo o non disponibile nel caso raro in cui il modello non sia riuscito

Results
content_safety_labels.results array of object
Testo
content_safety_labels.results.text string

Trascrizione della sezione contrassegnata dal modello Moderazione contenuto

Etichette
content_safety_labels.results.labels array of object

Matrice di etichette di sicurezza, una per argomento sensibile rilevata nella sezione

Etichetta
content_safety_labels.results.labels.label string

Etichetta dell'argomento sensibile

Fiducia
content_safety_labels.results.labels.confidence double

Punteggio di attendibilità per l'argomento discusso, da 0 a 1

Severity
content_safety_labels.results.labels.severity double

Quanto gravemente l'argomento è discusso nella sezione, da 0 a 1

Inizio indice frasi
content_safety_labels.results.sentences_idx_start integer

Indice della frase in corrispondenza del quale inizia la sezione

Fine indice frasi
content_safety_labels.results.sentences_idx_end integer

Indice della frase in corrispondenza del quale termina la sezione

Start
content_safety_labels.results.timestamp.start integer

Ora di inizio in millisecondi

Fine
content_safety_labels.results.timestamp.end integer

Ora di fine in millisecondi

Riassunto
content_safety_labels.summary object

Riepilogo dei risultati di attendibilità moderazione contenuto per l'intero file audio

Riepilogo punteggio gravità
content_safety_labels.severity_score_summary object

Riepilogo dei risultati della gravità della moderazione del contenuto per l'intero file audio

Rilevamento argomenti
iab_categories boolean

Se il rilevamento degli argomenti è abilitato, può essere true o false

stato
iab_categories_result.status string

Esito positivo o non disponibile nel caso raro in cui il modello non sia riuscito

Results
iab_categories_result.results array of object

Matrice di risultati per il modello rilevamento argomenti

Testo
iab_categories_result.results.text string

Testo nella trascrizione in cui si verifica un argomento rilevato

Etichette
iab_categories_result.results.labels array of object
Pertinenza
iab_categories_result.results.labels.relevance double

La rilevanza dell'argomento rilevato è di un argomento rilevato

Etichetta
iab_categories_result.results.labels.label string

Etichetta tassonomia IAB per l'etichetta dell'argomento rilevato, dove > indica la relazione supertopic/subtopic

Start
iab_categories_result.results.timestamp.start integer

Ora di inizio in millisecondi

Fine
iab_categories_result.results.timestamp.end integer

Ora di fine in millisecondi

Riassunto
iab_categories_result.summary object

La rilevanza complessiva dell'argomento per l'intero file audio

Ortografia personalizzata
custom_spelling array of object

Personalizzare il modo in cui le parole vengono digitate e formattate usando i valori da e verso

Da
custom_spelling.from array of string

Parole o frasi da sostituire

Per
custom_spelling.to string

Parola o frase da sostituire con

Capitoli automatici abilitati
auto_chapters boolean

Se i capitoli automatici sono abilitati, possono essere true o false

Capitoli
chapters array of object

Matrice di capitoli sequenziali temporali per il file audio

Essenza
chapters.gist string

Un riepilogo ultra breve (poche parole) del contenuto parlato nel capitolo

Titolo
chapters.headline string

Riepilogo di una singola frase del contenuto pronunciato durante il capitolo

Riassunto
chapters.summary string

Riepilogo di un paragrafo del contenuto parlato durante il capitolo

Start
chapters.start integer

Ora di inizio, in millisecondi, per il capitolo

Fine
chapters.end integer

Ora di inizio, in millisecondi, per il capitolo

Riepilogo abilitato
summarization boolean

Indica se l'opzione Riepilogo è abilitata, true o false

Tipo di riepilogo
summary_type string

Tipo di riepilogo generato, se Il riepilogo è abilitato

Modello di riepilogo
summary_model string

Modello Di riepilogo usato per generare il riepilogo, se è abilitato Il riepilogo

Riassunto
summary string

Riepilogo generato del file multimediale, se Il riepilogo è abilitato

Argomenti personalizzati abilitati
custom_topics boolean

Indica se gli argomenti personalizzati sono abilitati, true o false

Argomenti
topics array of string

Elenco di argomenti personalizzati forniti se gli argomenti personalizzati sono abilitati

Sentiment Analysis
sentiment_analysis boolean

Se l'analisi del sentiment è abilitata, può essere true o false

Risultati dell'analisi del sentiment
sentiment_analysis_results array of object

Matrice di risultati per il modello di analisi del sentiment, se abilitata. Per altre informazioni, vedere Analisi del sentiment.

Testo
sentiment_analysis_results.text string

Trascrizione della frase

Start
sentiment_analysis_results.start integer

Ora di inizio, in millisecondi, della frase

Fine
sentiment_analysis_results.end integer

Ora di fine, in millisecondi, della frase

Valutazione
sentiment_analysis_results.sentiment

Sentiment rilevato per la frase, uno di POSITIVE, NEUTRAL, NEGATIVE

Fiducia
sentiment_analysis_results.confidence double

Punteggio di attendibilità per il sentiment rilevato della frase, da 0 a 1

Altoparlante
sentiment_analysis_results.speaker string

Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null

Rilevamento entità
entity_detection boolean

Se il rilevamento delle entità è abilitato, può essere true o false

Entities
entities array of object

Matrice di risultati per il modello rilevamento entità, se abilitata. Per altre informazioni, vedere Rilevamento delle entità.

Tipo di entità
entities.entity_type string

Tipo di entità per l'entità rilevata

Testo
entities.text string

Testo per l'entità rilevata

Start
entities.start integer

Ora di inizio, in millisecondi, in cui l'entità rilevata viene visualizzata nel file audio

Fine
entities.end integer

Ora di fine, in millisecondi, per l'entità rilevata nel file audio

Soglia voce
speech_threshold float

Il valore predefinito è Null. Rifiutare i file audio che contengono meno di questa frazione di parlato. I valori validi sono inclusi nell'intervallo [0, 1].

Strozzato
throttled boolean

True mentre una richiesta è limitata e false quando una richiesta non è più limitata

Errore
error string

Messaggio di errore relativo al motivo per cui la trascrizione non è riuscita

Modello linguistico
language_model string

Modello linguistico usato per la trascrizione

Modello acustico
acoustic_model string

Modello acustico usato per la trascrizione

SentencesResponse

Nome Percorso Tipo Descrizione
ID trascrizione
id uuid
Fiducia
confidence double
Durata audio
audio_duration number
Frasi
sentences array of object
Testo
sentences.text string
Start
sentences.start integer
Fine
sentences.end integer
Fiducia
sentences.confidence double
Word
sentences.words array of object
Fiducia
sentences.words.confidence double
Start
sentences.words.start integer
Fine
sentences.words.end integer
Testo
sentences.words.text string
Altoparlante
sentences.words.speaker string

Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null

Altoparlante
sentences.speaker string

Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null

ParagraphsResponse

Nome Percorso Tipo Descrizione
ID trascrizione
id uuid
Fiducia
confidence double
Durata audio
audio_duration number
Paragraphs
paragraphs array of object
Testo
paragraphs.text string
Start
paragraphs.start integer
Fine
paragraphs.end integer
Fiducia
paragraphs.confidence double
Word
paragraphs.words array of object
Fiducia
paragraphs.words.confidence double
Start
paragraphs.words.start integer
Fine
paragraphs.words.end integer
Testo
paragraphs.words.text string
Altoparlante
paragraphs.words.speaker string

Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null

Altoparlante
paragraphs.speaker string

Relatore della frase se la diarizzazione del parlante è abilitata, altrimenti null

TranscriptList

Elenco di trascrizioni. Le trascrizioni vengono ordinate da più recenti a meno recenti. L'URL precedente punta sempre a una pagina con trascrizioni precedenti.

Nome Percorso Tipo Descrizione
Limite
page_details.limit integer

Il numero di risultati di questa pagina è limitato a

Conteggio risultati
page_details.result_count integer

Numero effettivo di risultati nella pagina

URL corrente
page_details.current_url string

URL usato per recuperare la pagina corrente delle trascrizioni

URL precedente
page_details.prev_url string

URL della pagina successiva delle trascrizioni. L'URL precedente punta sempre a una pagina con trascrizioni precedenti.

URL successivo
page_details.next_url string

URL della pagina successiva delle trascrizioni. L'URL successivo punta sempre a una pagina con trascrizioni più recenti.

Transcripts
transcripts array of object
Documento d'identità
transcripts.id uuid
URL della risorsa
transcripts.resource_url string
stato
transcripts.status string

Stato della trascrizione. I valori possibili sono in coda, elaborazione, completamento o errore.

Created
transcripts.created string
Finito
transcripts.completed string
Audio URL
transcripts.audio_url string
Errore
transcripts.error string

Messaggio di errore relativo al motivo per cui la trascrizione non è riuscita

UploadedFile

Nome Percorso Tipo Descrizione
URL file caricato
upload_url string

URL che punta al file audio, accessibile solo dai server di AssemblyAI

PurgeLemurRequestDataResponse

Nome Percorso Tipo Descrizione
Ripulire l'ID richiesta
request_id uuid

ID della richiesta di eliminazione della richiesta LeMUR

ID richiesta LeMUR da ripulire
request_id_to_purge uuid

ID della richiesta LeMUR per ripulire i dati

Cancellato
deleted boolean

Indica se i dati della richiesta sono stati eliminati

LemurTaskResponse

Nome Percorso Tipo Descrizione
Risposta
response string

Risposta generata da LeMUR.

ID richiesta LeMUR
request_id uuid

ID della richiesta LeMUR

Token di input
usage.input_tokens integer

Numero di token di input usati dal modello

Token di output
usage.output_tokens integer

Numero di token di output generati dal modello

LemurResponse

Nome Percorso Tipo Descrizione
Risposta
response string

Risposta generata da LeMUR.

ID richiesta LeMUR
request_id uuid

ID della richiesta LeMUR

Token di input
usage.input_tokens integer

Numero di token di input usati dal modello

Token di output
usage.output_tokens integer

Numero di token di output generati dal modello

corda

Si tratta del tipo di dati di base 'string'.