AssemblyAI (préversion)
Transcrivez et extrayez des données de l’audio à l’aide de l’ia vocale d’AssemblyAI.
Ce connecteur est disponible dans les produits et régions suivants :
| Service | classe | Régions |
|---|---|---|
| Copilot Studio | Premium | Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Applications logiques | Norme | Toutes les régions Logic Apps , à l’exception des suivantes : - Régions Azure Government - Régions Azure Chine - Us Department of Defense (DoD) |
| Power Apps | Premium | Toutes les régions Power Apps , à l’exception des suivantes : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Power Automate | Premium | Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD) |
| Contact | |
|---|---|
| Nom | Support |
| URL | https://www.assemblyai.com/docs/ |
| Messagerie électronique | support@assemblyai.com |
| Métadonnées du connecteur | |
|---|---|
| Éditeur | AssemblyAI |
| Site internet | https://www.assemblyai.com |
| Politique de confidentialité | https://www.assemblyai.com/legal/privacy-policy |
| Catégories | AI |
Avec le connecteur AssemblyAI , vous pouvez utiliser les modèles d’AssemblyAI pour traiter les données audio en les transcrire avec des modèles de reconnaissance vocale, en l’analysant avec des modèles d’intelligence audio et en créant des fonctionnalités de génération sur celles-ci avec des llMs.
- Reconnaissance vocale, y compris de nombreuses fonctionnalités configurables, telles que la diarisation de l’orateur, l’orthographe personnalisée, le vocabulaire personnalisé, etc.
- Les modèles Audio Intelligence sont des modèles IA supplémentaires disponibles et configurés par le biais de la configuration de transcription.
- LeMUR vous permet d’appliquer différents modèles LLM à vos transcriptions sans avoir à créer votre propre infrastructure RAG pour des transcriptions très volumineuses.
Prerequisites
Vous devez procéder comme suit :
- Une clé API AssemblyAI (obtenez-en une gratuitement)
Comment obtenir des informations d’identification
Vous pouvez obtenir gratuitement une clé API AssemblyAI en vous inscrivant à un compte et en copiant la clé API à partir du tableau de bord.
Bien démarrer avec votre connecteur
Suivez ces étapes pour transcrire l’audio à l’aide du connecteur AssemblyAI.
Charger un fichier
Pour transcrire un fichier audio à l’aide d’AssemblyAI, le fichier doit être accessible à AssemblyAI. Si votre fichier audio est déjà accessible via une URL, vous pouvez utiliser votre URL existante.
Sinon, vous pouvez utiliser l’action Upload a File pour charger un fichier dans AssemblyAI.
Vous récupérerez une URL pour votre fichier qui ne peut être utilisée que pour transcrire à l’aide de votre clé API.
Une fois que vous avez transcrit le fichier, le fichier est supprimé des serveurs d’AssemblyAI.
Transcrire l’audio
Pour transcrire votre audio, configurez le paramètre à l’aide Audio URL de votre URL de fichier audio.
Ensuite, configurez les paramètres supplémentaires pour activer davantage de fonctionnalités de reconnaissance vocale et de modèles Audio Intelligence .
Le résultat de l’action Transscribe Audio est une transcription mise en file d’attente qui commence à être traitée immédiatement. Pour obtenir la transcription terminée, vous avez deux options :
Gérer le Webhook Prêt pour la transcription
Si vous ne souhaitez pas gérer le webhook à l’aide de Logic Apps ou de Power Automate, configurez le Webhook URL paramètre dans votre Transcribe Audio action et implémentez votre webhook en suivant la documentation webhook d’AssemblyAI.
Pour gérer le webhook à l’aide de Logic Apps ou de Power Automate, procédez comme suit :
Créer une application logique distincte ou un flux Power Automate
Configurez
When an HTTP request is receivedcomme déclencheur :- Définir sur
Who Can Trigger The Flow?Anyone - Défini
Request Body JSON Schemasur :{ "type": "object", "properties": { "transcript_id": { "type": "string" }, "status": { "type": "string" } } } - Définir sur
MethodPOST
- Définir sur
Ajoutez une action AssemblyAI
Get Transcript, en passant letranscript_iddéclencheur auTranscript IDparamètre.Avant de faire autre chose, vous devez vérifier si l’est
Statuscompletedouerror. Ajoutez uneConditionaction qui vérifie si laStatusGet Transcriptsortie esterror:- Dans la
Truebranche, ajoutez uneTerminateaction- Définir la valeur sur
StatusFailed - Définir la valeur sur
CodeTranscript Error - Passez la
ErrorGet Transcriptsortie auMessageparamètre.
- Définir la valeur sur
- Vous pouvez laisser la
Falsebranche vide.
Vous pouvez maintenant ajouter n’importe quelle action une fois que l’état
Conditionde la transcription estcompletedconnu et vous pouvez récupérer l’une des propriétés de sortie de l’actionGet Transcript.- Dans la
Enregistrez votre application logique ou flux. Le
HTTP URLdéclencheur est généréWhen an HTTP request is received. Copiez etHTTP URLrevenez à votre application logique ou flux d’origine.Dans votre application logique ou flux d’origine, mettez à jour l’action
Transcribe Audio. Collez leHTTP URLfichier que vous avez copié précédemment dans leWebhook URLparamètre et enregistrez.
Lorsque l’état de la transcription devient completed ou error, AssemblyAI envoie une requête HTTP POST à l’URL du webhook, qui sera gérée par votre autre application logique ou flux.
En guise d’alternative à l’utilisation du webhook, vous pouvez interroger l’état de la transcription comme expliqué dans la section suivante.
Interroger l’état de la transcription
Vous pouvez interroger l’état de la transcription en procédant comme suit :
Ajouter une
Initialize variableaction- Définir sur
Nametranscript_status - Définir sur
TypeString - Stocker à
Statuspartir de laTranscribe Audiosortie dans leValueparamètre
- Définir sur
Ajouter une
Do untilaction- Configurez le
Loop Untilparamètre avec le code Fx suivant :
Ce code vérifie si laor(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))transcript_statusvariable estcompletedouerror. - Configurer le
Countparamètre sur86400 - Configurer le
Timeoutparamètre surPT24H
À l’intérieur de l’action
Do until, ajoutez les actions suivantes :- Ajouter une
Delayaction qui attend une seconde - Ajoutez une
Get Transcriptaction et transmettez laIDTranscribe Audiosortie auTranscript IDparamètre. - Ajouter une
Set variableaction- Définir sur
Nametranscript_status - Passer la
StatusGet Transcriptsortie auValueparamètre
- Définir sur
La
Do untilboucle se poursuit jusqu’à ce que la transcription soit terminée ou qu’une erreur s’est produite.- Configurez le
Ajoutez une autre
Get Transcriptaction, comme précédemment, mais ajoutez-la après laDo untilboucle afin que sa sortie devienne disponible en dehors de l’étendue de l’actionDo until.
Avant de faire autre chose, vous devez vérifier si la transcription Status est completed ou error.
Ajoutez une Condition action qui vérifie si l’objet transcript_status est error:
- Dans la
Truebranche, ajoutez uneTerminateaction- Définir sur
StatusFailed - Définir sur
CodeTranscript Error - Passez la
ErrorGet Transcriptsortie auMessageparamètre.
- Définir sur
- Vous pouvez laisser la
Falsebranche vide.
Vous pouvez maintenant ajouter n’importe quelle action une fois que l’état Condition de la transcription est completedconnu et vous pouvez récupérer l’une des propriétés de sortie de l’action Get Transcript .
Ajouter d’autres actions
Maintenant que vous disposez d’une transcription terminée, vous pouvez utiliser de nombreuses autres actions en passant la ID transcription, comme
Get Sentences of TranscriptGet Paragraphs of TranscriptGet Subtitles of TranscriptGet Redacted AudioSearch Transcript for WordsRun a Task using LeMUR
Problèmes connus et limitations
Aucun problème connu actuellement. Nous ne prenons pas en charge Streaming Speech-To-Text (en temps réel), car il n’est pas possible d’utiliser des connecteurs personnalisés.
Erreurs courantes et solutions
Vous trouverez plus d’informations sur les erreurs dans la documentation AssemblyAI.
Questions fréquentes (FAQ)
Vous trouverez des questions fréquemment posées dans notre documentation.
Création d’une connexion
Le connecteur prend en charge les types d’authentification suivants :
| Par défaut | Paramètres de création de connexion. | Toutes les régions | Non partageable |
Faire défaut
Applicable : Toutes les régions
Paramètres de création de connexion.
Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.
| Nom | Type | Descriptif | Obligatoire |
|---|---|---|---|
| Clé API AssemblyAI | securestring | Clé d’API AssemblyAI pour authentifier l’API AssemblyAI. | Vrai |
Limitations
| Nom | Appels | Période de renouvellement |
|---|---|---|
| Appels d’API par connexion | 100 | 60 secondes |
Actions
| Charger un fichier multimédia |
Chargez un fichier multimédia sur les serveurs d’AssemblyAI. |
| Exécuter une tâche à l’aide de LeMUR |
Utilisez le point de terminaison de tâche LeMUR pour entrer votre propre invite LLM. |
| Obtenir des paragraphes dans la transcription |
Obtenez la transcription divisée par paragraphes. L’API tente de segmenter sémantiquement votre transcription en paragraphes pour créer des transcriptions plus conviviales pour le lecteur. |
| Obtenir des phrases dans la transcription |
Obtenez la transcription divisée par phrases. L’API tente de segmenter sémantiquement la transcription en phrases pour créer des transcriptions plus conviviales pour le lecteur. |
| Obtenir des sous-titres pour la transcription |
Exportez votre transcription au format SRT ou VTT à utiliser avec un lecteur vidéo pour les sous-titres et les sous-titres. |
| Obtenir la transcription |
Obtenez la ressource de transcription. La transcription est prête lorsque l'« état » est « terminé ». |
| Obtenir l’audio mis en œuvre |
Récupérez l’objet audio supprimé contenant l’état et l’URL de l’audio supprimé. |
| Rechercher des mots dans la transcription |
Recherchez les mots clés dans la transcription. Vous pouvez rechercher des mots, des nombres ou des expressions individuels contenant jusqu’à cinq mots ou nombres. |
| Récupérer la réponse leMUR |
Récupérez une réponse LeMUR qui a été générée précédemment. |
| Répertorier les transcriptions |
Récupérez la liste des transcriptions que vous avez créées. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes. |
| Supprimer la transcription |
Supprimez la transcription. La suppression ne supprime pas la ressource elle-même, mais supprime les données de la ressource et les marque comme supprimées. |
| Transcrire l’audio |
Créez une transcription à partir d’un fichier multimédia accessible via une URL. |
| Vider les données de requête LeMUR |
Supprimez les données d’une demande LeMUR précédemment envoyée. Les données de réponse LLM, ainsi que tout contexte fourni dans la requête d’origine seront supprimés. |
Charger un fichier multimédia
Chargez un fichier multimédia sur les serveurs d’AssemblyAI.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Contenu du fichier
|
file | True | binary |
Fichier à charger. |
Retours
- Corps
- UploadedFile
Exécuter une tâche à l’aide de LeMUR
Utilisez le point de terminaison de tâche LeMUR pour entrer votre propre invite LLM.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Prompt
|
prompt | True | string |
Votre texte pour inviter le modèle à produire une sortie souhaitée, y compris tout contexte que vous souhaitez transmettre au modèle. |
|
ID de transcription
|
transcript_ids | array of uuid |
Liste des transcriptions terminées avec du texte. Jusqu’à un maximum de 100 fichiers ou 100 heures, selon la valeur inférieure. Utilisez transcript_ids ou input_text comme entrée dans LeMUR. |
|
|
Texte d’entrée
|
input_text | string |
Données de transcription mises en forme personnalisées. La taille maximale est la limite de contexte du modèle sélectionné, qui est définie par défaut sur 1 00000. Utilisez transcript_ids ou input_text comme entrée dans LeMUR. |
|
|
Contexte
|
context | string |
Contexte pour fournir le modèle. Il peut s’agir d’une chaîne ou d’une valeur JSON de forme libre. |
|
|
Modèle final
|
final_model | string |
Modèle utilisé pour l’invite finale après l’exécution de la compression. |
|
|
Taille maximale de sortie
|
max_output_size | integer |
Taille de sortie maximale dans les jetons, jusqu’à 4 000 |
|
|
Température
|
temperature | float |
Température à utiliser pour le modèle. Des valeurs plus élevées entraînent des réponses plus créatives, des valeurs inférieures sont plus conservatrices. Il peut s’agir de n’importe quelle valeur comprise entre 0,0 et 1,0 inclus. |
Retours
- Corps
- LemurTaskResponse
Obtenir des paragraphes dans la transcription
Obtenez la transcription divisée par paragraphes. L’API tente de segmenter sémantiquement votre transcription en paragraphes pour créer des transcriptions plus conviviales pour le lecteur.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de transcription
|
transcript_id | True | string |
ID de la transcription |
Retours
- Corps
- ParagraphsResponse
Obtenir des phrases dans la transcription
Obtenez la transcription divisée par phrases. L’API tente de segmenter sémantiquement la transcription en phrases pour créer des transcriptions plus conviviales pour le lecteur.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de transcription
|
transcript_id | True | string |
ID de la transcription |
Retours
- Corps
- SentencesResponse
Obtenir des sous-titres pour la transcription
Exportez votre transcription au format SRT ou VTT à utiliser avec un lecteur vidéo pour les sous-titres et les sous-titres.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de transcription
|
transcript_id | True | string |
ID de la transcription |
|
Format du sous-titre
|
subtitle_format | True | string |
Format des sous-titres |
|
Nombre de caractères par légende
|
chars_per_caption | integer |
Nombre maximal de caractères par légende |
Retours
- response
- string
Obtenir la transcription
Obtenez la ressource de transcription. La transcription est prête lorsque l'« état » est « terminé ».
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de transcription
|
transcript_id | True | string |
ID de la transcription |
Retours
Objet de transcription
- Corps
- Transcript
Obtenir l’audio mis en œuvre
Récupérez l’objet audio supprimé contenant l’état et l’URL de l’audio supprimé.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de transcription
|
transcript_id | True | string |
ID de la transcription |
Retours
- Corps
- RedactedAudioResponse
Rechercher des mots dans la transcription
Recherchez les mots clés dans la transcription. Vous pouvez rechercher des mots, des nombres ou des expressions individuels contenant jusqu’à cinq mots ou nombres.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de transcription
|
transcript_id | True | string |
ID de la transcription |
|
Words
|
words | True | array |
Mots clés à rechercher |
Retours
- Corps
- WordSearchResponse
Récupérer la réponse leMUR
Récupérez une réponse LeMUR qui a été générée précédemment.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de demande LeMUR
|
request_id | True | string |
ID de la demande LeMUR que vous avez effectuée précédemment. Cela se trouve dans la réponse de la demande d’origine. |
Retours
- Corps
- LemurResponse
Répertorier les transcriptions
Récupérez la liste des transcriptions que vous avez créées. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Limit
|
limit | integer |
Quantité maximale de transcriptions à récupérer |
|
|
Statut
|
status | string |
État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs. |
|
|
Création le
|
created_on | date |
Obtenir uniquement les transcriptions créées à cette date |
|
|
Avant l’ID
|
before_id | uuid |
Obtenir les transcriptions créées avant cet ID de transcription |
|
|
Après l’ID
|
after_id | uuid |
Obtenir les transcriptions qui ont été créées après cet ID de transcription |
|
|
Limité uniquement
|
throttled_only | boolean |
Obtenir uniquement des transcriptions limitées, remplace le filtre d’état |
Retours
Liste des transcriptions. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.
- Corps
- TranscriptList
Supprimer la transcription
Supprimez la transcription. La suppression ne supprime pas la ressource elle-même, mais supprime les données de la ressource et les marque comme supprimées.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de transcription
|
transcript_id | True | string |
ID de la transcription |
Retours
Objet de transcription
- Corps
- Transcript
Transcrire l’audio
Créez une transcription à partir d’un fichier multimédia accessible via une URL.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
Audio URL
|
audio_url | True | string |
URL du fichier audio ou vidéo à transcrire. |
|
Code de langue
|
language_code | string |
Langue de votre fichier audio. Les valeurs possibles sont trouvées dans les langues prises en charge. La valeur par défaut est « en_us ». |
|
|
Language Detection
|
language_detection | boolean |
Activez la détection automatique de la langue, true ou false. |
|
|
Modèle speech
|
speech_model | string |
Modèle de reconnaissance vocale à utiliser pour la transcription. |
|
|
Ponctuer
|
punctuate | boolean |
Activer la ponctuation automatique, peut être true ou false |
|
|
Mettre en forme le texte
|
format_text | boolean |
Activer la mise en forme du texte, peut être true ou false |
|
|
Disfluencies
|
disfluencies | boolean |
Transcrivez les mots de filler, tels que « um », dans votre fichier multimédia ; peut être vrai ou faux |
|
|
Double canal
|
dual_channel | boolean |
Activer la transcription à double canal peut être true ou false. |
|
|
Webhook URL
|
webhook_url | string |
URL vers laquelle nous envoyons des demandes de webhook. Nous envoyons deux types différents de demandes de webhook. Une demande lorsqu’une transcription est terminée ou a échoué, et une demande lorsque l’audio supprimé est prêt si redact_pii_audio est activé. |
|
|
Nom de l’en-tête d’authentification webhook
|
webhook_auth_header_name | string |
Nom de l’en-tête à envoyer avec la transcription terminée ou les demandes de webhook ayant échoué |
|
|
Valeur d’en-tête d’authentification webhook
|
webhook_auth_header_value | string |
Valeur d’en-tête à renvoyer avec la transcription terminée ou les demandes de webhook ayant échoué pour une sécurité ajoutée |
|
|
Expressions clés
|
auto_highlights | boolean |
Activer les expressions clés, true ou false |
|
|
Démarrage audio à partir de
|
audio_start_from | integer |
Point dans le temps, en millisecondes, pour commencer à transcrire dans votre fichier multimédia |
|
|
Fin audio à l’adresse
|
audio_end_at | integer |
Point dans le temps, en millisecondes, pour arrêter la transcription dans votre fichier multimédia |
|
|
Word Boost
|
word_boost | array of string |
Liste du vocabulaire personnalisé pour améliorer la probabilité de transcription pour |
|
|
Niveau Word Boost
|
boost_param | string |
Quantité de mots spécifiés |
|
|
Filtrer la profanité
|
filter_profanity | boolean |
Filtrer la profanité du texte transcrit, peut être vrai ou faux |
|
|
Informations d’identification personnelles réactes
|
redact_pii | boolean |
Réactez les informations personnelles à partir du texte transcrit à l’aide du modèle PII Redact, peut être true ou false |
|
|
Redact PII Audio
|
redact_pii_audio | boolean |
Générez une copie du fichier multimédia d’origine avec des piI parlées « biped », peuvent être vraies ou fausses. Pour plus d’informations, consultez la rédaction des informations personnelles. |
|
|
Redact PII Audio Quality
|
redact_pii_audio_quality | string |
Contrôle le type de fichier de l’audio créé par redact_pii_audio. Prend actuellement en charge mp3 (par défaut) et wav. Pour plus d’informations, consultez la rédaction des informations personnelles. |
|
|
Réactez les stratégies d’identification personnelle
|
redact_pii_policies | array of string |
Liste des stratégies de réaction des informations personnelles à activer. Pour plus d’informations, consultez la rédaction des informations personnelles. |
|
|
Réactez la substitution d’informations personnelles
|
redact_pii_sub | string |
La logique de remplacement pour les informations d’identification personnelle détectées peut être « entity_name » ou « hachage ». Pour plus d’informations, consultez la rédaction des informations personnelles. |
|
|
Étiquettes de l’orateur
|
speaker_labels | boolean |
Activer la diarisation de l’orateur, peut être true ou false |
|
|
Intervenants attendus
|
speakers_expected | integer |
Indique au modèle d’étiquette de l’orateur le nombre de haut-parleurs qu’il doit tenter d’identifier, jusqu’à 10. Pour plus d’informations, consultez la diarisation de l’orateur. |
|
|
Modération du contenu
|
content_safety | boolean |
Activer la modération du contenu peut être true ou false |
|
|
Confiance en modération du contenu
|
content_safety_confidence | integer |
Seuil de confiance pour le modèle modération du contenu. Les valeurs doivent être comprises entre 25 et 100. |
|
|
Détection de rubriques
|
iab_categories | boolean |
Activer la détection de rubriques peut être true ou false |
|
|
De
|
from | True | array of string |
Mots ou expressions à remplacer |
|
À
|
to | True | string |
Mot ou expression à remplacer par |
|
Sentiment Analysis
|
sentiment_analysis | boolean |
Activer l’analyse des sentiments, peut être true ou false |
|
|
Chapitres automatiques
|
auto_chapters | boolean |
Activer les chapitres automatiques, peut être vrai ou faux |
|
|
Détection d’entité
|
entity_detection | boolean |
Activer la détection d’entité, peut être true ou false |
|
|
Seuil de reconnaissance vocale
|
speech_threshold | float |
Rejeter les fichiers audio qui contiennent moins de cette fraction de voix. Les valeurs valides se trouvent dans la plage [0, 1] inclusive. |
|
|
Activer le résumé
|
summarization | boolean |
Activer la synthèse, peut être true ou false |
|
|
Modèle de résumé
|
summary_model | string |
Modèle pour résumer la transcription |
|
|
Type de résumé
|
summary_type | string |
Type de résumé |
|
|
Activer les rubriques personnalisées
|
custom_topics | boolean |
Activer des rubriques personnalisées, true ou false |
|
|
Rubriques personnalisées
|
topics | array of string |
Liste des rubriques personnalisées |
Retours
Objet de transcription
- Corps
- Transcript
Vider les données de requête LeMUR
Supprimez les données d’une demande LeMUR précédemment envoyée. Les données de réponse LLM, ainsi que tout contexte fourni dans la requête d’origine seront supprimés.
Paramètres
| Nom | Clé | Obligatoire | Type | Description |
|---|---|---|---|---|
|
ID de demande LeMUR
|
request_id | True | string |
ID de la demande LeMUR dont vous souhaitez supprimer les données. Cela se trouve dans la réponse de la demande d’origine. |
Retours
Définitions
RedactedAudioResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Statut
|
status | string |
État de l’audio adopté |
|
URL audio régérée
|
redacted_audio_url | string |
URL du fichier audio supprimé |
WordSearchResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
ID de transcription
|
id | uuid |
ID de la transcription |
|
Nombre total de correspondances
|
total_count | integer |
Nombre total d’instances correspondantes. Par exemple, le mot 1 mis en correspondance 2 fois et le mot 2 mis en correspondance 3 fois, total_count est égal à 5. |
|
Correspondances
|
matches | array of object |
Correspondances de la recherche |
|
Texto
|
matches.text | string |
Mot mis en correspondance |
|
Nombre
|
matches.count | integer |
Nombre total de fois où le mot est dans la transcription |
|
Timestamps
|
matches.timestamps | array of array |
Tableau d’horodatages |
|
Timestamp
|
matches.timestamps | array of integer |
Tableau d’horodatages structurés en millisecondes [start_time, end_time] |
|
Indexes
|
matches.indexes | array of integer |
Tableau de tous les emplacements d’index pour ce mot dans le tableau de mots de la transcription terminée |
Transcription
Objet de transcription
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
ID
|
id | uuid |
Identificateur unique de votre transcription |
|
Audio URL
|
audio_url | string |
URL du média transcrit |
|
Statut
|
status | string |
État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs. |
|
Code de langue
|
language_code | string |
Langue de votre fichier audio. Les valeurs possibles sont trouvées dans les langues prises en charge. La valeur par défaut est « en_us ». |
|
Language Detection
|
language_detection | boolean |
Indique si la détection automatique de la langue est activée, true ou false |
|
Modèle speech
|
speech_model | string |
Modèle de reconnaissance vocale à utiliser pour la transcription. |
|
Texto
|
text | string |
Transcription textuelle de votre fichier multimédia |
|
Words
|
words | array of object |
Tableau d’objets word séquentiels temporellement, un pour chaque mot de la transcription. Pour plus d’informations, consultez reconnaissance vocale. |
|
Confiance
|
words.confidence | double | |
|
Démarrer
|
words.start | integer | |
|
Fin
|
words.end | integer | |
|
Texto
|
words.text | string | |
|
Orateur
|
words.speaker | string |
Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null |
|
Énoncés
|
utterances | array of object |
Lorsque dual_channel ou speaker_labels est activé, une liste d’objets d’énoncé de tour par tour est activée. Pour plus d’informations, consultez la diarisation de l’orateur. |
|
Confiance
|
utterances.confidence | double |
Score de confiance pour la transcription de cet énoncé |
|
Démarrer
|
utterances.start | integer |
Heure de début, en millisecondes, de l’énoncé dans le fichier audio |
|
Fin
|
utterances.end | integer |
Heure de fin, en millisecondes, de l’énoncé dans le fichier audio |
|
Texto
|
utterances.text | string |
Texte de cet énoncé |
|
Words
|
utterances.words | array of object |
Mots dans l’énoncé. |
|
Confiance
|
utterances.words.confidence | double | |
|
Démarrer
|
utterances.words.start | integer | |
|
Fin
|
utterances.words.end | integer | |
|
Texto
|
utterances.words.text | string | |
|
Orateur
|
utterances.words.speaker | string |
Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null |
|
Orateur
|
utterances.speaker | string |
L’orateur de cet énoncé, où chaque orateur reçoit une lettre majuscule séquentielle , par exemple « A » pour le président A, « B » pour le président B, etc. |
|
Confiance
|
confidence | double |
Score de confiance pour la transcription, entre 0,0 (confiance faible) et 1,0 (confiance élevée) |
|
Durée audio
|
audio_duration | integer |
Durée du fichier multimédia de cet objet de transcription, en secondes |
|
Ponctuer
|
punctuate | boolean |
Indique si la ponctuation automatique est activée, true ou false |
|
Mettre en forme le texte
|
format_text | boolean |
Indique si la mise en forme du texte est activée, true ou false |
|
Disfluencies
|
disfluencies | boolean |
Transcrivez les mots de filler, tels que « um », dans votre fichier multimédia ; peut être vrai ou faux |
|
Double canal
|
dual_channel | boolean |
Indique si la transcription double canal a été activée dans la demande de transcription, true ou false |
|
Webhook URL
|
webhook_url | string |
URL vers laquelle nous envoyons des demandes de webhook. Nous envoyons deux types différents de demandes de webhook. Une demande lorsqu’une transcription est terminée ou a échoué, et une demande lorsque l’audio supprimé est prêt si redact_pii_audio est activé. |
|
Code d’état HTTP webhook
|
webhook_status_code | integer |
Code d’état que nous avons reçu de votre serveur lors de la remise de la transcription terminée ou de la demande de webhook ayant échoué, si une URL de webhook a été fournie |
|
Authentification webhook activée
|
webhook_auth | boolean |
Indique si les détails de l’authentification webhook ont été fournis |
|
Nom de l’en-tête d’authentification webhook
|
webhook_auth_header_name | string |
Nom de l’en-tête à envoyer avec la transcription terminée ou les demandes de webhook ayant échoué |
|
Boost de vitesse
|
speed_boost | boolean |
Indique si l’amélioration de la vitesse est activée |
|
Expressions clés
|
auto_highlights | boolean |
Indique si les expressions clés sont activées, true ou false |
|
Statut
|
auto_highlights_result.status | string |
Réussite ou non disponible dans le cas rare où le modèle a échoué |
|
Results
|
auto_highlights_result.results | array of object |
Tableau temporellement séquentiel d’expressions clés |
|
Nombre
|
auto_highlights_result.results.count | integer |
Nombre total de fois où l’expression clé apparaît dans le fichier audio |
|
Classement
|
auto_highlights_result.results.rank | float |
La pertinence totale du fichier audio global de cette phrase clé - un plus grand nombre signifie plus pertinent |
|
Texto
|
auto_highlights_result.results.text | string |
Texte lui-même de l’expression clé |
|
Timestamps
|
auto_highlights_result.results.timestamps | array of object |
Horodatage de l’expression clé |
|
Démarrer
|
auto_highlights_result.results.timestamps.start | integer |
Heure de début en millisecondes |
|
Fin
|
auto_highlights_result.results.timestamps.end | integer |
Heure de fin en millisecondes |
|
Démarrage audio à partir de
|
audio_start_from | integer |
Point dans le temps, en millisecondes, dans le fichier auquel la transcription a été démarrée |
|
Fin audio à l’adresse
|
audio_end_at | integer |
Point dans le temps, en millisecondes, dans le fichier auquel la transcription a été arrêtée |
|
Word Boost
|
word_boost | array of string |
Liste du vocabulaire personnalisé pour améliorer la probabilité de transcription pour |
|
Augmenter
|
boost_param | string |
Valeur du paramètre d’amélioration du mot |
|
Filtrer la profanité
|
filter_profanity | boolean |
Indique si le filtrage de la profanité est activé, true ou false |
|
Informations d’identification personnelles réactes
|
redact_pii | boolean |
Indique si piI Redaction est activée, true ou false |
|
Redact PII Audio
|
redact_pii_audio | boolean |
Indique si une version adoptée du fichier audio a été générée, true ou false. Pour plus d’informations, consultez la rédaction des informations personnelles. |
|
Redact PII Audio Quality
|
redact_pii_audio_quality | string |
Contrôle le type de fichier de l’audio créé par redact_pii_audio. Prend actuellement en charge mp3 (par défaut) et wav. Pour plus d’informations, consultez la rédaction des informations personnelles. |
|
Réactez les stratégies d’identification personnelle
|
redact_pii_policies | array of string |
Liste des stratégies de réaction des informations personnelles qui ont été activées, si l’action d’identification personnelle est activée. Pour plus d’informations, consultez la rédaction des informations personnelles. |
|
Réactez la substitution d’informations personnelles
|
redact_pii_sub | string |
La logique de remplacement pour les informations d’identification personnelle détectées peut être « entity_name » ou « hachage ». Pour plus d’informations, consultez la rédaction des informations personnelles. |
|
Étiquettes de l’orateur
|
speaker_labels | boolean |
Si la diarisation de l’orateur est activée, peut être true ou false |
|
Intervenants attendus
|
speakers_expected | integer |
Indiquez au modèle d’étiquette de l’orateur le nombre de haut-parleurs qu’il doit tenter d’identifier, jusqu’à 10. Pour plus d’informations, consultez la diarisation de l’orateur. |
|
Modération du contenu
|
content_safety | boolean |
Si la modération du contenu est activée, peut être true ou false |
|
Statut
|
content_safety_labels.status | string |
Réussite ou non disponible dans le cas rare où le modèle a échoué |
|
Results
|
content_safety_labels.results | array of object | |
|
Texto
|
content_safety_labels.results.text | string |
Transcription de la section marquée par le modèle modération du contenu |
|
Étiquettes
|
content_safety_labels.results.labels | array of object |
Tableau d’étiquettes de sécurité, une par rubrique sensible détectée dans la section |
|
Étiquette
|
content_safety_labels.results.labels.label | string |
Étiquette de la rubrique sensible |
|
Confiance
|
content_safety_labels.results.labels.confidence | double |
Score de confiance pour la rubrique en cours de discussion, de 0 à 1 |
|
Niveau de gravité
|
content_safety_labels.results.labels.severity | double |
Comment le sujet est abordé dans la section, de 0 à 1 |
|
Début de l’index de phrase
|
content_safety_labels.results.sentences_idx_start | integer |
Index de phrase à partir duquel la section commence |
|
Fin de l’index de phrase
|
content_safety_labels.results.sentences_idx_end | integer |
Index de phrase à laquelle la section se termine |
|
Démarrer
|
content_safety_labels.results.timestamp.start | integer |
Heure de début en millisecondes |
|
Fin
|
content_safety_labels.results.timestamp.end | integer |
Heure de fin en millisecondes |
|
Résumé
|
content_safety_labels.summary | object |
Résumé des résultats de confiance de modération du contenu pour l’intégralité du fichier audio |
|
Résumé du score de gravité
|
content_safety_labels.severity_score_summary | object |
Résumé des résultats de gravité de modération du contenu pour l’intégralité du fichier audio |
|
Détection de rubriques
|
iab_categories | boolean |
Si la détection de rubrique est activée, peut être true ou false |
|
Statut
|
iab_categories_result.status | string |
Réussite ou non disponible dans le cas rare où le modèle a échoué |
|
Results
|
iab_categories_result.results | array of object |
Tableau de résultats pour le modèle de détection de rubriques |
|
Texto
|
iab_categories_result.results.text | string |
Texte de la transcription dans laquelle une rubrique détectée se produit |
|
Étiquettes
|
iab_categories_result.results.labels | array of object | |
|
Pertinence
|
iab_categories_result.results.labels.relevance | double |
La pertinence de la rubrique détectée est d’une rubrique détectée |
|
Étiquette
|
iab_categories_result.results.labels.label | string |
Étiquette taxonomique IAB pour l’étiquette de la rubrique détectée, où > désigne la relation supertopique/subtopique |
|
Démarrer
|
iab_categories_result.results.timestamp.start | integer |
Heure de début en millisecondes |
|
Fin
|
iab_categories_result.results.timestamp.end | integer |
Heure de fin en millisecondes |
|
Résumé
|
iab_categories_result.summary | object |
Pertinence globale de la rubrique pour l’ensemble du fichier audio |
|
Orthographes personnalisées
|
custom_spelling | array of object |
Personnaliser la façon dont les mots sont orthographiés et mis en forme à l’aide de valeurs |
|
De
|
custom_spelling.from | array of string |
Mots ou expressions à remplacer |
|
À
|
custom_spelling.to | string |
Mot ou expression à remplacer par |
|
Chapitres automatiques activés
|
auto_chapters | boolean |
Si les chapitres automatiques sont activés, peuvent être vrais ou faux |
|
Chapitres
|
chapters | array of object |
Tableau de chapitres séquentiels temporellement pour le fichier audio |
|
Gist
|
chapters.gist | string |
Résumé ultra-court (quelques mots seulement) du contenu prononcé dans le chapitre |
|
Titre
|
chapters.headline | string |
Résumé d’une phrase unique du contenu prononcé au cours du chapitre |
|
Résumé
|
chapters.summary | string |
Résumé d’un paragraphe du contenu prononcé pendant le chapitre |
|
Démarrer
|
chapters.start | integer |
Heure de début, en millisecondes, pour le chapitre |
|
Fin
|
chapters.end | integer |
Heure de début, en millisecondes, pour le chapitre |
|
Résumé activé
|
summarization | boolean |
Indique si la synthèse est activée, true ou false |
|
Type de résumé
|
summary_type | string |
Type de résumé généré, si la synthèse est activée |
|
Modèle de résumé
|
summary_model | string |
Modèle de synthèse utilisé pour générer le résumé, si la synthèse est activée |
|
Résumé
|
summary | string |
Résumé généré du fichier multimédia, si la synthèse est activée |
|
Rubriques personnalisées activées
|
custom_topics | boolean |
Indique si les rubriques personnalisées sont activées, true ou false |
|
Sujets
|
topics | array of string |
Liste des rubriques personnalisées fournies si les rubriques personnalisées sont activées |
|
Sentiment Analysis
|
sentiment_analysis | boolean |
Si l’analyse des sentiments est activée, peut être true ou false |
|
Résultats de l’analyse des sentiments
|
sentiment_analysis_results | array of object |
Tableau de résultats pour le modèle Analyse des sentiments, s’il est activé. Pour plus d’informations, consultez Analyse des sentiments. |
|
Texto
|
sentiment_analysis_results.text | string |
Transcription de la phrase |
|
Démarrer
|
sentiment_analysis_results.start | integer |
Heure de début, en millisecondes, de la phrase |
|
Fin
|
sentiment_analysis_results.end | integer |
Heure de fin, en millisecondes, de la phrase |
|
Sentiments
|
sentiment_analysis_results.sentiment |
Sentiment détecté pour la phrase, l’un des positifs, NEUTREs, NÉGATIFS |
|
|
Confiance
|
sentiment_analysis_results.confidence | double |
Score de confiance pour le sentiment détecté de la phrase, de 0 à 1 |
|
Orateur
|
sentiment_analysis_results.speaker | string |
Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null |
|
Détection d’entité
|
entity_detection | boolean |
Si la détection d’entité est activée, peut être true ou false |
|
Entities
|
entities | array of object |
Tableau de résultats pour le modèle de détection d’entité, s’il est activé. Pour plus d’informations, consultez La détection d’entité. |
|
Type d’entité
|
entities.entity_type | string |
Type d’entité pour l’entité détectée |
|
Texto
|
entities.text | string |
Texte de l’entité détectée |
|
Démarrer
|
entities.start | integer |
Heure de début, en millisecondes, à laquelle l’entité détectée apparaît dans le fichier audio |
|
Fin
|
entities.end | integer |
Heure de fin, en millisecondes, de l’entité détectée dans le fichier audio |
|
Seuil de reconnaissance vocale
|
speech_threshold | float |
La valeur par défaut est Null. Rejeter les fichiers audio qui contiennent moins de cette fraction de voix. Les valeurs valides se trouvent dans la plage [0, 1] inclusive. |
|
Étranglé
|
throttled | boolean |
True pendant qu’une requête est limitée et false lorsqu’une demande n’est plus limitée |
|
Erreur
|
error | string |
Message d’erreur indiquant pourquoi la transcription a échoué |
|
Modèle de langage
|
language_model | string |
Modèle de langue utilisé pour la transcription |
|
Modèle acoustique
|
acoustic_model | string |
Modèle acoustique utilisé pour la transcription |
SentencesResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
ID de transcription
|
id | uuid | |
|
Confiance
|
confidence | double | |
|
Durée audio
|
audio_duration | number | |
|
Phrases
|
sentences | array of object | |
|
Texto
|
sentences.text | string | |
|
Démarrer
|
sentences.start | integer | |
|
Fin
|
sentences.end | integer | |
|
Confiance
|
sentences.confidence | double | |
|
Words
|
sentences.words | array of object | |
|
Confiance
|
sentences.words.confidence | double | |
|
Démarrer
|
sentences.words.start | integer | |
|
Fin
|
sentences.words.end | integer | |
|
Texto
|
sentences.words.text | string | |
|
Orateur
|
sentences.words.speaker | string |
Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null |
|
Orateur
|
sentences.speaker | string |
Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null |
ParagraphsResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
ID de transcription
|
id | uuid | |
|
Confiance
|
confidence | double | |
|
Durée audio
|
audio_duration | number | |
|
Paragraphs
|
paragraphs | array of object | |
|
Texto
|
paragraphs.text | string | |
|
Démarrer
|
paragraphs.start | integer | |
|
Fin
|
paragraphs.end | integer | |
|
Confiance
|
paragraphs.confidence | double | |
|
Words
|
paragraphs.words | array of object | |
|
Confiance
|
paragraphs.words.confidence | double | |
|
Démarrer
|
paragraphs.words.start | integer | |
|
Fin
|
paragraphs.words.end | integer | |
|
Texto
|
paragraphs.words.text | string | |
|
Orateur
|
paragraphs.words.speaker | string |
Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null |
|
Orateur
|
paragraphs.speaker | string |
Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null |
TranscriptList
Liste des transcriptions. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Limit
|
page_details.limit | integer |
Le nombre de résultats de cette page est limité à |
|
Nombre de résultats
|
page_details.result_count | integer |
Nombre réel de résultats dans la page |
|
URL actuelle
|
page_details.current_url | string |
URL utilisée pour récupérer la page active des transcriptions |
|
URL précédente
|
page_details.prev_url | string |
URL de la page suivante des transcriptions. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes. |
|
URL suivante
|
page_details.next_url | string |
URL de la page suivante des transcriptions. L’URL suivante pointe toujours vers une page avec des transcriptions plus récentes. |
|
Transcripts
|
transcripts | array of object | |
|
ID
|
transcripts.id | uuid | |
|
URL de ressource
|
transcripts.resource_url | string | |
|
Statut
|
transcripts.status | string |
État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs. |
|
Créé
|
transcripts.created | string | |
|
Terminé
|
transcripts.completed | string | |
|
Audio URL
|
transcripts.audio_url | string | |
|
Erreur
|
transcripts.error | string |
Message d’erreur indiquant pourquoi la transcription a échoué |
UploadFile
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
URL du fichier chargé
|
upload_url | string |
URL qui pointe vers votre fichier audio, accessible uniquement par les serveurs d’AssemblyAI |
PurgeLemurRequestDataResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
ID de demande de vidage
|
request_id | uuid |
ID de la demande de suppression de la demande LeMUR |
|
ID de demande LeMUR pour purger
|
request_id_to_purge | uuid |
ID de la demande LeMUR pour purger les données |
|
Supprimé
|
deleted | boolean |
Indique si les données de la demande ont été supprimées |
LemurTaskResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Réponse
|
response | string |
Réponse générée par LeMUR. |
|
ID de demande LeMUR
|
request_id | uuid |
ID de la requête LeMUR |
|
Jetons d’entrée
|
usage.input_tokens | integer |
Nombre de jetons d’entrée utilisés par le modèle |
|
Jetons de sortie
|
usage.output_tokens | integer |
Nombre de jetons de sortie générés par le modèle |
LemurResponse
| Nom | Chemin d’accès | Type | Description |
|---|---|---|---|
|
Réponse
|
response | string |
Réponse générée par LeMUR. |
|
ID de demande LeMUR
|
request_id | uuid |
ID de la requête LeMUR |
|
Jetons d’entrée
|
usage.input_tokens | integer |
Nombre de jetons d’entrée utilisés par le modèle |
|
Jetons de sortie
|
usage.output_tokens | integer |
Nombre de jetons de sortie générés par le modèle |
ficelle
Il s’agit du type de données de base « string ».