AssemblyAI (préversion)

Transcrivez et extrayez des données de l’audio à l’aide de l’ia vocale d’AssemblyAI.

Ce connecteur est disponible dans les produits et régions suivants :

Service	classe	Régions
Copilot Studio	Premium	Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD)
Applications logiques	Norme	Toutes les régions Logic Apps , à l’exception des suivantes : - Régions Azure Government - Régions Azure Chine - Us Department of Defense (DoD)
Power Apps	Premium	Toutes les régions Power Apps , à l’exception des suivantes : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD)
Power Automate	Premium	Toutes les régions Power Automate , à l’exception des éléments suivants : - Us Government (GCC) - Us Government (GCC High) - China Cloud géré par 21Vianet - Us Department of Defense (DoD)

Contact
Nom	Support
URL	https://www.assemblyai.com/docs/
Messagerie électronique	support@assemblyai.com

Métadonnées du connecteur
Éditeur	AssemblyAI
Site internet	https://www.assemblyai.com
Politique de confidentialité	https://www.assemblyai.com/legal/privacy-policy
Catégories	AI

Avec le connecteur AssemblyAI , vous pouvez utiliser les modèles d’AssemblyAI pour traiter les données audio en les transcrire avec des modèles de reconnaissance vocale, en l’analysant avec des modèles d’intelligence audio et en créant des fonctionnalités de génération sur celles-ci avec des llMs.

Reconnaissance vocale, y compris de nombreuses fonctionnalités configurables, telles que la diarisation de l’orateur, l’orthographe personnalisée, le vocabulaire personnalisé, etc.
Les modèles Audio Intelligence sont des modèles IA supplémentaires disponibles et configurés par le biais de la configuration de transcription.
LeMUR vous permet d’appliquer différents modèles LLM à vos transcriptions sans avoir à créer votre propre infrastructure RAG pour des transcriptions très volumineuses.

Prerequisites

Vous devez procéder comme suit :

Une clé API AssemblyAI (obtenez-en une gratuitement)

Comment obtenir des informations d’identification

Vous pouvez obtenir gratuitement une clé API AssemblyAI en vous inscrivant à un compte et en copiant la clé API à partir du tableau de bord.

Bien démarrer avec votre connecteur

Suivez ces étapes pour transcrire l’audio à l’aide du connecteur AssemblyAI.

Charger un fichier

Pour transcrire un fichier audio à l’aide d’AssemblyAI, le fichier doit être accessible à AssemblyAI. Si votre fichier audio est déjà accessible via une URL, vous pouvez utiliser votre URL existante.

Sinon, vous pouvez utiliser l’action Upload a File pour charger un fichier dans AssemblyAI. Vous récupérerez une URL pour votre fichier qui ne peut être utilisée que pour transcrire à l’aide de votre clé API. Une fois que vous avez transcrit le fichier, le fichier est supprimé des serveurs d’AssemblyAI.

Transcrire l’audio

Pour transcrire votre audio, configurez le paramètre à l’aide Audio URL de votre URL de fichier audio. Ensuite, configurez les paramètres supplémentaires pour activer davantage de fonctionnalités de reconnaissance vocale et de modèles Audio Intelligence .

Le résultat de l’action Transscribe Audio est une transcription mise en file d’attente qui commence à être traitée immédiatement. Pour obtenir la transcription terminée, vous avez deux options :

Gérer le Webhook Prêt pour la transcription
Interroger l’état de la transcription

Gérer le Webhook Prêt pour la transcription

Si vous ne souhaitez pas gérer le webhook à l’aide de Logic Apps ou de Power Automate, configurez le Webhook URL paramètre dans votre Transcribe Audio action et implémentez votre webhook en suivant la documentation webhook d’AssemblyAI.

Pour gérer le webhook à l’aide de Logic Apps ou de Power Automate, procédez comme suit :

Créer une application logique distincte ou un flux Power Automate
Configurez When an HTTP request is received comme déclencheur :
- Définir sur Who Can Trigger The Flow?Anyone
- Défini Request Body JSON Schema sur :
```
{
  "type": "object",
  "properties": {
    "transcript_id": {
      "type": "string"
    },
    "status": {
      "type": "string"
    }
  }
}
```
- Définir sur MethodPOST
Ajoutez une action AssemblyAI Get Transcript , en passant le transcript_id déclencheur au Transcript ID paramètre.
Avant de faire autre chose, vous devez vérifier si l’est Statuscompleted ou error. Ajoutez une Condition action qui vérifie si la StatusGet Transcript sortie est error:
- Dans la True branche, ajoutez une Terminate action
  - Définir la valeur sur StatusFailed
  - Définir la valeur sur CodeTranscript Error
  - Passez la ErrorGet Transcript sortie au Message paramètre.
- Vous pouvez laisser la False branche vide.
Vous pouvez maintenant ajouter n’importe quelle action une fois que l’état Condition de la transcription est completedconnu et vous pouvez récupérer l’une des propriétés de sortie de l’action Get Transcript .
Enregistrez votre application logique ou flux. Le HTTP URL déclencheur est généré When an HTTP request is received . Copiez et HTTP URL revenez à votre application logique ou flux d’origine.
Dans votre application logique ou flux d’origine, mettez à jour l’action Transcribe Audio . Collez le HTTP URL fichier que vous avez copié précédemment dans le Webhook URL paramètre et enregistrez.

Lorsque l’état de la transcription devient completed ou error, AssemblyAI envoie une requête HTTP POST à l’URL du webhook, qui sera gérée par votre autre application logique ou flux.

En guise d’alternative à l’utilisation du webhook, vous pouvez interroger l’état de la transcription comme expliqué dans la section suivante.

Interroger l’état de la transcription

Vous pouvez interroger l’état de la transcription en procédant comme suit :

Ajouter une Initialize variable action
- Définir sur Nametranscript_status
- Définir sur TypeString
- Stocker à Status partir de la Transcribe Audio sortie dans le Value paramètre
Ajouter une Do until action
- Configurez le Loop Until paramètre avec le code Fx suivant :
```
or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
```
  Ce code vérifie si la transcript_status variable est completed ou error.
- Configurer le Count paramètre sur 86400
- Configurer le Timeout paramètre sur PT24H
À l’intérieur de l’action Do until , ajoutez les actions suivantes :
- Ajouter une Delay action qui attend une seconde
- Ajoutez une Get Transcript action et transmettez la IDTranscribe Audio sortie au Transcript ID paramètre.
- Ajouter une Set variable action
  - Définir sur Nametranscript_status
  - Passer la StatusGet Transcript sortie au Value paramètre
La Do until boucle se poursuit jusqu’à ce que la transcription soit terminée ou qu’une erreur s’est produite.
Ajoutez une autre Get Transcript action, comme précédemment, mais ajoutez-la après la Do until boucle afin que sa sortie devienne disponible en dehors de l’étendue de l’action Do until .

Avant de faire autre chose, vous devez vérifier si la transcription Status est completed ou error. Ajoutez une Condition action qui vérifie si l’objet transcript_status est error:

Dans la True branche, ajoutez une Terminate action
- Définir sur StatusFailed
- Définir sur CodeTranscript Error
- Passez la ErrorGet Transcript sortie au Message paramètre.
Vous pouvez laisser la False branche vide.

Vous pouvez maintenant ajouter n’importe quelle action une fois que l’état Condition de la transcription est completedconnu et vous pouvez récupérer l’une des propriétés de sortie de l’action Get Transcript .

Ajouter d’autres actions

Maintenant que vous disposez d’une transcription terminée, vous pouvez utiliser de nombreuses autres actions en passant la ID transcription, comme

Get Sentences of Transcript
Get Paragraphs of Transcript
Get Subtitles of Transcript
Get Redacted Audio
Search Transcript for Words
Run a Task using LeMUR

Problèmes connus et limitations

Aucun problème connu actuellement. Nous ne prenons pas en charge Streaming Speech-To-Text (en temps réel), car il n’est pas possible d’utiliser des connecteurs personnalisés.

Erreurs courantes et solutions

Vous trouverez plus d’informations sur les erreurs dans la documentation AssemblyAI.

Questions fréquentes (FAQ)

Vous trouverez des questions fréquemment posées dans notre documentation.

Création d’une connexion

Le connecteur prend en charge les types d’authentification suivants :


Par défaut	Paramètres de création de connexion.	Toutes les régions	Non partageable

Faire défaut

Applicable : Toutes les régions

Paramètres de création de connexion.

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Nom	Type	Descriptif	Obligatoire
Clé API AssemblyAI	securestring	Clé d’API AssemblyAI pour authentifier l’API AssemblyAI.	Vrai

Limitations

Nom	Appels	Période de renouvellement
Appels d’API par connexion	100	60 secondes

Actions

Charger un fichier multimédia	Chargez un fichier multimédia sur les serveurs d’AssemblyAI.
Exécuter une tâche à l’aide de LeMUR	Utilisez le point de terminaison de tâche LeMUR pour entrer votre propre invite LLM.
Obtenir des paragraphes dans la transcription	Obtenez la transcription divisée par paragraphes. L’API tente de segmenter sémantiquement votre transcription en paragraphes pour créer des transcriptions plus conviviales pour le lecteur.
Obtenir des phrases dans la transcription	Obtenez la transcription divisée par phrases. L’API tente de segmenter sémantiquement la transcription en phrases pour créer des transcriptions plus conviviales pour le lecteur.
Obtenir des sous-titres pour la transcription	Exportez votre transcription au format SRT ou VTT à utiliser avec un lecteur vidéo pour les sous-titres et les sous-titres.
Obtenir la transcription	Obtenez la ressource de transcription. La transcription est prête lorsque l'« état » est « terminé ».
Obtenir l’audio mis en œuvre	Récupérez l’objet audio supprimé contenant l’état et l’URL de l’audio supprimé.
Rechercher des mots dans la transcription	Recherchez les mots clés dans la transcription. Vous pouvez rechercher des mots, des nombres ou des expressions individuels contenant jusqu’à cinq mots ou nombres.
Récupérer la réponse leMUR	Récupérez une réponse LeMUR qui a été générée précédemment.
Répertorier les transcriptions	Récupérez la liste des transcriptions que vous avez créées. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.
Supprimer la transcription	Supprimez la transcription. La suppression ne supprime pas la ressource elle-même, mais supprime les données de la ressource et les marque comme supprimées.
Transcrire l’audio	Créez une transcription à partir d’un fichier multimédia accessible via une URL.
Vider les données de requête LeMUR	Supprimez les données d’une demande LeMUR précédemment envoyée. Les données de réponse LLM, ainsi que tout contexte fourni dans la requête d’origine seront supprimés.

Charger un fichier multimédia

ID d’opération :: UploadFile

Chargez un fichier multimédia sur les serveurs d’AssemblyAI.

Paramètres

Nom	Clé	Obligatoire	Type	Description
Contenu du fichier	file	True	binary	Fichier à charger.

Retours

Corps: UploadedFile

Exécuter une tâche à l’aide de LeMUR

ID d’opération :: LemurTask

Utilisez le point de terminaison de tâche LeMUR pour entrer votre propre invite LLM.

Paramètres

Nom	Clé	Obligatoire	Type	Description
Prompt	prompt	True	string	Votre texte pour inviter le modèle à produire une sortie souhaitée, y compris tout contexte que vous souhaitez transmettre au modèle.
ID de transcription	transcript_ids		array of uuid	Liste des transcriptions terminées avec du texte. Jusqu’à un maximum de 100 fichiers ou 100 heures, selon la valeur inférieure. Utilisez transcript_ids ou input_text comme entrée dans LeMUR.
Texte d’entrée	input_text		string	Données de transcription mises en forme personnalisées. La taille maximale est la limite de contexte du modèle sélectionné, qui est définie par défaut sur 1 00000. Utilisez transcript_ids ou input_text comme entrée dans LeMUR.
Contexte	context		string	Contexte pour fournir le modèle. Il peut s’agir d’une chaîne ou d’une valeur JSON de forme libre.
Modèle final	final_model		string	Modèle utilisé pour l’invite finale après l’exécution de la compression.
Taille maximale de sortie	max_output_size		integer	Taille de sortie maximale dans les jetons, jusqu’à 4 000
Température	temperature		float	Température à utiliser pour le modèle. Des valeurs plus élevées entraînent des réponses plus créatives, des valeurs inférieures sont plus conservatrices. Il peut s’agir de n’importe quelle valeur comprise entre 0,0 et 1,0 inclus.

Retours

Corps: LemurTaskResponse

Obtenir des paragraphes dans la transcription

ID d’opération :: GetTranscriptParagraphs

Obtenez la transcription divisée par paragraphes. L’API tente de segmenter sémantiquement votre transcription en paragraphes pour créer des transcriptions plus conviviales pour le lecteur.

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de transcription	transcript_id	True	string	ID de la transcription

Retours

Corps: ParagraphsResponse

Obtenir des phrases dans la transcription

ID d’opération :: GetTranscriptSentences

Obtenez la transcription divisée par phrases. L’API tente de segmenter sémantiquement la transcription en phrases pour créer des transcriptions plus conviviales pour le lecteur.

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de transcription	transcript_id	True	string	ID de la transcription

Retours

Corps: SentencesResponse

Obtenir des sous-titres pour la transcription

ID d’opération :: GetSubtitles

Exportez votre transcription au format SRT ou VTT à utiliser avec un lecteur vidéo pour les sous-titres et les sous-titres.

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de transcription	transcript_id	True	string	ID de la transcription
Format du sous-titre	subtitle_format	True	string	Format des sous-titres
Nombre de caractères par légende	chars_per_caption		integer	Nombre maximal de caractères par légende

Retours

response: string

Obtenir la transcription

ID d’opération :: GetTranscript

Obtenez la ressource de transcription. La transcription est prête lorsque l'« état » est « terminé ».

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de transcription	transcript_id	True	string	ID de la transcription

Retours

Objet de transcription

Corps: Transcript

Obtenir l’audio mis en œuvre

ID d’opération :: GetRedactedAudio

Récupérez l’objet audio supprimé contenant l’état et l’URL de l’audio supprimé.

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de transcription	transcript_id	True	string	ID de la transcription

Retours

Corps: RedactedAudioResponse

Rechercher des mots dans la transcription

ID d’opération :: WordSearch

Recherchez les mots clés dans la transcription. Vous pouvez rechercher des mots, des nombres ou des expressions individuels contenant jusqu’à cinq mots ou nombres.

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de transcription	transcript_id	True	string	ID de la transcription
Words	words	True	array	Mots clés à rechercher

Retours

Corps: WordSearchResponse

Récupérer la réponse leMUR

ID d’opération :: GetLemurResponse

Récupérez une réponse LeMUR qui a été générée précédemment.

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de demande LeMUR	request_id	True	string	ID de la demande LeMUR que vous avez effectuée précédemment. Cela se trouve dans la réponse de la demande d’origine.

Retours

Corps: LemurResponse

Répertorier les transcriptions

ID d’opération :: ListTranscripts

Récupérez la liste des transcriptions que vous avez créées. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.

Paramètres

Nom	Clé	Type	Description
Limit	limit	integer	Quantité maximale de transcriptions à récupérer
Statut	status	string	État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs.
Création le	created_on	date	Obtenir uniquement les transcriptions créées à cette date
Avant l’ID	before_id	uuid	Obtenir les transcriptions créées avant cet ID de transcription
Après l’ID	after_id	uuid	Obtenir les transcriptions qui ont été créées après cet ID de transcription
Limité uniquement	throttled_only	boolean	Obtenir uniquement des transcriptions limitées, remplace le filtre d’état

Retours

Liste des transcriptions. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.

Corps: TranscriptList

Supprimer la transcription

ID d’opération :: DeleteTranscript

Supprimez la transcription. La suppression ne supprime pas la ressource elle-même, mais supprime les données de la ressource et les marque comme supprimées.

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de transcription	transcript_id	True	string	ID de la transcription

Retours

Objet de transcription

Corps: Transcript

Transcrire l’audio

ID d’opération :: CreateTranscript

Créez une transcription à partir d’un fichier multimédia accessible via une URL.

Paramètres

Nom	Clé	Obligatoire	Type	Description
Audio URL	audio_url	True	string	URL du fichier audio ou vidéo à transcrire.
Code de langue	language_code		string	Langue de votre fichier audio. Les valeurs possibles sont trouvées dans les langues prises en charge. La valeur par défaut est « en_us ».
Language Detection	language_detection		boolean	Activez la détection automatique de la langue, true ou false.
Modèle speech	speech_model		string	Modèle de reconnaissance vocale à utiliser pour la transcription.
Ponctuer	punctuate		boolean	Activer la ponctuation automatique, peut être true ou false
Mettre en forme le texte	format_text		boolean	Activer la mise en forme du texte, peut être true ou false
Disfluencies	disfluencies		boolean	Transcrivez les mots de filler, tels que « um », dans votre fichier multimédia ; peut être vrai ou faux
Double canal	dual_channel		boolean	Activer la transcription à double canal peut être true ou false.
Webhook URL	webhook_url		string	URL vers laquelle nous envoyons des demandes de webhook. Nous envoyons deux types différents de demandes de webhook. Une demande lorsqu’une transcription est terminée ou a échoué, et une demande lorsque l’audio supprimé est prêt si redact_pii_audio est activé.
Nom de l’en-tête d’authentification webhook	webhook_auth_header_name		string	Nom de l’en-tête à envoyer avec la transcription terminée ou les demandes de webhook ayant échoué
Valeur d’en-tête d’authentification webhook	webhook_auth_header_value		string	Valeur d’en-tête à renvoyer avec la transcription terminée ou les demandes de webhook ayant échoué pour une sécurité ajoutée
Expressions clés	auto_highlights		boolean	Activer les expressions clés, true ou false
Démarrage audio à partir de	audio_start_from		integer	Point dans le temps, en millisecondes, pour commencer à transcrire dans votre fichier multimédia
Fin audio à l’adresse	audio_end_at		integer	Point dans le temps, en millisecondes, pour arrêter la transcription dans votre fichier multimédia
Word Boost	word_boost		array of string	Liste du vocabulaire personnalisé pour améliorer la probabilité de transcription pour
Niveau Word Boost	boost_param		string	Quantité de mots spécifiés
Filtrer la profanité	filter_profanity		boolean	Filtrer la profanité du texte transcrit, peut être vrai ou faux
Informations d’identification personnelles réactes	redact_pii		boolean	Réactez les informations personnelles à partir du texte transcrit à l’aide du modèle PII Redact, peut être true ou false
Redact PII Audio	redact_pii_audio		boolean	Générez une copie du fichier multimédia d’origine avec des piI parlées « biped », peuvent être vraies ou fausses. Pour plus d’informations, consultez la rédaction des informations personnelles.
Redact PII Audio Quality	redact_pii_audio_quality		string	Contrôle le type de fichier de l’audio créé par redact_pii_audio. Prend actuellement en charge mp3 (par défaut) et wav. Pour plus d’informations, consultez la rédaction des informations personnelles.
Réactez les stratégies d’identification personnelle	redact_pii_policies		array of string	Liste des stratégies de réaction des informations personnelles à activer. Pour plus d’informations, consultez la rédaction des informations personnelles.
Réactez la substitution d’informations personnelles	redact_pii_sub		string	La logique de remplacement pour les informations d’identification personnelle détectées peut être « entity_name » ou « hachage ». Pour plus d’informations, consultez la rédaction des informations personnelles.
Étiquettes de l’orateur	speaker_labels		boolean	Activer la diarisation de l’orateur, peut être true ou false
Intervenants attendus	speakers_expected		integer	Indique au modèle d’étiquette de l’orateur le nombre de haut-parleurs qu’il doit tenter d’identifier, jusqu’à 10. Pour plus d’informations, consultez la diarisation de l’orateur.
Modération du contenu	content_safety		boolean	Activer la modération du contenu peut être true ou false
Confiance en modération du contenu	content_safety_confidence		integer	Seuil de confiance pour le modèle modération du contenu. Les valeurs doivent être comprises entre 25 et 100.
Détection de rubriques	iab_categories		boolean	Activer la détection de rubriques peut être true ou false
De	from	True	array of string	Mots ou expressions à remplacer
À	to	True	string	Mot ou expression à remplacer par
Sentiment Analysis	sentiment_analysis		boolean	Activer l’analyse des sentiments, peut être true ou false
Chapitres automatiques	auto_chapters		boolean	Activer les chapitres automatiques, peut être vrai ou faux
Détection d’entité	entity_detection		boolean	Activer la détection d’entité, peut être true ou false
Seuil de reconnaissance vocale	speech_threshold		float	Rejeter les fichiers audio qui contiennent moins de cette fraction de voix. Les valeurs valides se trouvent dans la plage [0, 1] inclusive.
Activer le résumé	summarization		boolean	Activer la synthèse, peut être true ou false
Modèle de résumé	summary_model		string	Modèle pour résumer la transcription
Type de résumé	summary_type		string	Type de résumé
Activer les rubriques personnalisées	custom_topics		boolean	Activer des rubriques personnalisées, true ou false
Rubriques personnalisées	topics		array of string	Liste des rubriques personnalisées

Retours

Objet de transcription

Corps: Transcript

Vider les données de requête LeMUR

ID d’opération :: PurgeLemurRequestData

Supprimez les données d’une demande LeMUR précédemment envoyée. Les données de réponse LLM, ainsi que tout contexte fourni dans la requête d’origine seront supprimés.

Paramètres

Nom	Clé	Obligatoire	Type	Description
ID de demande LeMUR	request_id	True	string	ID de la demande LeMUR dont vous souhaitez supprimer les données. Cela se trouve dans la réponse de la demande d’origine.

Retours

Corps: PurgeLemurRequestDataResponse

Définitions

RedactedAudioResponse

Nom	Chemin d’accès	Type	Description
Statut	status	string	État de l’audio adopté
URL audio régérée	redacted_audio_url	string	URL du fichier audio supprimé

WordSearchResponse

Nom	Chemin d’accès	Type	Description
ID de transcription	id	uuid	ID de la transcription
Nombre total de correspondances	total_count	integer	Nombre total d’instances correspondantes. Par exemple, le mot 1 mis en correspondance 2 fois et le mot 2 mis en correspondance 3 fois, total_count est égal à 5.
Correspondances	matches	array of object	Correspondances de la recherche
Texto	matches.text	string	Mot mis en correspondance
Nombre	matches.count	integer	Nombre total de fois où le mot est dans la transcription
Timestamps	matches.timestamps	array of array	Tableau d’horodatages
Timestamp	matches.timestamps	array of integer	Tableau d’horodatages structurés en millisecondes [start_time, end_time]
Indexes	matches.indexes	array of integer	Tableau de tous les emplacements d’index pour ce mot dans le tableau de mots de la transcription terminée

Transcription

Objet de transcription

Nom	Chemin d’accès	Type	Description
ID	id	uuid	Identificateur unique de votre transcription
Audio URL	audio_url	string	URL du média transcrit
Statut	status	string	État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs.
Code de langue	language_code	string	Langue de votre fichier audio. Les valeurs possibles sont trouvées dans les langues prises en charge. La valeur par défaut est « en_us ».
Language Detection	language_detection	boolean	Indique si la détection automatique de la langue est activée, true ou false
Modèle speech	speech_model	string	Modèle de reconnaissance vocale à utiliser pour la transcription.
Texto	text	string	Transcription textuelle de votre fichier multimédia
Words	words	array of object	Tableau d’objets word séquentiels temporellement, un pour chaque mot de la transcription. Pour plus d’informations, consultez reconnaissance vocale.
Confiance	words.confidence	double
Démarrer	words.start	integer
Fin	words.end	integer
Texto	words.text	string
Orateur	words.speaker	string	Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null
Énoncés	utterances	array of object	Lorsque dual_channel ou speaker_labels est activé, une liste d’objets d’énoncé de tour par tour est activée. Pour plus d’informations, consultez la diarisation de l’orateur.
Confiance	utterances.confidence	double	Score de confiance pour la transcription de cet énoncé
Démarrer	utterances.start	integer	Heure de début, en millisecondes, de l’énoncé dans le fichier audio
Fin	utterances.end	integer	Heure de fin, en millisecondes, de l’énoncé dans le fichier audio
Texto	utterances.text	string	Texte de cet énoncé
Words	utterances.words	array of object	Mots dans l’énoncé.
Confiance	utterances.words.confidence	double
Démarrer	utterances.words.start	integer
Fin	utterances.words.end	integer
Texto	utterances.words.text	string
Orateur	utterances.words.speaker	string	Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null
Orateur	utterances.speaker	string	L’orateur de cet énoncé, où chaque orateur reçoit une lettre majuscule séquentielle , par exemple « A » pour le président A, « B » pour le président B, etc.
Confiance	confidence	double	Score de confiance pour la transcription, entre 0,0 (confiance faible) et 1,0 (confiance élevée)
Durée audio	audio_duration	integer	Durée du fichier multimédia de cet objet de transcription, en secondes
Ponctuer	punctuate	boolean	Indique si la ponctuation automatique est activée, true ou false
Mettre en forme le texte	format_text	boolean	Indique si la mise en forme du texte est activée, true ou false
Disfluencies	disfluencies	boolean	Transcrivez les mots de filler, tels que « um », dans votre fichier multimédia ; peut être vrai ou faux
Double canal	dual_channel	boolean	Indique si la transcription double canal a été activée dans la demande de transcription, true ou false
Webhook URL	webhook_url	string	URL vers laquelle nous envoyons des demandes de webhook. Nous envoyons deux types différents de demandes de webhook. Une demande lorsqu’une transcription est terminée ou a échoué, et une demande lorsque l’audio supprimé est prêt si redact_pii_audio est activé.
Code d’état HTTP webhook	webhook_status_code	integer	Code d’état que nous avons reçu de votre serveur lors de la remise de la transcription terminée ou de la demande de webhook ayant échoué, si une URL de webhook a été fournie
Authentification webhook activée	webhook_auth	boolean	Indique si les détails de l’authentification webhook ont été fournis
Nom de l’en-tête d’authentification webhook	webhook_auth_header_name	string	Nom de l’en-tête à envoyer avec la transcription terminée ou les demandes de webhook ayant échoué
Boost de vitesse	speed_boost	boolean	Indique si l’amélioration de la vitesse est activée
Expressions clés	auto_highlights	boolean	Indique si les expressions clés sont activées, true ou false
Statut	auto_highlights_result.status	string	Réussite ou non disponible dans le cas rare où le modèle a échoué
Results	auto_highlights_result.results	array of object	Tableau temporellement séquentiel d’expressions clés
Nombre	auto_highlights_result.results.count	integer	Nombre total de fois où l’expression clé apparaît dans le fichier audio
Classement	auto_highlights_result.results.rank	float	La pertinence totale du fichier audio global de cette phrase clé - un plus grand nombre signifie plus pertinent
Texto	auto_highlights_result.results.text	string	Texte lui-même de l’expression clé
Timestamps	auto_highlights_result.results.timestamps	array of object	Horodatage de l’expression clé
Démarrer	auto_highlights_result.results.timestamps.start	integer	Heure de début en millisecondes
Fin	auto_highlights_result.results.timestamps.end	integer	Heure de fin en millisecondes
Démarrage audio à partir de	audio_start_from	integer	Point dans le temps, en millisecondes, dans le fichier auquel la transcription a été démarrée
Fin audio à l’adresse	audio_end_at	integer	Point dans le temps, en millisecondes, dans le fichier auquel la transcription a été arrêtée
Word Boost	word_boost	array of string	Liste du vocabulaire personnalisé pour améliorer la probabilité de transcription pour
Augmenter	boost_param	string	Valeur du paramètre d’amélioration du mot
Filtrer la profanité	filter_profanity	boolean	Indique si le filtrage de la profanité est activé, true ou false
Informations d’identification personnelles réactes	redact_pii	boolean	Indique si piI Redaction est activée, true ou false
Redact PII Audio	redact_pii_audio	boolean	Indique si une version adoptée du fichier audio a été générée, true ou false. Pour plus d’informations, consultez la rédaction des informations personnelles.
Redact PII Audio Quality	redact_pii_audio_quality	string	Contrôle le type de fichier de l’audio créé par redact_pii_audio. Prend actuellement en charge mp3 (par défaut) et wav. Pour plus d’informations, consultez la rédaction des informations personnelles.
Réactez les stratégies d’identification personnelle	redact_pii_policies	array of string	Liste des stratégies de réaction des informations personnelles qui ont été activées, si l’action d’identification personnelle est activée. Pour plus d’informations, consultez la rédaction des informations personnelles.
Réactez la substitution d’informations personnelles	redact_pii_sub	string	La logique de remplacement pour les informations d’identification personnelle détectées peut être « entity_name » ou « hachage ». Pour plus d’informations, consultez la rédaction des informations personnelles.
Étiquettes de l’orateur	speaker_labels	boolean	Si la diarisation de l’orateur est activée, peut être true ou false
Intervenants attendus	speakers_expected	integer	Indiquez au modèle d’étiquette de l’orateur le nombre de haut-parleurs qu’il doit tenter d’identifier, jusqu’à 10. Pour plus d’informations, consultez la diarisation de l’orateur.
Modération du contenu	content_safety	boolean	Si la modération du contenu est activée, peut être true ou false
Statut	content_safety_labels.status	string	Réussite ou non disponible dans le cas rare où le modèle a échoué
Results	content_safety_labels.results	array of object
Texto	content_safety_labels.results.text	string	Transcription de la section marquée par le modèle modération du contenu
Étiquettes	content_safety_labels.results.labels	array of object	Tableau d’étiquettes de sécurité, une par rubrique sensible détectée dans la section
Étiquette	content_safety_labels.results.labels.label	string	Étiquette de la rubrique sensible
Confiance	content_safety_labels.results.labels.confidence	double	Score de confiance pour la rubrique en cours de discussion, de 0 à 1
Niveau de gravité	content_safety_labels.results.labels.severity	double	Comment le sujet est abordé dans la section, de 0 à 1
Début de l’index de phrase	content_safety_labels.results.sentences_idx_start	integer	Index de phrase à partir duquel la section commence
Fin de l’index de phrase	content_safety_labels.results.sentences_idx_end	integer	Index de phrase à laquelle la section se termine
Démarrer	content_safety_labels.results.timestamp.start	integer	Heure de début en millisecondes
Fin	content_safety_labels.results.timestamp.end	integer	Heure de fin en millisecondes
Résumé	content_safety_labels.summary	object	Résumé des résultats de confiance de modération du contenu pour l’intégralité du fichier audio
Résumé du score de gravité	content_safety_labels.severity_score_summary	object	Résumé des résultats de gravité de modération du contenu pour l’intégralité du fichier audio
Détection de rubriques	iab_categories	boolean	Si la détection de rubrique est activée, peut être true ou false
Statut	iab_categories_result.status	string	Réussite ou non disponible dans le cas rare où le modèle a échoué
Results	iab_categories_result.results	array of object	Tableau de résultats pour le modèle de détection de rubriques
Texto	iab_categories_result.results.text	string	Texte de la transcription dans laquelle une rubrique détectée se produit
Étiquettes	iab_categories_result.results.labels	array of object
Pertinence	iab_categories_result.results.labels.relevance	double	La pertinence de la rubrique détectée est d’une rubrique détectée
Étiquette	iab_categories_result.results.labels.label	string	Étiquette taxonomique IAB pour l’étiquette de la rubrique détectée, où > désigne la relation supertopique/subtopique
Démarrer	iab_categories_result.results.timestamp.start	integer	Heure de début en millisecondes
Fin	iab_categories_result.results.timestamp.end	integer	Heure de fin en millisecondes
Résumé	iab_categories_result.summary	object	Pertinence globale de la rubrique pour l’ensemble du fichier audio
Orthographes personnalisées	custom_spelling	array of object	Personnaliser la façon dont les mots sont orthographiés et mis en forme à l’aide de valeurs
De	custom_spelling.from	array of string	Mots ou expressions à remplacer
À	custom_spelling.to	string	Mot ou expression à remplacer par
Chapitres automatiques activés	auto_chapters	boolean	Si les chapitres automatiques sont activés, peuvent être vrais ou faux
Chapitres	chapters	array of object	Tableau de chapitres séquentiels temporellement pour le fichier audio
Gist	chapters.gist	string	Résumé ultra-court (quelques mots seulement) du contenu prononcé dans le chapitre
Titre	chapters.headline	string	Résumé d’une phrase unique du contenu prononcé au cours du chapitre
Résumé	chapters.summary	string	Résumé d’un paragraphe du contenu prononcé pendant le chapitre
Démarrer	chapters.start	integer	Heure de début, en millisecondes, pour le chapitre
Fin	chapters.end	integer	Heure de début, en millisecondes, pour le chapitre
Résumé activé	summarization	boolean	Indique si la synthèse est activée, true ou false
Type de résumé	summary_type	string	Type de résumé généré, si la synthèse est activée
Modèle de résumé	summary_model	string	Modèle de synthèse utilisé pour générer le résumé, si la synthèse est activée
Résumé	summary	string	Résumé généré du fichier multimédia, si la synthèse est activée
Rubriques personnalisées activées	custom_topics	boolean	Indique si les rubriques personnalisées sont activées, true ou false
Sujets	topics	array of string	Liste des rubriques personnalisées fournies si les rubriques personnalisées sont activées
Sentiment Analysis	sentiment_analysis	boolean	Si l’analyse des sentiments est activée, peut être true ou false
Résultats de l’analyse des sentiments	sentiment_analysis_results	array of object	Tableau de résultats pour le modèle Analyse des sentiments, s’il est activé. Pour plus d’informations, consultez Analyse des sentiments.
Texto	sentiment_analysis_results.text	string	Transcription de la phrase
Démarrer	sentiment_analysis_results.start	integer	Heure de début, en millisecondes, de la phrase
Fin	sentiment_analysis_results.end	integer	Heure de fin, en millisecondes, de la phrase
Sentiments	sentiment_analysis_results.sentiment		Sentiment détecté pour la phrase, l’un des positifs, NEUTREs, NÉGATIFS
Confiance	sentiment_analysis_results.confidence	double	Score de confiance pour le sentiment détecté de la phrase, de 0 à 1
Orateur	sentiment_analysis_results.speaker	string	Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null
Détection d’entité	entity_detection	boolean	Si la détection d’entité est activée, peut être true ou false
Entities	entities	array of object	Tableau de résultats pour le modèle de détection d’entité, s’il est activé. Pour plus d’informations, consultez La détection d’entité.
Type d’entité	entities.entity_type	string	Type d’entité pour l’entité détectée
Texto	entities.text	string	Texte de l’entité détectée
Démarrer	entities.start	integer	Heure de début, en millisecondes, à laquelle l’entité détectée apparaît dans le fichier audio
Fin	entities.end	integer	Heure de fin, en millisecondes, de l’entité détectée dans le fichier audio
Seuil de reconnaissance vocale	speech_threshold	float	La valeur par défaut est Null. Rejeter les fichiers audio qui contiennent moins de cette fraction de voix. Les valeurs valides se trouvent dans la plage [0, 1] inclusive.
Étranglé	throttled	boolean	True pendant qu’une requête est limitée et false lorsqu’une demande n’est plus limitée
Erreur	error	string	Message d’erreur indiquant pourquoi la transcription a échoué
Modèle de langage	language_model	string	Modèle de langue utilisé pour la transcription
Modèle acoustique	acoustic_model	string	Modèle acoustique utilisé pour la transcription

SentencesResponse

Nom	Chemin d’accès	Type	Description
ID de transcription	id	uuid
Confiance	confidence	double
Durée audio	audio_duration	number
Phrases	sentences	array of object
Texto	sentences.text	string
Démarrer	sentences.start	integer
Fin	sentences.end	integer
Confiance	sentences.confidence	double
Words	sentences.words	array of object
Confiance	sentences.words.confidence	double
Démarrer	sentences.words.start	integer
Fin	sentences.words.end	integer
Texto	sentences.words.text	string
Orateur	sentences.words.speaker	string	Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null
Orateur	sentences.speaker	string	Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

ParagraphsResponse

Nom	Chemin d’accès	Type	Description
ID de transcription	id	uuid
Confiance	confidence	double
Durée audio	audio_duration	number
Paragraphs	paragraphs	array of object
Texto	paragraphs.text	string
Démarrer	paragraphs.start	integer
Fin	paragraphs.end	integer
Confiance	paragraphs.confidence	double
Words	paragraphs.words	array of object
Confiance	paragraphs.words.confidence	double
Démarrer	paragraphs.words.start	integer
Fin	paragraphs.words.end	integer
Texto	paragraphs.words.text	string
Orateur	paragraphs.words.speaker	string	Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null
Orateur	paragraphs.speaker	string	Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

TranscriptList

Liste des transcriptions. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.

Nom	Chemin d’accès	Type	Description
Limit	page_details.limit	integer	Le nombre de résultats de cette page est limité à
Nombre de résultats	page_details.result_count	integer	Nombre réel de résultats dans la page
URL actuelle	page_details.current_url	string	URL utilisée pour récupérer la page active des transcriptions
URL précédente	page_details.prev_url	string	URL de la page suivante des transcriptions. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.
URL suivante	page_details.next_url	string	URL de la page suivante des transcriptions. L’URL suivante pointe toujours vers une page avec des transcriptions plus récentes.
Transcripts	transcripts	array of object
ID	transcripts.id	uuid
URL de ressource	transcripts.resource_url	string
Statut	transcripts.status	string	État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs.
Créé	transcripts.created	string
Terminé	transcripts.completed	string
Audio URL	transcripts.audio_url	string
Erreur	transcripts.error	string	Message d’erreur indiquant pourquoi la transcription a échoué

UploadFile

Nom	Chemin d’accès	Type	Description
URL du fichier chargé	upload_url	string	URL qui pointe vers votre fichier audio, accessible uniquement par les serveurs d’AssemblyAI

PurgeLemurRequestDataResponse

Nom	Chemin d’accès	Type	Description
ID de demande de vidage	request_id	uuid	ID de la demande de suppression de la demande LeMUR
ID de demande LeMUR pour purger	request_id_to_purge	uuid	ID de la demande LeMUR pour purger les données
Supprimé	deleted	boolean	Indique si les données de la demande ont été supprimées

LemurTaskResponse

Nom	Chemin d’accès	Type	Description
Réponse	response	string	Réponse générée par LeMUR.
ID de demande LeMUR	request_id	uuid	ID de la requête LeMUR
Jetons d’entrée	usage.input_tokens	integer	Nombre de jetons d’entrée utilisés par le modèle
Jetons de sortie	usage.output_tokens	integer	Nombre de jetons de sortie générés par le modèle

LemurResponse

Nom	Chemin d’accès	Type	Description
Réponse	response	string	Réponse générée par LeMUR.
ID de demande LeMUR	request_id	uuid	ID de la requête LeMUR
Jetons d’entrée	usage.input_tokens	integer	Nombre de jetons d’entrée utilisés par le modèle
Jetons de sortie	usage.output_tokens	integer	Nombre de jetons de sortie générés par le modèle

ficelle

Il s’agit du type de données de base « string ».

Partager via

AssemblyAI (préversion)

Prerequisites

Comment obtenir des informations d’identification

Bien démarrer avec votre connecteur

Charger un fichier

Transcrire l’audio

Gérer le Webhook Prêt pour la transcription

Interroger l’état de la transcription

Ajouter d’autres actions

Problèmes connus et limitations

Erreurs courantes et solutions

Questions fréquentes (FAQ)

Création d’une connexion

Faire défaut

Limitations

Actions

Charger un fichier multimédia

Paramètres

Retours

Exécuter une tâche à l’aide de LeMUR

Paramètres

Retours

Obtenir des paragraphes dans la transcription

Paramètres

Retours

Obtenir des phrases dans la transcription

Paramètres

Retours

Obtenir des sous-titres pour la transcription

Paramètres

Retours

Obtenir la transcription

Paramètres

Retours

Obtenir l’audio mis en œuvre

Paramètres

Retours

Rechercher des mots dans la transcription

Paramètres

Retours

Récupérer la réponse leMUR

Paramètres

Retours

Répertorier les transcriptions

Paramètres

Retours

Supprimer la transcription

Paramètres

Retours

Transcrire l’audio

Paramètres

Retours

Vider les données de requête LeMUR

Paramètres

Retours

Définitions

RedactedAudioResponse

WordSearchResponse

Transcription

SentencesResponse

ParagraphsResponse

TranscriptList

UploadFile

PurgeLemurRequestDataResponse

LemurTaskResponse

LemurResponse

ficelle