Partager via


AssemblyAI (préversion)

Transcrivez et extrayez des données de l’audio à l’aide de l’ia vocale d’AssemblyAI.

Ce connecteur est disponible dans les produits et régions suivants :

Service classe Régions
Copilot Studio Premium Toutes les régions Power Automate , à l’exception des éléments suivants :
     - Us Government (GCC)
     - Us Government (GCC High)
     - China Cloud géré par 21Vianet
     - Us Department of Defense (DoD)
Applications logiques Norme Toutes les régions Logic Apps , à l’exception des suivantes :
     - Régions Azure Government
     - Régions Azure Chine
     - Us Department of Defense (DoD)
Power Apps Premium Toutes les régions Power Apps , à l’exception des suivantes :
     - Us Government (GCC)
     - Us Government (GCC High)
     - China Cloud géré par 21Vianet
     - Us Department of Defense (DoD)
Power Automate Premium Toutes les régions Power Automate , à l’exception des éléments suivants :
     - Us Government (GCC)
     - Us Government (GCC High)
     - China Cloud géré par 21Vianet
     - Us Department of Defense (DoD)
Contact
Nom Support
URL https://www.assemblyai.com/docs/
Messagerie électronique support@assemblyai.com
Métadonnées du connecteur
Éditeur AssemblyAI
Site internet https://www.assemblyai.com
Politique de confidentialité https://www.assemblyai.com/legal/privacy-policy
Catégories AI

Avec le connecteur AssemblyAI , vous pouvez utiliser les modèles d’AssemblyAI pour traiter les données audio en les transcrire avec des modèles de reconnaissance vocale, en l’analysant avec des modèles d’intelligence audio et en créant des fonctionnalités de génération sur celles-ci avec des llMs.

  • Reconnaissance vocale, y compris de nombreuses fonctionnalités configurables, telles que la diarisation de l’orateur, l’orthographe personnalisée, le vocabulaire personnalisé, etc.
  • Les modèles Audio Intelligence sont des modèles IA supplémentaires disponibles et configurés par le biais de la configuration de transcription.
  • LeMUR vous permet d’appliquer différents modèles LLM à vos transcriptions sans avoir à créer votre propre infrastructure RAG pour des transcriptions très volumineuses.

Prerequisites

Vous devez procéder comme suit :

Comment obtenir des informations d’identification

Vous pouvez obtenir gratuitement une clé API AssemblyAI en vous inscrivant à un compte et en copiant la clé API à partir du tableau de bord.

Bien démarrer avec votre connecteur

Suivez ces étapes pour transcrire l’audio à l’aide du connecteur AssemblyAI.

Charger un fichier

Pour transcrire un fichier audio à l’aide d’AssemblyAI, le fichier doit être accessible à AssemblyAI. Si votre fichier audio est déjà accessible via une URL, vous pouvez utiliser votre URL existante.

Sinon, vous pouvez utiliser l’action Upload a File pour charger un fichier dans AssemblyAI. Vous récupérerez une URL pour votre fichier qui ne peut être utilisée que pour transcrire à l’aide de votre clé API. Une fois que vous avez transcrit le fichier, le fichier est supprimé des serveurs d’AssemblyAI.

Transcrire l’audio

Pour transcrire votre audio, configurez le paramètre à l’aide Audio URL de votre URL de fichier audio. Ensuite, configurez les paramètres supplémentaires pour activer davantage de fonctionnalités de reconnaissance vocale et de modèles Audio Intelligence .

Le résultat de l’action Transscribe Audio est une transcription mise en file d’attente qui commence à être traitée immédiatement. Pour obtenir la transcription terminée, vous avez deux options :

  1. Gérer le Webhook Prêt pour la transcription
  2. Interroger l’état de la transcription

Gérer le Webhook Prêt pour la transcription

Si vous ne souhaitez pas gérer le webhook à l’aide de Logic Apps ou de Power Automate, configurez le Webhook URL paramètre dans votre Transcribe Audio action et implémentez votre webhook en suivant la documentation webhook d’AssemblyAI.

Pour gérer le webhook à l’aide de Logic Apps ou de Power Automate, procédez comme suit :

  1. Créer une application logique distincte ou un flux Power Automate

  2. Configurez When an HTTP request is received comme déclencheur :

    • Définir sur Who Can Trigger The Flow?Anyone
    • Défini Request Body JSON Schema sur :
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Définir sur MethodPOST
  3. Ajoutez une action AssemblyAI Get Transcript , en passant le transcript_id déclencheur au Transcript ID paramètre.

  4. Avant de faire autre chose, vous devez vérifier si l’est Statuscompleted ou error. Ajoutez une Condition action qui vérifie si la StatusGet Transcript sortie est error:

    • Dans la True branche, ajoutez une Terminate action
      • Définir la valeur sur StatusFailed
      • Définir la valeur sur CodeTranscript Error
      • Passez la ErrorGet Transcript sortie au Message paramètre.
    • Vous pouvez laisser la False branche vide.

    Vous pouvez maintenant ajouter n’importe quelle action une fois que l’état Condition de la transcription est completedconnu et vous pouvez récupérer l’une des propriétés de sortie de l’action Get Transcript .

  5. Enregistrez votre application logique ou flux. Le HTTP URL déclencheur est généré When an HTTP request is received . Copiez et HTTP URL revenez à votre application logique ou flux d’origine.

  6. Dans votre application logique ou flux d’origine, mettez à jour l’action Transcribe Audio . Collez le HTTP URL fichier que vous avez copié précédemment dans le Webhook URL paramètre et enregistrez.

Lorsque l’état de la transcription devient completed ou error, AssemblyAI envoie une requête HTTP POST à l’URL du webhook, qui sera gérée par votre autre application logique ou flux.

En guise d’alternative à l’utilisation du webhook, vous pouvez interroger l’état de la transcription comme expliqué dans la section suivante.

Interroger l’état de la transcription

Vous pouvez interroger l’état de la transcription en procédant comme suit :

  • Ajouter une Initialize variable action

    • Définir sur Nametranscript_status
    • Définir sur TypeString
    • Stocker à Status partir de la Transcribe Audio sortie dans le Value paramètre
  • Ajouter une Do until action

    • Configurez le Loop Until paramètre avec le code Fx suivant :
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Ce code vérifie si la transcript_status variable est completed ou error.
    • Configurer le Count paramètre sur 86400
    • Configurer le Timeout paramètre sur PT24H

    À l’intérieur de l’action Do until , ajoutez les actions suivantes :

    • Ajouter une Delay action qui attend une seconde
    • Ajoutez une Get Transcript action et transmettez la IDTranscribe Audio sortie au Transcript ID paramètre.
    • Ajouter une Set variable action
      • Définir sur Nametranscript_status
      • Passer la StatusGet Transcript sortie au Value paramètre

    La Do until boucle se poursuit jusqu’à ce que la transcription soit terminée ou qu’une erreur s’est produite.

  • Ajoutez une autre Get Transcript action, comme précédemment, mais ajoutez-la après la Do until boucle afin que sa sortie devienne disponible en dehors de l’étendue de l’action Do until .

Avant de faire autre chose, vous devez vérifier si la transcription Status est completed ou error. Ajoutez une Condition action qui vérifie si l’objet transcript_status est error:

  • Dans la True branche, ajoutez une Terminate action
    • Définir sur StatusFailed
    • Définir sur CodeTranscript Error
    • Passez la ErrorGet Transcript sortie au Message paramètre.
  • Vous pouvez laisser la False branche vide.

Vous pouvez maintenant ajouter n’importe quelle action une fois que l’état Condition de la transcription est completedconnu et vous pouvez récupérer l’une des propriétés de sortie de l’action Get Transcript .

Ajouter d’autres actions

Maintenant que vous disposez d’une transcription terminée, vous pouvez utiliser de nombreuses autres actions en passant la ID transcription, comme

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Problèmes connus et limitations

Aucun problème connu actuellement. Nous ne prenons pas en charge Streaming Speech-To-Text (en temps réel), car il n’est pas possible d’utiliser des connecteurs personnalisés.

Erreurs courantes et solutions

Vous trouverez plus d’informations sur les erreurs dans la documentation AssemblyAI.

Questions fréquentes (FAQ)

Vous trouverez des questions fréquemment posées dans notre documentation.

Création d’une connexion

Le connecteur prend en charge les types d’authentification suivants :

Par défaut Paramètres de création de connexion. Toutes les régions Non partageable

Faire défaut

Applicable : Toutes les régions

Paramètres de création de connexion.

Cette connexion n’est pas partageable. Si l’application power est partagée avec un autre utilisateur, un autre utilisateur est invité à créer une connexion explicitement.

Nom Type Descriptif Obligatoire
Clé API AssemblyAI securestring Clé d’API AssemblyAI pour authentifier l’API AssemblyAI. Vrai

Limitations

Nom Appels Période de renouvellement
Appels d’API par connexion 100 60 secondes

Actions

Charger un fichier multimédia

Chargez un fichier multimédia sur les serveurs d’AssemblyAI.

Exécuter une tâche à l’aide de LeMUR

Utilisez le point de terminaison de tâche LeMUR pour entrer votre propre invite LLM.

Obtenir des paragraphes dans la transcription

Obtenez la transcription divisée par paragraphes. L’API tente de segmenter sémantiquement votre transcription en paragraphes pour créer des transcriptions plus conviviales pour le lecteur.

Obtenir des phrases dans la transcription

Obtenez la transcription divisée par phrases. L’API tente de segmenter sémantiquement la transcription en phrases pour créer des transcriptions plus conviviales pour le lecteur.

Obtenir des sous-titres pour la transcription

Exportez votre transcription au format SRT ou VTT à utiliser avec un lecteur vidéo pour les sous-titres et les sous-titres.

Obtenir la transcription

Obtenez la ressource de transcription. La transcription est prête lorsque l'« état » est « terminé ».

Obtenir l’audio mis en œuvre

Récupérez l’objet audio supprimé contenant l’état et l’URL de l’audio supprimé.

Rechercher des mots dans la transcription

Recherchez les mots clés dans la transcription. Vous pouvez rechercher des mots, des nombres ou des expressions individuels contenant jusqu’à cinq mots ou nombres.

Récupérer la réponse leMUR

Récupérez une réponse LeMUR qui a été générée précédemment.

Répertorier les transcriptions

Récupérez la liste des transcriptions que vous avez créées. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.

Supprimer la transcription

Supprimez la transcription. La suppression ne supprime pas la ressource elle-même, mais supprime les données de la ressource et les marque comme supprimées.

Transcrire l’audio

Créez une transcription à partir d’un fichier multimédia accessible via une URL.

Vider les données de requête LeMUR

Supprimez les données d’une demande LeMUR précédemment envoyée. Les données de réponse LLM, ainsi que tout contexte fourni dans la requête d’origine seront supprimés.

Charger un fichier multimédia

Chargez un fichier multimédia sur les serveurs d’AssemblyAI.

Paramètres

Nom Clé Obligatoire Type Description
Contenu du fichier
file True binary

Fichier à charger.

Retours

Corps
UploadedFile

Exécuter une tâche à l’aide de LeMUR

Utilisez le point de terminaison de tâche LeMUR pour entrer votre propre invite LLM.

Paramètres

Nom Clé Obligatoire Type Description
Prompt
prompt True string

Votre texte pour inviter le modèle à produire une sortie souhaitée, y compris tout contexte que vous souhaitez transmettre au modèle.

ID de transcription
transcript_ids array of uuid

Liste des transcriptions terminées avec du texte. Jusqu’à un maximum de 100 fichiers ou 100 heures, selon la valeur inférieure. Utilisez transcript_ids ou input_text comme entrée dans LeMUR.

Texte d’entrée
input_text string

Données de transcription mises en forme personnalisées. La taille maximale est la limite de contexte du modèle sélectionné, qui est définie par défaut sur 1 00000. Utilisez transcript_ids ou input_text comme entrée dans LeMUR.

Contexte
context string

Contexte pour fournir le modèle. Il peut s’agir d’une chaîne ou d’une valeur JSON de forme libre.

Modèle final
final_model string

Modèle utilisé pour l’invite finale après l’exécution de la compression.

Taille maximale de sortie
max_output_size integer

Taille de sortie maximale dans les jetons, jusqu’à 4 000

Température
temperature float

Température à utiliser pour le modèle. Des valeurs plus élevées entraînent des réponses plus créatives, des valeurs inférieures sont plus conservatrices. Il peut s’agir de n’importe quelle valeur comprise entre 0,0 et 1,0 inclus.

Retours

Obtenir des paragraphes dans la transcription

Obtenez la transcription divisée par paragraphes. L’API tente de segmenter sémantiquement votre transcription en paragraphes pour créer des transcriptions plus conviviales pour le lecteur.

Paramètres

Nom Clé Obligatoire Type Description
ID de transcription
transcript_id True string

ID de la transcription

Retours

Obtenir des phrases dans la transcription

Obtenez la transcription divisée par phrases. L’API tente de segmenter sémantiquement la transcription en phrases pour créer des transcriptions plus conviviales pour le lecteur.

Paramètres

Nom Clé Obligatoire Type Description
ID de transcription
transcript_id True string

ID de la transcription

Retours

Obtenir des sous-titres pour la transcription

Exportez votre transcription au format SRT ou VTT à utiliser avec un lecteur vidéo pour les sous-titres et les sous-titres.

Paramètres

Nom Clé Obligatoire Type Description
ID de transcription
transcript_id True string

ID de la transcription

Format du sous-titre
subtitle_format True string

Format des sous-titres

Nombre de caractères par légende
chars_per_caption integer

Nombre maximal de caractères par légende

Retours

response
string

Obtenir la transcription

Obtenez la ressource de transcription. La transcription est prête lorsque l'« état » est « terminé ».

Paramètres

Nom Clé Obligatoire Type Description
ID de transcription
transcript_id True string

ID de la transcription

Retours

Objet de transcription

Corps
Transcript

Obtenir l’audio mis en œuvre

Récupérez l’objet audio supprimé contenant l’état et l’URL de l’audio supprimé.

Paramètres

Nom Clé Obligatoire Type Description
ID de transcription
transcript_id True string

ID de la transcription

Retours

Rechercher des mots dans la transcription

Recherchez les mots clés dans la transcription. Vous pouvez rechercher des mots, des nombres ou des expressions individuels contenant jusqu’à cinq mots ou nombres.

Paramètres

Nom Clé Obligatoire Type Description
ID de transcription
transcript_id True string

ID de la transcription

Words
words True array

Mots clés à rechercher

Retours

Récupérer la réponse leMUR

Récupérez une réponse LeMUR qui a été générée précédemment.

Paramètres

Nom Clé Obligatoire Type Description
ID de demande LeMUR
request_id True string

ID de la demande LeMUR que vous avez effectuée précédemment. Cela se trouve dans la réponse de la demande d’origine.

Retours

Répertorier les transcriptions

Récupérez la liste des transcriptions que vous avez créées. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.

Paramètres

Nom Clé Obligatoire Type Description
Limit
limit integer

Quantité maximale de transcriptions à récupérer

Statut
status string

État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs.

Création le
created_on date

Obtenir uniquement les transcriptions créées à cette date

Avant l’ID
before_id uuid

Obtenir les transcriptions créées avant cet ID de transcription

Après l’ID
after_id uuid

Obtenir les transcriptions qui ont été créées après cet ID de transcription

Limité uniquement
throttled_only boolean

Obtenir uniquement des transcriptions limitées, remplace le filtre d’état

Retours

Liste des transcriptions. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.

Supprimer la transcription

Supprimez la transcription. La suppression ne supprime pas la ressource elle-même, mais supprime les données de la ressource et les marque comme supprimées.

Paramètres

Nom Clé Obligatoire Type Description
ID de transcription
transcript_id True string

ID de la transcription

Retours

Objet de transcription

Corps
Transcript

Transcrire l’audio

Créez une transcription à partir d’un fichier multimédia accessible via une URL.

Paramètres

Nom Clé Obligatoire Type Description
Audio URL
audio_url True string

URL du fichier audio ou vidéo à transcrire.

Code de langue
language_code string

Langue de votre fichier audio. Les valeurs possibles sont trouvées dans les langues prises en charge. La valeur par défaut est « en_us ».

Language Detection
language_detection boolean

Activez la détection automatique de la langue, true ou false.

Modèle speech
speech_model string

Modèle de reconnaissance vocale à utiliser pour la transcription.

Ponctuer
punctuate boolean

Activer la ponctuation automatique, peut être true ou false

Mettre en forme le texte
format_text boolean

Activer la mise en forme du texte, peut être true ou false

Disfluencies
disfluencies boolean

Transcrivez les mots de filler, tels que « um », dans votre fichier multimédia ; peut être vrai ou faux

Double canal
dual_channel boolean

Activer la transcription à double canal peut être true ou false.

Webhook URL
webhook_url string

URL vers laquelle nous envoyons des demandes de webhook. Nous envoyons deux types différents de demandes de webhook. Une demande lorsqu’une transcription est terminée ou a échoué, et une demande lorsque l’audio supprimé est prêt si redact_pii_audio est activé.

Nom de l’en-tête d’authentification webhook
webhook_auth_header_name string

Nom de l’en-tête à envoyer avec la transcription terminée ou les demandes de webhook ayant échoué

Valeur d’en-tête d’authentification webhook
webhook_auth_header_value string

Valeur d’en-tête à renvoyer avec la transcription terminée ou les demandes de webhook ayant échoué pour une sécurité ajoutée

Expressions clés
auto_highlights boolean

Activer les expressions clés, true ou false

Démarrage audio à partir de
audio_start_from integer

Point dans le temps, en millisecondes, pour commencer à transcrire dans votre fichier multimédia

Fin audio à l’adresse
audio_end_at integer

Point dans le temps, en millisecondes, pour arrêter la transcription dans votre fichier multimédia

Word Boost
word_boost array of string

Liste du vocabulaire personnalisé pour améliorer la probabilité de transcription pour

Niveau Word Boost
boost_param string

Quantité de mots spécifiés

Filtrer la profanité
filter_profanity boolean

Filtrer la profanité du texte transcrit, peut être vrai ou faux

Informations d’identification personnelles réactes
redact_pii boolean

Réactez les informations personnelles à partir du texte transcrit à l’aide du modèle PII Redact, peut être true ou false

Redact PII Audio
redact_pii_audio boolean

Générez une copie du fichier multimédia d’origine avec des piI parlées « biped », peuvent être vraies ou fausses. Pour plus d’informations, consultez la rédaction des informations personnelles.

Redact PII Audio Quality
redact_pii_audio_quality string

Contrôle le type de fichier de l’audio créé par redact_pii_audio. Prend actuellement en charge mp3 (par défaut) et wav. Pour plus d’informations, consultez la rédaction des informations personnelles.

Réactez les stratégies d’identification personnelle
redact_pii_policies array of string

Liste des stratégies de réaction des informations personnelles à activer. Pour plus d’informations, consultez la rédaction des informations personnelles.

Réactez la substitution d’informations personnelles
redact_pii_sub string

La logique de remplacement pour les informations d’identification personnelle détectées peut être « entity_name » ou « hachage ». Pour plus d’informations, consultez la rédaction des informations personnelles.

Étiquettes de l’orateur
speaker_labels boolean

Activer la diarisation de l’orateur, peut être true ou false

Intervenants attendus
speakers_expected integer

Indique au modèle d’étiquette de l’orateur le nombre de haut-parleurs qu’il doit tenter d’identifier, jusqu’à 10. Pour plus d’informations, consultez la diarisation de l’orateur.

Modération du contenu
content_safety boolean

Activer la modération du contenu peut être true ou false

Confiance en modération du contenu
content_safety_confidence integer

Seuil de confiance pour le modèle modération du contenu. Les valeurs doivent être comprises entre 25 et 100.

Détection de rubriques
iab_categories boolean

Activer la détection de rubriques peut être true ou false

De
from True array of string

Mots ou expressions à remplacer

À
to True string

Mot ou expression à remplacer par

Sentiment Analysis
sentiment_analysis boolean

Activer l’analyse des sentiments, peut être true ou false

Chapitres automatiques
auto_chapters boolean

Activer les chapitres automatiques, peut être vrai ou faux

Détection d’entité
entity_detection boolean

Activer la détection d’entité, peut être true ou false

Seuil de reconnaissance vocale
speech_threshold float

Rejeter les fichiers audio qui contiennent moins de cette fraction de voix. Les valeurs valides se trouvent dans la plage [0, 1] inclusive.

Activer le résumé
summarization boolean

Activer la synthèse, peut être true ou false

Modèle de résumé
summary_model string

Modèle pour résumer la transcription

Type de résumé
summary_type string

Type de résumé

Activer les rubriques personnalisées
custom_topics boolean

Activer des rubriques personnalisées, true ou false

Rubriques personnalisées
topics array of string

Liste des rubriques personnalisées

Retours

Objet de transcription

Corps
Transcript

Vider les données de requête LeMUR

Supprimez les données d’une demande LeMUR précédemment envoyée. Les données de réponse LLM, ainsi que tout contexte fourni dans la requête d’origine seront supprimés.

Paramètres

Nom Clé Obligatoire Type Description
ID de demande LeMUR
request_id True string

ID de la demande LeMUR dont vous souhaitez supprimer les données. Cela se trouve dans la réponse de la demande d’origine.

Retours

Définitions

RedactedAudioResponse

Nom Chemin d’accès Type Description
Statut
status string

État de l’audio adopté

URL audio régérée
redacted_audio_url string

URL du fichier audio supprimé

WordSearchResponse

Nom Chemin d’accès Type Description
ID de transcription
id uuid

ID de la transcription

Nombre total de correspondances
total_count integer

Nombre total d’instances correspondantes. Par exemple, le mot 1 mis en correspondance 2 fois et le mot 2 mis en correspondance 3 fois, total_count est égal à 5.

Correspondances
matches array of object

Correspondances de la recherche

Texto
matches.text string

Mot mis en correspondance

Nombre
matches.count integer

Nombre total de fois où le mot est dans la transcription

Timestamps
matches.timestamps array of array

Tableau d’horodatages

Timestamp
matches.timestamps array of integer

Tableau d’horodatages structurés en millisecondes [start_time, end_time]

Indexes
matches.indexes array of integer

Tableau de tous les emplacements d’index pour ce mot dans le tableau de mots de la transcription terminée

Transcription

Objet de transcription

Nom Chemin d’accès Type Description
ID
id uuid

Identificateur unique de votre transcription

Audio URL
audio_url string

URL du média transcrit

Statut
status string

État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs.

Code de langue
language_code string

Langue de votre fichier audio. Les valeurs possibles sont trouvées dans les langues prises en charge. La valeur par défaut est « en_us ».

Language Detection
language_detection boolean

Indique si la détection automatique de la langue est activée, true ou false

Modèle speech
speech_model string

Modèle de reconnaissance vocale à utiliser pour la transcription.

Texto
text string

Transcription textuelle de votre fichier multimédia

Words
words array of object

Tableau d’objets word séquentiels temporellement, un pour chaque mot de la transcription. Pour plus d’informations, consultez reconnaissance vocale.

Confiance
words.confidence double
Démarrer
words.start integer
Fin
words.end integer
Texto
words.text string
Orateur
words.speaker string

Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

Énoncés
utterances array of object

Lorsque dual_channel ou speaker_labels est activé, une liste d’objets d’énoncé de tour par tour est activée. Pour plus d’informations, consultez la diarisation de l’orateur.

Confiance
utterances.confidence double

Score de confiance pour la transcription de cet énoncé

Démarrer
utterances.start integer

Heure de début, en millisecondes, de l’énoncé dans le fichier audio

Fin
utterances.end integer

Heure de fin, en millisecondes, de l’énoncé dans le fichier audio

Texto
utterances.text string

Texte de cet énoncé

Words
utterances.words array of object

Mots dans l’énoncé.

Confiance
utterances.words.confidence double
Démarrer
utterances.words.start integer
Fin
utterances.words.end integer
Texto
utterances.words.text string
Orateur
utterances.words.speaker string

Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

Orateur
utterances.speaker string

L’orateur de cet énoncé, où chaque orateur reçoit une lettre majuscule séquentielle , par exemple « A » pour le président A, « B » pour le président B, etc.

Confiance
confidence double

Score de confiance pour la transcription, entre 0,0 (confiance faible) et 1,0 (confiance élevée)

Durée audio
audio_duration integer

Durée du fichier multimédia de cet objet de transcription, en secondes

Ponctuer
punctuate boolean

Indique si la ponctuation automatique est activée, true ou false

Mettre en forme le texte
format_text boolean

Indique si la mise en forme du texte est activée, true ou false

Disfluencies
disfluencies boolean

Transcrivez les mots de filler, tels que « um », dans votre fichier multimédia ; peut être vrai ou faux

Double canal
dual_channel boolean

Indique si la transcription double canal a été activée dans la demande de transcription, true ou false

Webhook URL
webhook_url string

URL vers laquelle nous envoyons des demandes de webhook. Nous envoyons deux types différents de demandes de webhook. Une demande lorsqu’une transcription est terminée ou a échoué, et une demande lorsque l’audio supprimé est prêt si redact_pii_audio est activé.

Code d’état HTTP webhook
webhook_status_code integer

Code d’état que nous avons reçu de votre serveur lors de la remise de la transcription terminée ou de la demande de webhook ayant échoué, si une URL de webhook a été fournie

Authentification webhook activée
webhook_auth boolean

Indique si les détails de l’authentification webhook ont été fournis

Nom de l’en-tête d’authentification webhook
webhook_auth_header_name string

Nom de l’en-tête à envoyer avec la transcription terminée ou les demandes de webhook ayant échoué

Boost de vitesse
speed_boost boolean

Indique si l’amélioration de la vitesse est activée

Expressions clés
auto_highlights boolean

Indique si les expressions clés sont activées, true ou false

Statut
auto_highlights_result.status string

Réussite ou non disponible dans le cas rare où le modèle a échoué

Results
auto_highlights_result.results array of object

Tableau temporellement séquentiel d’expressions clés

Nombre
auto_highlights_result.results.count integer

Nombre total de fois où l’expression clé apparaît dans le fichier audio

Classement
auto_highlights_result.results.rank float

La pertinence totale du fichier audio global de cette phrase clé - un plus grand nombre signifie plus pertinent

Texto
auto_highlights_result.results.text string

Texte lui-même de l’expression clé

Timestamps
auto_highlights_result.results.timestamps array of object

Horodatage de l’expression clé

Démarrer
auto_highlights_result.results.timestamps.start integer

Heure de début en millisecondes

Fin
auto_highlights_result.results.timestamps.end integer

Heure de fin en millisecondes

Démarrage audio à partir de
audio_start_from integer

Point dans le temps, en millisecondes, dans le fichier auquel la transcription a été démarrée

Fin audio à l’adresse
audio_end_at integer

Point dans le temps, en millisecondes, dans le fichier auquel la transcription a été arrêtée

Word Boost
word_boost array of string

Liste du vocabulaire personnalisé pour améliorer la probabilité de transcription pour

Augmenter
boost_param string

Valeur du paramètre d’amélioration du mot

Filtrer la profanité
filter_profanity boolean

Indique si le filtrage de la profanité est activé, true ou false

Informations d’identification personnelles réactes
redact_pii boolean

Indique si piI Redaction est activée, true ou false

Redact PII Audio
redact_pii_audio boolean

Indique si une version adoptée du fichier audio a été générée, true ou false. Pour plus d’informations, consultez la rédaction des informations personnelles.

Redact PII Audio Quality
redact_pii_audio_quality string

Contrôle le type de fichier de l’audio créé par redact_pii_audio. Prend actuellement en charge mp3 (par défaut) et wav. Pour plus d’informations, consultez la rédaction des informations personnelles.

Réactez les stratégies d’identification personnelle
redact_pii_policies array of string

Liste des stratégies de réaction des informations personnelles qui ont été activées, si l’action d’identification personnelle est activée. Pour plus d’informations, consultez la rédaction des informations personnelles.

Réactez la substitution d’informations personnelles
redact_pii_sub string

La logique de remplacement pour les informations d’identification personnelle détectées peut être « entity_name » ou « hachage ». Pour plus d’informations, consultez la rédaction des informations personnelles.

Étiquettes de l’orateur
speaker_labels boolean

Si la diarisation de l’orateur est activée, peut être true ou false

Intervenants attendus
speakers_expected integer

Indiquez au modèle d’étiquette de l’orateur le nombre de haut-parleurs qu’il doit tenter d’identifier, jusqu’à 10. Pour plus d’informations, consultez la diarisation de l’orateur.

Modération du contenu
content_safety boolean

Si la modération du contenu est activée, peut être true ou false

Statut
content_safety_labels.status string

Réussite ou non disponible dans le cas rare où le modèle a échoué

Results
content_safety_labels.results array of object
Texto
content_safety_labels.results.text string

Transcription de la section marquée par le modèle modération du contenu

Étiquettes
content_safety_labels.results.labels array of object

Tableau d’étiquettes de sécurité, une par rubrique sensible détectée dans la section

Étiquette
content_safety_labels.results.labels.label string

Étiquette de la rubrique sensible

Confiance
content_safety_labels.results.labels.confidence double

Score de confiance pour la rubrique en cours de discussion, de 0 à 1

Niveau de gravité
content_safety_labels.results.labels.severity double

Comment le sujet est abordé dans la section, de 0 à 1

Début de l’index de phrase
content_safety_labels.results.sentences_idx_start integer

Index de phrase à partir duquel la section commence

Fin de l’index de phrase
content_safety_labels.results.sentences_idx_end integer

Index de phrase à laquelle la section se termine

Démarrer
content_safety_labels.results.timestamp.start integer

Heure de début en millisecondes

Fin
content_safety_labels.results.timestamp.end integer

Heure de fin en millisecondes

Résumé
content_safety_labels.summary object

Résumé des résultats de confiance de modération du contenu pour l’intégralité du fichier audio

Résumé du score de gravité
content_safety_labels.severity_score_summary object

Résumé des résultats de gravité de modération du contenu pour l’intégralité du fichier audio

Détection de rubriques
iab_categories boolean

Si la détection de rubrique est activée, peut être true ou false

Statut
iab_categories_result.status string

Réussite ou non disponible dans le cas rare où le modèle a échoué

Results
iab_categories_result.results array of object

Tableau de résultats pour le modèle de détection de rubriques

Texto
iab_categories_result.results.text string

Texte de la transcription dans laquelle une rubrique détectée se produit

Étiquettes
iab_categories_result.results.labels array of object
Pertinence
iab_categories_result.results.labels.relevance double

La pertinence de la rubrique détectée est d’une rubrique détectée

Étiquette
iab_categories_result.results.labels.label string

Étiquette taxonomique IAB pour l’étiquette de la rubrique détectée, où > désigne la relation supertopique/subtopique

Démarrer
iab_categories_result.results.timestamp.start integer

Heure de début en millisecondes

Fin
iab_categories_result.results.timestamp.end integer

Heure de fin en millisecondes

Résumé
iab_categories_result.summary object

Pertinence globale de la rubrique pour l’ensemble du fichier audio

Orthographes personnalisées
custom_spelling array of object

Personnaliser la façon dont les mots sont orthographiés et mis en forme à l’aide de valeurs

De
custom_spelling.from array of string

Mots ou expressions à remplacer

À
custom_spelling.to string

Mot ou expression à remplacer par

Chapitres automatiques activés
auto_chapters boolean

Si les chapitres automatiques sont activés, peuvent être vrais ou faux

Chapitres
chapters array of object

Tableau de chapitres séquentiels temporellement pour le fichier audio

Gist
chapters.gist string

Résumé ultra-court (quelques mots seulement) du contenu prononcé dans le chapitre

Titre
chapters.headline string

Résumé d’une phrase unique du contenu prononcé au cours du chapitre

Résumé
chapters.summary string

Résumé d’un paragraphe du contenu prononcé pendant le chapitre

Démarrer
chapters.start integer

Heure de début, en millisecondes, pour le chapitre

Fin
chapters.end integer

Heure de début, en millisecondes, pour le chapitre

Résumé activé
summarization boolean

Indique si la synthèse est activée, true ou false

Type de résumé
summary_type string

Type de résumé généré, si la synthèse est activée

Modèle de résumé
summary_model string

Modèle de synthèse utilisé pour générer le résumé, si la synthèse est activée

Résumé
summary string

Résumé généré du fichier multimédia, si la synthèse est activée

Rubriques personnalisées activées
custom_topics boolean

Indique si les rubriques personnalisées sont activées, true ou false

Sujets
topics array of string

Liste des rubriques personnalisées fournies si les rubriques personnalisées sont activées

Sentiment Analysis
sentiment_analysis boolean

Si l’analyse des sentiments est activée, peut être true ou false

Résultats de l’analyse des sentiments
sentiment_analysis_results array of object

Tableau de résultats pour le modèle Analyse des sentiments, s’il est activé. Pour plus d’informations, consultez Analyse des sentiments.

Texto
sentiment_analysis_results.text string

Transcription de la phrase

Démarrer
sentiment_analysis_results.start integer

Heure de début, en millisecondes, de la phrase

Fin
sentiment_analysis_results.end integer

Heure de fin, en millisecondes, de la phrase

Sentiments
sentiment_analysis_results.sentiment

Sentiment détecté pour la phrase, l’un des positifs, NEUTREs, NÉGATIFS

Confiance
sentiment_analysis_results.confidence double

Score de confiance pour le sentiment détecté de la phrase, de 0 à 1

Orateur
sentiment_analysis_results.speaker string

Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

Détection d’entité
entity_detection boolean

Si la détection d’entité est activée, peut être true ou false

Entities
entities array of object

Tableau de résultats pour le modèle de détection d’entité, s’il est activé. Pour plus d’informations, consultez La détection d’entité.

Type d’entité
entities.entity_type string

Type d’entité pour l’entité détectée

Texto
entities.text string

Texte de l’entité détectée

Démarrer
entities.start integer

Heure de début, en millisecondes, à laquelle l’entité détectée apparaît dans le fichier audio

Fin
entities.end integer

Heure de fin, en millisecondes, de l’entité détectée dans le fichier audio

Seuil de reconnaissance vocale
speech_threshold float

La valeur par défaut est Null. Rejeter les fichiers audio qui contiennent moins de cette fraction de voix. Les valeurs valides se trouvent dans la plage [0, 1] inclusive.

Étranglé
throttled boolean

True pendant qu’une requête est limitée et false lorsqu’une demande n’est plus limitée

Erreur
error string

Message d’erreur indiquant pourquoi la transcription a échoué

Modèle de langage
language_model string

Modèle de langue utilisé pour la transcription

Modèle acoustique
acoustic_model string

Modèle acoustique utilisé pour la transcription

SentencesResponse

Nom Chemin d’accès Type Description
ID de transcription
id uuid
Confiance
confidence double
Durée audio
audio_duration number
Phrases
sentences array of object
Texto
sentences.text string
Démarrer
sentences.start integer
Fin
sentences.end integer
Confiance
sentences.confidence double
Words
sentences.words array of object
Confiance
sentences.words.confidence double
Démarrer
sentences.words.start integer
Fin
sentences.words.end integer
Texto
sentences.words.text string
Orateur
sentences.words.speaker string

Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

Orateur
sentences.speaker string

Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

ParagraphsResponse

Nom Chemin d’accès Type Description
ID de transcription
id uuid
Confiance
confidence double
Durée audio
audio_duration number
Paragraphs
paragraphs array of object
Texto
paragraphs.text string
Démarrer
paragraphs.start integer
Fin
paragraphs.end integer
Confiance
paragraphs.confidence double
Words
paragraphs.words array of object
Confiance
paragraphs.words.confidence double
Démarrer
paragraphs.words.start integer
Fin
paragraphs.words.end integer
Texto
paragraphs.words.text string
Orateur
paragraphs.words.speaker string

Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

Orateur
paragraphs.speaker string

Haut-parleur de la phrase si la diarisation de l’orateur est activée, sinon null

TranscriptList

Liste des transcriptions. Les transcriptions sont triées du plus récent au plus ancien. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.

Nom Chemin d’accès Type Description
Limit
page_details.limit integer

Le nombre de résultats de cette page est limité à

Nombre de résultats
page_details.result_count integer

Nombre réel de résultats dans la page

URL actuelle
page_details.current_url string

URL utilisée pour récupérer la page active des transcriptions

URL précédente
page_details.prev_url string

URL de la page suivante des transcriptions. L’URL précédente pointe toujours vers une page avec des transcriptions plus anciennes.

URL suivante
page_details.next_url string

URL de la page suivante des transcriptions. L’URL suivante pointe toujours vers une page avec des transcriptions plus récentes.

Transcripts
transcripts array of object
ID
transcripts.id uuid
URL de ressource
transcripts.resource_url string
Statut
transcripts.status string

État de votre transcription. Les valeurs possibles sont mises en file d’attente, traitées, terminées ou erreurs.

Créé
transcripts.created string
Terminé
transcripts.completed string
Audio URL
transcripts.audio_url string
Erreur
transcripts.error string

Message d’erreur indiquant pourquoi la transcription a échoué

UploadFile

Nom Chemin d’accès Type Description
URL du fichier chargé
upload_url string

URL qui pointe vers votre fichier audio, accessible uniquement par les serveurs d’AssemblyAI

PurgeLemurRequestDataResponse

Nom Chemin d’accès Type Description
ID de demande de vidage
request_id uuid

ID de la demande de suppression de la demande LeMUR

ID de demande LeMUR pour purger
request_id_to_purge uuid

ID de la demande LeMUR pour purger les données

Supprimé
deleted boolean

Indique si les données de la demande ont été supprimées

LemurTaskResponse

Nom Chemin d’accès Type Description
Réponse
response string

Réponse générée par LeMUR.

ID de demande LeMUR
request_id uuid

ID de la requête LeMUR

Jetons d’entrée
usage.input_tokens integer

Nombre de jetons d’entrée utilisés par le modèle

Jetons de sortie
usage.output_tokens integer

Nombre de jetons de sortie générés par le modèle

LemurResponse

Nom Chemin d’accès Type Description
Réponse
response string

Réponse générée par LeMUR.

ID de demande LeMUR
request_id uuid

ID de la requête LeMUR

Jetons d’entrée
usage.input_tokens integer

Nombre de jetons d’entrée utilisés par le modèle

Jetons de sortie
usage.output_tokens integer

Nombre de jetons de sortie générés par le modèle

ficelle

Il s’agit du type de données de base « string ».