Conversión de voz en texto en Azure Batch

Transcriba con precisión el audio al texto en más de 100 idiomas y variantes. Como parte del servicio De voz de Azure AI, Batch Transcription le permite transcribir una gran cantidad de audio en el almacenamiento. Puede apuntar a archivos de audio con un URI de firma de acceso compartido (SAS) y recibir resultados de transcripción de forma asincrónica.

Este conector está disponible en los siguientes productos y regiones:

Service	Class	Regions
Copilot Studio	Estándar	Todas las regiones de Power Automate excepto las siguientes: - China Cloud operado por 21Vianet
Aplicaciones lógicas	Estándar	Todas las regiones de Logic Apps excepto las siguientes: - Regiones de Azure China
Power Apps	Estándar	Todas las regiones de Power Apps excepto las siguientes: - China Cloud operado por 21Vianet
Power Automate	Estándar	Todas las regiones de Power Automate excepto las siguientes: - China Cloud operado por 21Vianet

Contacto
Nombre	Equipo de Power Platform del servicio Voz
URL	https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Correo Electrónico	speechpowerplatform@microsoft.com

Metadatos del conector
Publicador	Microsoft
Website	https://docs.microsoft.com/azure/cognitive-services/speech-service/
Directiva de privacidad	https://privacy.microsoft.com
Categorías	IA; Sitio web

La API de transcripción por lotes de Speech Services es un servicio basado en la nube que proporciona procesamiento asincrónico de reconocimiento de voz por lotes a través del contenido de audio proporcionado. Este conector expone estas funciones como operaciones en Microsoft Power Automate y Power Apps.

Requisitos previos

Necesitará lo siguiente para continuar:

Una suscripción a Azure: cree una cuenta gratuita
Cree un recurso de voz en Azure Portal.
Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves. Para obtener más información sobre los recursos de Cognitive Services, consulte Obtención de las claves del recurso.
Cargue sus propios datos o use archivos de audio existentes a través del URI público o el URI de firma de acceso compartido (SAS). Más información aquí

Creación de una conexión

El conector admite los siguientes tipos de autenticación:


Clave de API	ApiKey	Todas las regiones	Compartible
Microsoft Entra ID: integrado	Use Microsoft Entra ID para acceder al servicio de voz.	Todas las regiones excepto Azure Government y el Departamento de Defensa (DoD) en Azure Government y us Government (GCC-High)	No se puede compartir
Microsoft Entra ID integrado (Azure Government)	Use Microsoft Entra ID para acceder al servicio de voz.	Azure Government y el Departamento de Defensa (DoD) solo en Azure Government y us Government (GCC-High)	No se puede compartir
Valor predeterminado [EN DESUSO]	Esta opción solo es para conexiones anteriores sin un tipo de autenticación explícito y solo se proporciona para la compatibilidad con versiones anteriores.	Todas las regiones	No se puede compartir

Clave de API

Identificador de autenticación: keyBasedAuth

Aplicable: Todas las regiones

ApiKey

Se trata de una conexión que se puede compartir. Si la aplicación de energía se comparte con otro usuario, también se comparte la conexión. Para más información, consulte introducción a los conectores para aplicaciones de lienzo: Power Apps | Microsoft Docs

Nombre	Tipo	Description	Obligatorio
Clave de cuenta	securestring	Clave de servicio de voz	Cierto
Región	cuerda / cadena	Región del servicio voz (ejemplo: eastus)	Cierto

Microsoft Entra ID integrado

Identificador de autenticación: tokenBasedAuth

Aplicable: todas las regiones excepto Azure Government y Departamento de Defensa (DoD) en Azure Government y us Government (GCC-High)

Use Microsoft Entra ID para acceder al servicio de voz.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre	Tipo	Description	Obligatorio
Subdominio personalizado	cuerda / cadena	Dirección URL del punto de conexión de subdominio personalizado (ejemplo: contoso)	Cierto

Microsoft Entra ID integrado (Azure Government)

Identificador de autenticación: tokenBasedAuth

Aplicable: Azure Government y Departamento de Defensa (DoD) solo en Azure Government y us Government (GCC-High)

Use Microsoft Entra ID para acceder al servicio de voz.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre	Tipo	Description	Obligatorio
Subdominio personalizado	cuerda / cadena	Dirección URL del punto de conexión de subdominio personalizado (ejemplo: contoso)	Cierto

Valor predeterminado [EN DESUSO]

Aplicable: Todas las regiones

Esta opción solo es para conexiones anteriores sin un tipo de autenticación explícito y solo se proporciona para la compatibilidad con versiones anteriores.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre	Tipo	Description	Obligatorio
Clave de cuenta	securestring	Clave de cuenta de voz a texto de Azure Cognitive Services para Batch	Cierto
Región	cuerda / cadena	Región del servicio voz (ejemplo: eastus)	Cierto

Limitaciones

Nombre	Llamadas	Período de renovación
Llamadas API por conexión	100	60 segundos

Acciones

Actualización de la transcripción (V3.1)	Actualiza los detalles mutables de la transcripción identificada por su identificador.
Crear transcripción (V3.1)	Crea una nueva transcripción.
Eliminación de la transcripción (V3.1)	Elimina la tarea de transcripción especificada.
Obtención de archivos de lista de transcripciones (V3.1)	Obtiene los archivos de la transcripción identificada por el identificador especificado.
Obtención de transcripciones (V3.1)	Obtiene la transcripción identificada por el identificador especificado.
Obtener configuraciones regionales admitidas (V3.1)	Obtiene una lista de configuraciones regionales admitidas para las transcripciones sin conexión.
Obtener el archivo de transcripción (V3.1)	Obtiene un archivo específico (identificado con fileId) de una transcripción (identificada con el identificador).
Obtener la lista de transcripciones (V3.1)	Obtiene una lista de transcripciones de la suscripción autenticada.

Actualización de la transcripción (V3.1)

Id. de la operación:: UpdateTranscriptions

Actualiza los detalles mutables de la transcripción identificada por su identificador.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id	id	True	uuid	Identificador de la transcripción.
propio	self	True	uri	Ubicación de la entidad a la que se hace referencia.
Nombre para mostrar	displayName		string	Nombre del objeto.
descripción	description		string	Descripción del objeto.
customProperties	customProperties		object	Propiedades personalizadas de esta entidad. La longitud máxima de clave permitida es de 64 caracteres, la longitud máxima permitida del valor es de 256 caracteres y el recuento de entradas permitidas es 10.

Devoluciones

Body: Transcription

Crear transcripción (V3.1)

Id. de la operación:: CreateTranscriptions

Crea una nueva transcripción.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
contentUrls	contentUrls		array of uri	Puede proporcionar una lista de direcciones URL de contenido para obtener archivos de audio para transcribir. Se permiten hasta 1000 direcciones URL. Esta propiedad no se devolverá en una respuesta.
contentContainerUrl	contentContainerUrl		uri	Como alternativa, puede proporcionar una dirección URL para un contenedor de blobs de Azure que contenga los archivos de audio. Se permite que un contenedor tenga un tamaño máximo de 5 GB y un número máximo de 10000 blobs. El tamaño máximo de un blob es de 2,5 GB. La SAS de contenedor debe contener permisos "r" (lectura) y "l" (lista). Esta propiedad no se devolverá en una respuesta.
configuración regional	locale	True	string	Configuración regional de los datos contenidos. Si se usa la identificación de idioma, esta configuración regional se usa para transcribir la voz para la que no se pudo detectar ningún idioma.
Nombre para mostrar	displayName	True	string	Nombre para mostrar del objeto.
model	self		uri	Ubicación de la entidad a la que se hace referencia.
diarizationEnabled	diarizationEnabled		boolean	Valor que indica si se solicita la diarización (identificación del hablante). El valor predeterminado es `false`. Si solo este campo se establece en true y el sistema de diarización mejorado no está habilitado especificando`DiarizationProperties`, un sistema de diarización básico distinguirá entre hasta dos altavoces. Los cargos noextra se aplican en este caso. El sistema de diarización mejorado proporciona diarización para un intervalo de altavoces que se puede configurar. Se puede configurar en el `DiarizationProperties` campo . EN DESUSO: el sistema de diarización básica está en desuso y se quitará junto con la configuración de la`diarizationEnabled` siguiente versión principal de la API.
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled		boolean	Valor que indica si se solicitan marcas de tiempo de nivel de palabra. El valor predeterminado es`false` .
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled		boolean	Valor que indica si se solicitan marcas de tiempo de nivel de palabra para el formulario para mostrar. El valor predeterminado es `false`.
canales nueva	channels		array of integer	Colección de los números de canal solicitados. En el caso predeterminado, se tienen en cuenta los canales 0 y 1.
destinationContainerUrl	destinationContainerUrl		uri	El contenedor de destino solicitado.### Comentarios ###When se usa un contenedor de destino en combinación con , `timeToLive`los metadatos de atranscription se eliminarán normalmente, pero los datos almacenados en el contenedor de destino, incluidos los resultados de latranscriptión, permanecerán intactos, ya que no se requieren permisos de eliminación para thiscontainer. Para admitir la limpieza automática, configure las duraciones de blobs en el contenedor o use "Bring your own Storage (BYOS)" en lugar de `destinationContainerUrl`, donde se pueden limpiar los blobs.
puntuaciónMode	punctuationMode		string	Modo que se usa para la puntuación.
profanityFilterMode	profanityFilterMode		string	Modo de filtrado de palabras soeces.
timeToLive	timeToLive		string	Cuánto tiempo se conservará la transcripción en el sistema después de que se haya completado. Una vez que eltranscription alcanza el tiempo de vida después de la finalización (correcto o erróneo), se eliminará automáticamente. No establecer este valor o establecerlo en 0 deshabilitará la eliminación automática. El valor de supportedduration más largo es de 31 días. La duración se codifica como duración ISO 8601 ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations).
minCount	minCount		integer	Sugerencia para el número mínimo de altavoces para la diarización. Debe ser menor o igual que la propiedad maxSpeakers.
maxCount	maxCount		integer	Número máximo de altavoces para la diarización. Debe ser menor que 36 y mayor o igual que la propiedad minSpeakers.
candidateLocales	candidateLocales	True	array of string	Las configuraciones regionales candidatas para la identificación del idioma (ejemplo ["en-US", "de-DE", "es-ES"]). Se admite un mínimo de 2 y un máximo de 10 configuraciones regionales candidatas, incluida la configuración regional principal para la transcripción.
speechModelMapping	speechModelMapping		object	Asignación opcional de configuraciones regionales a entidades del modelo de voz. Si no se da ningún modelo para una configuración regional, se usa el modelo base predeterminado. Las claves deben ser configuraciones regionales contenidas en las configuraciones regionales candidatas, los valores son entidades para los modelos de las configuraciones regionales respectivas.
Correo electrónico	email		string	La dirección de correo electrónico a la que enviar notificaciones por correo electrónico en caso de que se complete la operación. El valor se quitará después de enviar correctamente el correo electrónico.

Devoluciones

Body: Transcription

Eliminación de la transcripción (V3.1)

Id. de la operación:: DeleteTranscriptions

Elimina la tarea de transcripción especificada.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id	id	True	uuid	Identificador de la transcripción.

Obtención de archivos de lista de transcripciones (V3.1)

Id. de la operación:: TranscriptionsListFiles

Obtiene los archivos de la transcripción identificada por el identificador especificado.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id	id	True	uuid	Identificador de la transcripción.
Validez de Sas en segundos	sasValidityInSeconds		integer	Duración en segundos que una dirección URL de SAS debe ser válida. La duración predeterminada es de 12 horas. Cuando se usa BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): un valor de 0 significa que se generará un URI de blob sin formato sin token de SAS.
Omitir	skip		integer	Número de conjuntos de datos que se omitirán.
Arriba	top		integer	Número de conjuntos de datos que se incluirán después de omitir.
Filter	filter		string	Expresión de filtrado para seleccionar un subconjunto de los archivos disponibles. Propiedades admitidas: name, createdDateTime, kind. Operadores: - eq, ne son compatibles con todas las propiedades. - gt, ge, lt, le son compatibles con createdDateTime. - y, o bien, no se admiten. Ejemplo:`filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'`

Devoluciones

Body: PaginatedFiles

Obtención de transcripciones (V3.1)

Id. de la operación:: GetTranscriptions

Obtiene la transcripción identificada por el identificador especificado.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id	id	True	uuid	Identificador de la transcripción.

Devoluciones

Body: Transcription

Obtener configuraciones regionales admitidas (V3.1)

Id. de la operación:: SupportedTranscriptionLocalesList

Obtiene una lista de configuraciones regionales admitidas para las transcripciones sin conexión.

Devoluciones

Nombre	Ruta de acceso	Tipo	Description
		array of string

Obtener el archivo de transcripción (V3.1)

Id. de la operación:: GetTranscriptionsFile

Obtiene un archivo específico (identificado con fileId) de una transcripción (identificada con el identificador).

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id	id	True	uuid	Identificador de la transcripción.
Id. de archivo	fileId	True	uuid	Identificador del archivo.
Validez de Sas en segundos	sasValidityInSeconds		integer	Duración en segundos que una dirección URL de SAS debe ser válida. La duración predeterminada es de 12 horas. Cuando se usa BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): un valor de 0 significa que se generará un URI de blob sin formato sin token de SAS.

Devoluciones

Body: File

Obtener la lista de transcripciones (V3.1)

Id. de la operación:: TranscriptionsList

Obtiene una lista de transcripciones de la suscripción autenticada.

Parámetros

Nombre Clave Requerido Tipo Description

Nombre	Clave	Tipo	Description
Omitir	skip	integer	Número de conjuntos de datos que se omitirán.
Arriba	top	integer	Número de conjuntos de datos que se incluirán después de omitir.
Filter	filter	string	Expresión de filtrado para seleccionar un subconjunto de las transcripciones disponibles. Propiedades admitidas: displayName, description, createdDateTime, lastActionDateTime, status, locale. Operadores: - eq, ne son compatibles con todas las propiedades. - gt, ge, lt, le se admiten para createdDateTime y lastActionDateTime. - y, o bien, no se admiten. Ejemplo:`filter=createdDateTime gt 2022-02-01T11:00:00Z`

Omitir

skip

integer

Número de conjuntos de datos que se omitirán.

Arriba

top

integer

Número de conjuntos de datos que se incluirán después de omitir.

Filter

filter

string

Expresión de filtrado para seleccionar un subconjunto de las transcripciones disponibles.

Propiedades admitidas: displayName, description, createdDateTime, lastActionDateTime, status, locale.
Operadores:
- eq, ne son compatibles con todas las propiedades.
- gt, ge, lt, le se admiten para createdDateTime y lastActionDateTime.
- y, o bien, no se admiten.
Ejemplo:filter=createdDateTime gt 2022-02-01T11:00:00Z

Devoluciones

Body: PaginatedTranscriptions

Definiciones

DiarizationProperties

Nombre	Ruta de acceso	Tipo	Description
Altavoces	speakers	DiarizationSpeakersProperties

DiarizationSpeakersProperties

Nombre	Ruta de acceso	Tipo	Description
minCount	minCount	integer	Sugerencia para el número mínimo de altavoces para la diarización. Debe ser menor o igual que la propiedad maxSpeakers.
maxCount	maxCount	integer	Número máximo de altavoces para la diarización. Debe ser menor que 36 y mayor o igual que la propiedad minSpeakers.

Archivo

Nombre	Ruta de acceso	Tipo	Description
amable	kind	FileKind	Tipo de datos.
Enlaces	links	FileLinks
createdDateTime	createdDateTime	date-time	Hora de creación de este archivo. La marca de tiempo se codifica como formato de fecha y hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations).
Propiedades	properties	FileProperties
nombre	name	string	Nombre de este archivo.

FileKind

Tipo de datos.

: string

FileLinks

Nombre	Ruta de acceso	Tipo	Description
URL de contenido	contentUrl	uri	Dirección URL para recuperar el contenido de este archivo.

FileProperties

Nombre	Ruta de acceso	Tipo	Description
size	size	integer	Tamaño de los datos en bytes.
duration	duration	string	La duración en caso de que este archivo sea un archivo de audio. La duración se codifica como ISO 8601duration ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations).

LanguageIdentificationProperties

Nombre	Ruta de acceso	Tipo	Description
candidateLocales	candidateLocales	array of string	Las configuraciones regionales candidatas para la identificación del idioma (ejemplo ["en-US", "de-DE", "es-ES"]). Se admite un mínimo de 2 y un máximo de 10 configuraciones regionales candidatas, incluida la configuración regional principal para la transcripción.
speechModelMapping	speechModelMapping	object	Asignación opcional de configuraciones regionales a entidades del modelo de voz. Si no se da ningún modelo para una configuración regional, se usa el modelo base predeterminado. Las claves deben ser configuraciones regionales contenidas en las configuraciones regionales candidatas, los valores son entidades para los modelos de las configuraciones regionales respectivas.

PaginatedFiles

Nombre	Ruta de acceso	Tipo	Description
values	values	array of File	Lista de entidades limitadas por los parámetros de consulta pasados "skip" y "top" o sus valores predeterminados. Al recorrer en iteración una lista mediante la paginación y la eliminación de entidades en paralelo, algunas entidades se omitirán en los resultados. Se recomienda crear una lista en el cliente y eliminar después de la captura de la lista completa.
@nextLink	@nextLink	uri	Vínculo al siguiente conjunto de resultados paginados si hay más entidades disponibles; de lo contrario, null.

PaginatedTranscriptions

Nombre	Ruta de acceso	Tipo	Description
values	values	array of Transcription	Lista de entidades limitadas por los parámetros de consulta pasados "skip" y "top" o sus valores predeterminados. Al recorrer en iteración una lista mediante la paginación y la eliminación de entidades en paralelo, algunas entidades se omitirán en los resultados. Se recomienda crear una lista en el cliente y eliminar después de la captura de la lista completa.
@nextLink	@nextLink	uri	Vínculo al siguiente conjunto de resultados paginados si hay más entidades disponibles; de lo contrario, null.

ProfanityFilterMode

Modo de filtrado de palabras soeces.

: string

PuntuaciónMode

Modo que se usa para la puntuación.

: string

Transcripción

Nombre	Ruta de acceso	Tipo	Description
contentUrls	contentUrls	array of uri	Puede proporcionar una lista de direcciones URL de contenido para obtener archivos de audio para transcribir. Se permiten hasta 1000 direcciones URL. Esta propiedad no se devolverá en una respuesta.
contentContainerUrl	contentContainerUrl	uri	Como alternativa, puede proporcionar una dirección URL para un contenedor de blobs de Azure que contenga los archivos de audio. Se permite que un contenedor tenga un tamaño máximo de 5 GB y un número máximo de 10000 blobs. El tamaño máximo de un blob es de 2,5 GB. La SAS de contenedor debe contener permisos "r" (lectura) y "l" (lista). Esta propiedad no se devolverá en una respuesta.
configuración regional	locale	string	Configuración regional de los datos contenidos. Si se usa la identificación de idioma, esta configuración regional se usa para transcribir la voz para la que no se pudo detectar ningún idioma.
Nombre para mostrar	displayName	string	Nombre para mostrar del objeto.
model	model.self	uri	Ubicación de la entidad a la que se hace referencia.
Propiedades	properties	TranscriptionProperties

TranscriptionProperties

Nombre	Ruta de acceso	Tipo	Description
diarizationEnabled	diarizationEnabled	boolean	Valor que indica si se solicita la diarización (identificación del hablante). El valor predeterminado es `false`. Si solo este campo se establece en true y el sistema de diarización mejorado no está habilitado especificando`DiarizationProperties`, un sistema de diarización básico distinguirá entre hasta dos altavoces. Los cargos noextra se aplican en este caso. El sistema de diarización mejorado proporciona diarización para un intervalo de altavoces que se puede configurar. Se puede configurar en el `DiarizationProperties` campo . EN DESUSO: el sistema de diarización básica está en desuso y se quitará junto con la configuración de la`diarizationEnabled` siguiente versión principal de la API.
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled	boolean	Valor que indica si se solicitan marcas de tiempo de nivel de palabra. El valor predeterminado es`false` .
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled	boolean	Valor que indica si se solicitan marcas de tiempo de nivel de palabra para el formulario para mostrar. El valor predeterminado es `false`.
canales nueva	channels	array of integer	Colección de los números de canal solicitados. En el caso predeterminado, se tienen en cuenta los canales 0 y 1.
destinationContainerUrl	destinationContainerUrl	uri	El contenedor de destino solicitado.### Comentarios ###When se usa un contenedor de destino en combinación con , `timeToLive`los metadatos de atranscription se eliminarán normalmente, pero los datos almacenados en el contenedor de destino, incluidos los resultados de latranscriptión, permanecerán intactos, ya que no se requieren permisos de eliminación para thiscontainer. Para admitir la limpieza automática, configure las duraciones de blobs en el contenedor o use "Bring your own Storage (BYOS)" en lugar de `destinationContainerUrl`, donde se pueden limpiar los blobs.
puntuaciónMode	punctuationMode	PunctuationMode	Modo que se usa para la puntuación.
profanityFilterMode	profanityFilterMode	ProfanityFilterMode	Modo de filtrado de palabras soeces.
timeToLive	timeToLive	string	Cuánto tiempo se conservará la transcripción en el sistema después de que se haya completado. Una vez que eltranscription alcanza el tiempo de vida después de la finalización (correcto o erróneo), se eliminará automáticamente. No establecer este valor o establecerlo en 0 deshabilitará la eliminación automática. El valor de supportedduration más largo es de 31 días. La duración se codifica como duración ISO 8601 ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations).
diarización	diarization	DiarizationProperties
Identificación del idioma:	languageIdentification	LanguageIdentificationProperties
Correo electrónico	email	string	La dirección de correo electrónico a la que enviar notificaciones por correo electrónico en caso de que se complete la operación. El valor se quitará después de enviar correctamente el correo electrónico.