Audiobestanden zoeken voor batchtranscriptie

Batchtranscriptie wordt gebruikt om een grote hoeveelheid audio in opslag te transcriberen. Batchtranscriptie heeft toegang tot audiobestanden van binnen of buiten Azure.

Wanneer bronaudiobestanden buiten Azure worden opgeslagen, kunnen ze worden geopend via een openbare URI (zoals 'https://crbn.us/hello.wav"). Bestanden moeten rechtstreeks toegankelijk zijn; URI's waarvoor verificatie is vereist of die interactieve scripts aanroepen voordat het bestand kan worden geopend, worden niet ondersteund.

Audiobestanden die zijn opgeslagen in Azure Blob Storage, kunnen worden geopend via een van de volgende twee methoden:

U kunt een of meerdere audiobestanden opgeven bij het maken van een transcriptie. U wordt aangeraden meerdere bestanden per aanvraag op te geven of een Azure Blob Storage-container aan te wijzen met de audiobestanden die u wilt transcriberen. De batchtranscriptieservice kan een groot aantal ingediende transcripties verwerken. De service transcribeert de bestanden gelijktijdig, waardoor de doorlooptijd wordt verkort.

Ondersteunde audio-indelingen en codecs

De batchtranscriptie-API ondersteunt veel verschillende indelingen en codecs, zoals:

  • WAV
  • MP3
  • OPUS/OGG
  • FLAC
  • WMA
  • AAC
  • ALAW in WAV-container
  • MULAW in WAV-container
  • AMR
  • WebM
  • M4A
  • SPEEX

Notitie

De batchtranscriptieservice integreert GStreamer en kan meer indelingen en codecs accepteren zonder fouten te retourneren, terwijl we aanraden verliesloze indelingen zoals WAV (PCM-codering) en FLAC te gebruiken om de beste transcriptiekwaliteit te garanderen.

Uploaden van Azure Blob Storage

Wanneer audiobestanden zich in een Azure Blob Storage-account bevinden, kunt u transcriptie aanvragen van afzonderlijke audiobestanden of een volledige Azure Blob Storage-container. U kunt ook transcriptieresultaten naar een Blob-container schrijven.

Notitie

Zie quota en limieten voor batchtranscriptie voor blob- en containerlimieten.

Volg deze stappen om een opslagaccount te maken en wav-bestanden vanuit uw lokale map te uploaden naar een nieuwe container.

  1. Ga naar Azure Portal en meld u aan bij uw account.
  2. Maak een opslagaccountresource in Azure Portal. Gebruik hetzelfde abonnement en dezelfde resourcegroep als uw Speech-resource.
  3. Selecteer het opslagaccount.
  4. Selecteer Containers in de groep Gegevensopslag in het linkerdeelvenster.
  5. Selecteer + Container.
  6. Voer een naam in voor de nieuwe container en selecteer Maken.
  7. Selecteer de nieuwe container.
  8. Selecteer Uploaden.
  9. Kies de bestanden die u wilt uploaden en selecteer Uploaden.

Beveiligingsmechanisme voor vertrouwde Azure-services

In deze sectie wordt uitgelegd hoe u de toegang tot uw batchtranscriptiebronaudiobestanden in een Azure Storage-account instelt en beperkt met behulp van het beveiligingsmechanisme voor vertrouwde Azure-services.

Notitie

Met het beveiligingsmechanisme voor vertrouwde Azure-services moet u Azure Blob Storage gebruiken om audiobestanden op te slaan. Het gebruik van Azure Files wordt niet ondersteund.

Als u alle acties in deze sectie uitvoert, wordt uw opslagaccount als volgt geconfigureerd:

  • Toegang tot al het externe netwerkverkeer is verboden.
  • Toegang tot opslagaccount met behulp van de sleutel van het opslagaccount is verboden.
  • Toegang tot opslagaccountblobopslag met sas (Shared Access Signatures) is verboden.
  • Toegang tot de geselecteerde Spraak-resource is toegestaan met behulp van de door het resourcesysteem toegewezen beheerde identiteit.

Uw opslagaccount wordt dus volledig 'vergrendeld' en kan niet worden gebruikt in een scenario, afgezien van het transcriberen van audiobestanden die al aanwezig waren op het moment dat de nieuwe configuratie werd toegepast. U moet deze configuratie beschouwen als een model voor de beveiliging van uw audiogegevens en deze aanpassen aan uw behoeften.

U kunt bijvoorbeeld verkeer van geselecteerde openbare IP-adressen en virtuele Azure-netwerken toestaan. U kunt ook toegang tot uw Opslagaccount instellen met behulp van privé-eindpunten (zie deze zelfstudie), toegang opnieuw inschakelen met behulp van de sleutel van het opslagaccount, toegang verlenen tot andere vertrouwde Azure-services, enzovoort.

Notitie

Het gebruik van privé-eindpunten voor Speech is niet vereist om het opslagaccount te beveiligen. U kunt een privé-eindpunt gebruiken voor batchtranscriptie-API-aanvragen, terwijl u de bronaudiobestanden afzonderlijk opent vanuit een beveiligd opslagaccount of andersom.

Door de onderstaande stappen te volgen, beperkt u de toegang tot het opslagaccount ernstig. Vervolgens wijst u de minimaal vereiste machtigingen toe voor de beheerde identiteit van de Spraak-resource voor toegang tot het opslagaccount.

Door het systeem toegewezen beheerde identiteit inschakelen voor de Spraak-resource

Volg deze stappen om door het systeem toegewezen beheerde identiteit in te schakelen voor de Spraak-resource die u gebruikt voor batchtranscriptie.

  1. Ga naar Azure Portal en meld u aan bij uw account.

  2. Selecteer de spraakresource.

  3. Selecteer Identiteit in de groep Resourcebeheer in het linkerdeelvenster.

  4. Selecteer Op het tabblad Systeem toegewezen de optie Aan voor de status.

    Belangrijk

    Door de gebruiker toegewezen beheerde identiteit voldoet niet aan de vereisten voor het opslagaccountscenario voor batchtranscriptie. Zorg ervoor dat je een door het systeem toegewezen beheerde identiteit inschakelt.

  5. Selecteer Opslaan

De beheerde identiteit voor uw Spraak-resource kan nu toegang krijgen tot uw opslagaccount.

Toegang tot het opslagaccount beperken

Volg deze stappen om de toegang tot het opslagaccount te beperken.

Belangrijk

Upload audiobestanden in een Blob-container voordat u de toegang tot het opslagaccount vergrendelt.

  1. Ga naar Azure Portal en meld u aan bij uw account.
  2. Selecteer het opslagaccount.
  3. Selecteer Configuratie in de groep Instellingen in het linkerdeelvenster.
  4. Selecteer Uitgeschakeld voor openbare toegang tot blob toestaan.
  5. Selecteer Uitgeschakeld voor toegang tot opslagaccountsleutels toestaan
  6. Selecteer Opslaan.

Zie Anonieme openbare leestoegang tot containers en blobs voorkomen en Autorisatie van gedeelde sleutels voor een Azure Storage-account voorkomen voor meer informatie.

Azure Storage-firewall configureren

Als u beperkte toegang tot het opslagaccount hebt, moet u toegang verlenen tot specifieke beheerde identiteiten. Volg deze stappen om toegang toe te voegen voor de Spraak-resource.

  1. Ga naar Azure Portal en meld u aan bij uw account.

  2. Selecteer het opslagaccount.

  3. Selecteer Netwerken in de groep Beveiliging en netwerken in het linkerdeelvenster.

  4. Selecteer op het tabblad Firewalls en virtuele netwerken de optie Ingeschakeld in geselecteerde virtuele netwerken en IP-adressen.

  5. Schakel alle selectievakjes uit.

  6. Zorg ervoor dat Microsoft-netwerkroutering is geselecteerd.

  7. Selecteer in de sectie Resource-exemplaren Microsoft.CognitiveServices/accounts als het resourcetype en selecteer uw Spraak-resource als de naam van het exemplaar.

  8. Selecteer Opslaan.

    Notitie

    Het kan tot 5 minuten duren voordat de netwerkwijzigingen zijn doorgegeven.

Hoewel de netwerktoegang nu is toegestaan, heeft de Spraak-resource nog geen toegang tot de gegevens in het opslagaccount. U moet een specifieke toegangsrol toewijzen voor beheerde identiteit van spraakresources.

Rol voor resourcetoegang toewijzen

Volg deze stappen om de rol Storage Blob Data Reader toe te wijzen aan de beheerde identiteit van uw Spraak-resource.

Belangrijk

U moet de rol Eigenaar van het opslagaccount of een hoger bereik (zoals Abonnement) toewijzen om de bewerking uit te voeren in de volgende stappen. Dit komt doordat alleen de rol Eigenaar rollen aan anderen kan toewijzen. Hier vindt u meer informatie.

  1. Ga naar Azure Portal en meld u aan bij uw account.

  2. Selecteer het opslagaccount.

  3. Selecteer het menu Toegangsbeheer (IAM) in het linkerdeelvenster.

  4. Selecteer Roltoewijzing toevoegen in de tegel Toegang verlenen tot deze resource .

  5. Selecteer Opslagblobgegevenslezer onder Rol en selecteer vervolgens Volgende.

  6. Selecteer Beheerde identiteit onder Leden>toegang toewijzen.

  7. Wijs de beheerde identiteit van uw Spraak-resource toe en selecteer Vervolgens Beoordelen en toewijzen.

    Screenshot of the managed role assignment review.

  8. Nadat u de instellingen hebt bevestigd, selecteert u Controleren en toewijzen

De beheerde identiteit van de spraakresource heeft nu toegang tot het opslagaccount en heeft toegang tot de audiobestanden voor batchtranscriptie.

Met door het systeem toegewezen beheerde identiteit gebruikt u een eenvoudige URL van het opslagaccount (geen SAS of andere toevoegingen) wanneer u een batchtranscriptieaanvraag maakt. Voorbeeld:

{
    "contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>"
}

U kunt anders afzonderlijke bestanden in de container opgeven. Voorbeeld:

{
    "contentUrls": [
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>",
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>"
    ]
}

SAS-URL voor batchtranscriptie

Een Shared Access Signature (SAS) is een URI die beperkte toegang verleent tot een Azure Storage-container. Gebruik dit wanneer u toegang wilt verlenen tot uw batchtranscriptiebestanden voor een bepaald tijdsbereik zonder de sleutel van uw opslagaccount te delen.

Tip

Als de container met bronbestanden voor batchtranscriptie alleen toegankelijk moet zijn voor uw Speech-resource, gebruikt u in plaats daarvan het vertrouwde beveiligingsmechanisme van Azure Services.

Volg deze stappen om een SAS-URL te genereren die u kunt gebruiken voor batchtranscripties.

  1. Voer de stappen in Het uploaden van Azure Blob Storage uit om een opslagaccount te maken en audiobestanden te uploaden naar een nieuwe container.

  2. Selecteer de nieuwe container.

  3. Selecteer in de Instellingen groep in het linkerdeelvenster gedeelde toegangstokens.

  4. Selecteer + Container.

  5. Selecteer Lezen en Lijst voor machtigingen.

    Screenshot of the container SAS URI permissions.

  6. Voer de begin- en verlooptijden voor de SAS-URI in of laat de standaardwaarden staan.

  7. Selecteer HET SAS-token en de URL genereren.

U gebruikt de SAS-URL wanneer u een batchtranscriptieaanvraag maakt. Voorbeeld:

{
    "contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>?SAS_TOKEN"
}

U kunt anders afzonderlijke bestanden in de container opgeven. U moet een andere SAS-URL genereren en gebruiken met leesmachtigingen (r) voor elk bestand. Voorbeeld:

{
    "contentUrls": [
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>?SAS_TOKEN_1",
        "https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>?SAS_TOKEN_2"
    ]
}

Volgende stappen