Delen via


Audiooplossingen voor Azure AI Content Understanding (preview)

Belangrijk

Audioanalyses maken transcriptie en diarisatie van conversationele audio mogelijk, waarbij gestructureerde velden worden geëxtraheerd, zoals samenvattingen, sentimenten en belangrijke onderwerpen. Pas een audioanalysesjabloon aan uw bedrijfsbehoeften aan met behulp van de Azure AI Foundry-portal om te beginnen met het genereren van resultaten.

Hier volgen veelvoorkomende scenario's voor de verwerking van gespreksaudiogegevens:

  • Krijg inzicht in klanten door middel van samenvatting en sentimentanalyse.
  • De gesprekskwaliteit en -naleving beoordelen en controleren in callcenters.
  • Geautomatiseerde samenvattingen en metagegevens maken voor podcastpublicaties.

Mogelijkheden voor audioanalyse

Afbeelding van de audiomogelijkheden van Content Understanding.

Content Understanding fungeert als een hoeksteen voor Speech Analytics-oplossingen, waardoor de volgende mogelijkheden voor audiobestanden mogelijk zijn:

Inhoudsextractie

Extractie van audio-inhoud is het proces van het transcriberen van audiobestanden. Dit proces omvat het scheiden van transcripties per spreker en kan optionele functies, zoals functiedetectie, omvatten om sprekerresultaten bij te werken naar zinvolle sprekerrollen. Het kan ook gedetailleerde resultaten omvatten, waaronder tijdstempels op woordniveau.

Taalafhandeling

We ondersteunen verschillende opties voor het verwerken van taalverwerking tijdens transcriptie.

De volgende tabel bevat een overzicht van de opties die worden beheerd via de configuratie 'landinstellingen':

Locatie-instellingen Bestandsgrootte Ondersteunde verwerking Ondersteunde landinstellingen Resultaatlatentie
automatisch of leeg ≤ 300 MB en/of ≤ 2 uur Meertalige transcriptie de-DE, en-AU, en-CA, en-GB, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, hi-IN, it-IT, ja-JP, ko-KR, zh-CN Bijna directe tijd
automatisch of leeg > 300 MB en >2 UUR ≤ 4 uur Meertalige transcriptie en-US, es-ES, es-MX, fr-FR, hi-IN, it-IT, ja-JP, ko-KR, pt-BR, zh-CN Regelmatig
enkele lokale instellingen ≤ 1 GB en/of ≤ 4 uur Transcriptie van één taal Alle ondersteunde lokale instellingen[^1] • ≤ 300 MB en/of ≤ 2 uur: Bijna realtime
• > 300 MB en >2 UUR ≤ 4 uur: Normaal
meerdere lokale instellingen ≤ 1 GB en/of ≤ 4 uur Transcriptie van één taal (op basis van taaldetectie) Alle ondersteunde lokale instellingen[^1] • ≤ 300 MB en/of ≤ 2 uur: Bijna realtime
• > 300 MB en >2 UUR ≤ 4 uur: Normaal

[^1]: Content Understanding ondersteunt de volledige set Azure AI Speech Speech-naar-teksttalen. Voor talen met ondersteuning voor snelle transcripties en voor bestanden ≤ 300 MB en/of ≤ 2 uur, wordt de transcriptietijd aanzienlijk verminderd.

  • Transcriptie. Converteert gespreksaudio naar doorzoekbare en analyseerbare transcripties op basis van tekst in WebVTT-indeling. Aanpasbare velden kunnen worden gegenereerd op basis van transcriptiegegevens. Tijdstempels op zinsniveau en woordniveau zijn op verzoek beschikbaar.

  • Diarisatie. Onderscheid tussen sprekers in een gesprek, waarbij delen van het transcript aan specifieke sprekers worden verdeeld.

  • Detectie van sprekerrollen. Identificeert agent- en klantrollen binnen de oproepgegevens van het contactcentrum.

  • Meertalige transcriptie. Hiermee worden meertalige transcripties gegenereerd, waarbij taal/locatie per zinsnede wordt toegepast. Afwijken van taaldetectie is deze functie ingeschakeld wanneer er geen taal/landinstelling is opgegeven of als taal is ingesteld op auto.

Opmerking

Wanneer meertalige transcriptie wordt gebruikt, produceren bestanden met niet-ondersteunde landinstellingen een resultaat op basis van de dichtstbijzijnde ondersteunde landinstelling, wat waarschijnlijk onjuist is. Dit resultaat is een bekend fenomeen. Vermijd kwaliteitsproblemen met transcripties door ervoor te zorgen dat u lokale instellingen configureert als u geen gebruikmaakt van door meertalige transcriptie ondersteunde lokale instellingen.

  • Taaldetectie. Detecteert automatisch de dominante taal/landinstelling die wordt gebruikt om het bestand te transcriberen. Stel meerdere talen/landinstellingen in om taaldetectie in te schakelen.

Veldextractie

Met veldextractie kunt u gestructureerde gegevens extraheren uit audiobestanden, zoals samenvattingen, sentimenten en vermelde entiteiten uit oproeplogboeken. U kunt beginnen door een voorgestelde analysesjabloon aan te passen of een volledig nieuwe sjabloon te maken.

Belangrijkste voordelen

Geavanceerde audiomogelijkheden, waaronder:

  • Aanpasbare gegevensextractie. Pas de uitvoer aan uw specifieke behoeften aan door het veldschema aan te passen, zodat u nauwkeurige gegevens kunt genereren en extraheren.

  • Generatieve modellen. Maak gebruik van generatieve AI-modellen om in natuurlijke taal de inhoud op te geven die u wilt extraheren en de service genereert de gewenste uitvoer.

  • Geïntegreerde voorverwerking. Profiteer van ingebouwde voorverwerkingsstappen, zoals transcriptie, diarisatie en roldetectie, die uitgebreide context bieden voor generatieve modellen.

  • Aanpassing van scenario's. Pas de service aan uw vereisten aan door aangepaste velden te genereren en relevante gegevens te extraheren.

Vooraf samengestelde audioanalysatoren

Met de vooraf gemaakte analyse kunt u waardevolle inzichten in audio-inhoud extraheren zonder dat u een analyse-installatie hoeft te maken.

Alle audioanalyses genereren transcripties in standaard WEBVTT-indeling, gescheiden door spreker.

Opmerking

Vooraf gemaakte analyses zijn ingesteld op het gebruik van meertalige transcriptie en returnDetails ingeschakeld.

De volgende vooraf gemaakte analysemogelijkheden zijn beschikbaar:

Analyse na aanroep (vooraf samengesteld callCenter). Gespreksopnamen analyseren om te genereren:

  • gesprekstranscripties met sprekerrol-detectieresultaten
  • gespreksoverzicht
  • sentiment aanroepen
  • top vijf artikelen genoemd
  • lijst met genoemde bedrijven
  • lijst met personen (naam en titel/rol) vermeld
  • lijst met relevante oproepcategorieën

Voorbeeldresultaat:

{
  "id": "bc36da27-004f-475e-b808-8b8aead3b566",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-callCenter",
    "apiVersion": "2025-05-01-preview",
    "createdAt": "2025-05-06T22:53:28Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Agent>Good day.\n\n00:00.960 --> 00:02.240\n<v Agent>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Agent>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Agent>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Agent>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Agent>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Agent>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Agent>No problem.\n\n00:12.880 --> 00:13.920\n<v Agent>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Agent>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Agent>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Agent>Great.\n\n00:20.800 --> 00:24.160\n<v Agent>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Agent>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Agent>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Agent>That was all.\n\n00:28.720 --> 00:29.280\n<v Agent>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Agent>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Agent>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. After confirming her identity with her date of birth, the agent, John Doe, informed her that her balance was 599 points. Maria did not require any further assistance, and the call concluded politely."
          },
          "Topics": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Point balance inquiry"
              },
              {
                "type": "string",
                "valueString": "Identity confirmation"
              },
              {
                "type": "string",
                "valueString": "Customer service"
              }
            ]
          },
          "Companies": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Contoso"
              }
            ]
          },
          "People": {
            "type": "array",
            "valueArray": [
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "John Doe"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Agent"
                  }
                }
              },
              {
                "type": "object",
                "valueObject": {
                  "Name": {
                    "type": "string",
                    "valueString": "Maria Smith"
                  },
                  "Role": {
                    "type": "string",
                    "valueString": "Customer"
                  }
                }
              }
            ]
          },
          "Sentiment": {
            "type": "string",
            "valueString": "Positive"
          },
          "Categories": {
            "type": "array",
            "valueArray": [
              {
                "type": "string",
                "valueString": "Business"
              }
            ]
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Agent",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Customer",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

Gespreksanalyse (standaard audioAnalyzer). Opnamen analyseren om te genereren:

  • gesprektranscripties
  • gesprekssamenvatting

Voorbeeldresultaat:

{
  "id": "9624cc49-b6b3-4ce5-be6c-e895d8c2484d",
  "status": "Succeeded",
  "result": {
    "analyzerId": "prebuilt-audioAnalyzer",
    "apiVersion": "2025-05-01-preview",
    "createdAt": "2025-05-06T23:00:12Z",
    "stringEncoding": "utf8",
    "warnings": [],
    "contents": [
      {
        "markdown": "# Audio: 00:00.000 => 00:32.183\n\nTranscript\n```\nWEBVTT\n\n00:00.080 --> 00:00.640\n<v Speaker 1>Good day.\n\n00:00.960 --> 00:02.240\n<v Speaker 1>Welcome to Contoso.\n\n00:02.560 --> 00:03.760\n<v Speaker 1>My name is John Doe.\n\n00:03.920 --> 00:05.120\n<v Speaker 1>How can I help you today?\n\n00:05.440 --> 00:06.320\n<v Speaker 1>Yes, good day.\n\n00:06.720 --> 00:08.160\n<v Speaker 1>My name is Maria Smith.\n\n00:08.560 --> 00:11.280\n<v Speaker 1>I would like to inquire about my current point balance.\n\n00:11.680 --> 00:12.560\n<v Speaker 1>No problem.\n\n00:12.880 --> 00:13.920\n<v Speaker 1>I am happy to help.\n\n00:14.240 --> 00:16.720\n<v Speaker 1>I need your date of birth to confirm your identity.\n\n00:17.120 --> 00:19.600\n<v Speaker 1>It is April 19th, 1988.\n\n00:20.000 --> 00:20.480\n<v Speaker 1>Great.\n\n00:20.800 --> 00:24.160\n<v Speaker 1>Your current point balance is 599 points.\n\n00:24.560 --> 00:26.160\n<v Speaker 1>Do you need any more information?\n\n00:26.480 --> 00:27.200\n<v Speaker 1>No, thank you.\n\n00:27.600 --> 00:28.320\n<v Speaker 1>That was all.\n\n00:28.720 --> 00:29.280\n<v Speaker 1>Goodbye.\n\n00:29.680 --> 00:30.320\n<v Speaker 1>You're welcome.\n\n00:30.640 --> 00:31.840\n<v Speaker 1>Goodbye at Contoso.\n```",
        "fields": {
          "Summary": {
            "type": "string",
            "valueString": "Maria Smith contacted Contoso to inquire about her current point balance. John Doe assisted her by confirming her identity using her date of birth and informed her that her balance was 599 points. Maria expressed no further inquiries, and the conversation concluded politely."
          }
        },
        "kind": "audioVisual",
        "startTimeMs": 0,
        "endTimeMs": 32183,
        "transcriptPhrases": [
          {
            "speaker": "Speaker 1",
            "startTimeMs": 80,
            "endTimeMs": 640,
            "text": "Good day.",
            "words": []
          }, ...
          {
            "speaker": "Speaker 2",
            "startTimeMs": 5440,
            "endTimeMs": 6320,
            "text": "Yes, good day.",
            "words": []
          }, ...
        ]
      }
    ]
  }
}

U kunt ook vooraf gemaakte analyses aanpassen voor meer verfijnde controle van de uitvoer door aangepaste velden te definiëren. Met aanpassing kunt u de volledige kracht van generatieve modellen gebruiken om diepe inzichten uit de audio te extraheren. Met aanpassing kunt u bijvoorbeeld het volgende doen:

  • Genereer andere inzichten.
  • De taal van de uitvoer van veldextractie bepalen.
  • Configureer het transcriptiegedrag.

Oplossingsversneller voor gesprekskennisanalyse

Voor een end-2-end quickstart voor Speech Analytics-oplossingen raadpleegt u de versnelde oplossing voor kennisontginning van gesprekken.

Krijg bruikbare inzichten uit grote hoeveelheden gespreksgegevens door belangrijke thema's, patronen en relaties te identificeren. Met behulp van Azure AI Foundry, Azure AI Content Understanding, Azure OpenAI in Azure AI Foundry Models en Azure AI Search analyseert deze oplossing ongestructureerde dialoog en wijst deze toe aan zinvolle, gestructureerde inzichten.

Met mogelijkheden zoals onderwerpmodellering, sleuteltermextractie, transcriptie van spraak-naar-tekst en interactieve chat kunnen gebruikers gegevens op natuurlijke wijze verkennen en snellere, beter geïnformeerde beslissingen nemen.

Analisten die met grote hoeveelheden gespreksgegevens werken, kunnen deze oplossing gebruiken om inzichten te extraheren via interactie in natuurlijke taal. Het ondersteunt taken zoals het identificeren van klantondersteuningstrends, het verbeteren van de kwaliteit van het contactcentrum en het blootleggen van operationele intelligentie, zodat teams patronen kunnen herkennen, feedback kunnen geven en sneller weloverwogen beslissingen kunnen nemen.

Vereisten voor invoer

Zie Servicelimieten en codecs voor een gedetailleerde lijst met ondersteunde audio-indelingen.

Ondersteunde talen en regio's

Zie Taal- en regioondersteuning voor een volledige lijst met ondersteunde regio's, talen en landinstellingen.

Gegevensprivacy en -beveiliging

Ontwikkelaars die deze service gebruiken, moeten het beleid van Microsoft over klantgegevens controleren. ZieGegevens, beveiliging en privacy voor meer informatie.

Volgende stappen