Cognitieve vaardigheid voor taaldetectie

Artikel
10/26/2023

De vaardigheid Taaldetectie detecteert de taal van invoertekst en rapporteert één taalcode voor elk document dat op de aanvraag is ingediend. De taalcode wordt gekoppeld aan een score die de sterkte van de analyse aangeeft. Deze vaardigheid maakt gebruik van de machine learning-modellen die worden geleverd in Azure AI Language.

Deze mogelijkheid is vooral handig wanneer u de taal van de tekst moet opgeven als invoer voor andere vaardigheden (bijvoorbeeld de vaardigheid Sentimentanalyse of Tekstsplitsing).

Zie ondersteunde talen voor taaldetectie. Als u inhoud hebt uitgedrukt in een niet-ondersteunde taal, is (Unknown)het antwoord.

Notitie

Deze vaardigheid is gebonden aan Azure AI-services en vereist een factureerbare resource voor transacties die groter zijn dan 20 documenten per indexeerfunctie per dag. Voor de uitvoering van ingebouwde vaardigheden worden kosten in rekening gebracht voor de bestaande betalen per gebruik-prijs van Azure AI-services.

@odata.type

Microsoft.Skills.Text.LanguageDetectionSkill

Gegevenslimieten

De maximale grootte van een record moet 50.000 tekens zijn, zoals gemeten door String.Length. Als u uw gegevens wilt opsplitsen voordat u deze naar de vaardigheid taaldetectie verzendt, kunt u de vaardigheid Tekst splitsen gebruiken.

Vaardigheidsparameters

Parameters zijn hoofdlettergevoelig.

Invoerwaarden	Beschrijving
`defaultCountryHint`	(Optioneel) Een ISO 3166-1 alfa-2 landcode van twee letters kan worden opgegeven om te gebruiken als hint voor het taaldetectiemodel als deze de taal niet kan ondubbelzinnig maken. `defaultCountryHint` De parameter wordt met name gebruikt met documenten die de `countryHint` invoer niet expliciet opgeven.
`modelVersion`	(Optioneel) Hiermee geeft u de versie van het model op die moet worden gebruikt bij het aanroepen van taaldetectie. Deze wordt standaard ingesteld op de meest recente versie wanneer deze niet is opgegeven. U wordt aangeraden deze waarde niet op te geven, tenzij dit nodig is.

Invoer van vaardigheden

Parameters zijn hoofdlettergevoelig.

Invoerwaarden	Beschrijving
`text`	De te analyseren tekst.
`countryHint`	Een ISO 3166-1 alfa-2 landcode van twee letters die moet worden gebruikt als hint voor het taaldetectiemodel als deze de taal niet eenduidig kan maken.

Uitvoer van vaardigheden

Uitvoernaam	Beschrijving
`languageCode`	De ISO 6391-taalcode voor de geïdentificeerde taal. Bijvoorbeeld 'en'.
`languageName`	De naam van de taal. Bijvoorbeeld 'Engels'.
`score`	Een waarde tussen 0 en 1. De kans dat de taal correct wordt geïdentificeerd. De score kan lager zijn dan 1 als de zin gemengde talen heeft.

Voorbeelddefinitie

 {
    "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/text"
      },
      {
        "name": "countryHint",
        "source": "/document/countryHint"
      }
    ],
    "outputs": [
      {
        "name": "languageCode",
        "targetName": "myLanguageCode"
      },
      {
        "name": "languageName",
        "targetName": "myLanguageName"
      },
      {
        "name": "score",
        "targetName": "myLanguageScore"
      }

    ]
  }

Voorbeeldinvoer

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
           }
      },
      {
        "recordId": "2",
        "data":
           {
             "text": "Estamos muy felices de estar con ustedes."
           }
      },
      {
        "recordId": "3",
        "data":
           {
             "text": "impossible",
             "countryHint": "fr"
           }
      }
    ]

Voorbeelduitvoer

{
    "values": [
      {
        "recordId": "1",
        "data":
            {
              "languageCode": "en",
              "languageName": "English",
              "score": 1,
            }
      },
      {
        "recordId": "2",
        "data":
            {
              "languageCode": "es",
              "languageName": "Spanish",
              "score": 1,
            }
      },
      {
        "recordId": "3",
        "data":
            {
              "languageCode": "fr",
              "languageName": "French",
              "score": 1,
            }
      }
    ]
}

Delen via