Когнитивный навык распознавания языка

Мақала
09/01/2024

Навык распознавания языка определяет язык введенного текста и сообщает один код языка для каждого документа, отправленного по запросу. Код языка сопряжен с оценкой, указывающей степень анализа. Этот навык использует модели машинного обучения, предоставляемые на языке ИИ Azure.

Эта возможность особенно полезна, когда требуется предоставить язык текста в качестве входных данных для других навыков (например, навыка анализа тональности или разделения текста).

См . поддерживаемые языки для обнаружения языка. Если у вас есть содержимое, выраженное на неподдерживаемом языке, это (Unknown)ответ.

Примечание.

Этот навык привязан к службам ИИ Azure и требует оплачиваемого ресурса для транзакций, превышающих 20 документов на индексатор в день. За выполнение встроенных навыков взимается плата за существующие службы ИИ Azure по мере использования.

@odata.type

Microsoft.Skills.Text.LanguageDetectionSkill

Ограничения данных

Максимальный размер записи — 50 000 знаков по оценке String.Length. Если перед отправкой данных в навык обнаружения языка необходимо разбить данные, можно использовать навык разделения текста.

Параметры навыков

Параметры зависят от регистра.

Входные данные Description

defaultCountryHint (Необязательно) Код страны iso 3166-1 alpha-2 можно предоставить для указания модели обнаружения языка, если он не может отвращение к языку. В частности, параметр defaultCountryHint используется для документов, которые не указывают входные данные countryHint явным образом.

modelVersion (Необязательно) Указывает версию модели , используемую при вызове обнаружения языка. По умолчанию используется последняя доступная, если она не указана. Мы рекомендуем не указывать это значение, если это не необходимо.

Входные данные	Description
`defaultCountryHint`	(Необязательно) Код страны iso 3166-1 alpha-2 можно предоставить для указания модели обнаружения языка, если он не может отвращение к языку. В частности, параметр `defaultCountryHint` используется для документов, которые не указывают входные данные `countryHint` явным образом.
`modelVersion`	(Необязательно) Указывает версию модели , используемую при вызове обнаружения языка. По умолчанию используется последняя доступная, если она не указана. Мы рекомендуем не указывать это значение, если это не необходимо.

Входные данные навыков

Параметры зависят от регистра.

Входные данные	Description
`text`	Анализируемый текст.
`countryHint`	Iso 3166-1 alpha-2 двух буквенный код страны, который будет использоваться в качестве намека на модель обнаружения языка, если он не может диффегировать язык.

Выходные данные навыка

Имя вывода	Description
`languageCode`	Код языка ISO 6391 для распознанного языка. Например, en.
`languageName`	Имя языка. Например, "английский".
`score`	Значение от 0 до 1. Вероятность, что язык правильно распознан. Оценка может быть ниже 1, если предложение имеет смешанные языки.

Пример определения

 {
    "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/text"
      },
      {
        "name": "countryHint",
        "source": "/document/countryHint"
      }
    ],
    "outputs": [
      {
        "name": "languageCode",
        "targetName": "myLanguageCode"
      },
      {
        "name": "languageName",
        "targetName": "myLanguageName"
      },
      {
        "name": "score",
        "targetName": "myLanguageScore"
      }

    ]
  }

Пример ввода

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
           }
      },
      {
        "recordId": "2",
        "data":
           {
             "text": "Estamos muy felices de estar con ustedes."
           }
      },
      {
        "recordId": "3",
        "data":
           {
             "text": "impossible",
             "countryHint": "fr"
           }
      }
    ]

Пример полученных результатов

{
    "values": [
      {
        "recordId": "1",
        "data":
            {
              "languageCode": "en",
              "languageName": "English",
              "score": 1,
            }
      },
      {
        "recordId": "2",
        "data":
            {
              "languageCode": "es",
              "languageName": "Spanish",
              "score": 1,
            }
      },
      {
        "recordId": "3",
        "data":
            {
              "languageCode": "fr",
              "languageName": "French",
              "score": 1,
            }
      }
    ]
}

Бөлісу құралы: