영어로 읽기

언어 검색

완료됨

Azure AI 언어 감지 API는 텍스트 입력을 평가하고 제출된 각 문서에 대해 분석의 강도를 나타내는 점수와 함께 언어 식별자를 반환합니다.

이 기능은 알 수 없는 언어로 된 임의의 텍스트를 수집하는 콘텐츠 저장소에 유용합니다. 다른 시나리오에는 채팅 봇이 포함될 수 있습니다. 사용자가 채팅 봇으로 세션을 시작하면 언어 감지를 사용하여 사용 중인 언어를 확인하고 적절한 언어로 봇 응답을 구성할 수 있습니다.

이 분석의 결과를 구문 분석하여 입력 문서에서 사용된 언어를 판별할 수 있습니다. 또한 응답에서는 모델의 신뢰도가 반영된 점수(0과 1 사이의 값)를 반환합니다.

언어 감지는 문서 또는 단일 구문에서 작동할 수 있습니다. 문서 크기는 5120자 미만이어야 한다는 점에 유의하세요. 크기 제한은 문서당 지정되며 각 컬렉션은 1,000개의 항목(ID)으로 제한됩니다. 요청 본문의 서비스에 제출할 수 있는 올바른 형식의 JSON 페이로드 샘플은 각각 고유한 ID와 분석할 텍스트를 포함하는 문서컬렉션을 포함하여 여기에 표시됩니다. 필요에 따라 countryHint를 제공하여 예측 성능을 향상시킬 수 있습니다.

JSON
{
    "kind": "LanguageDetection",
    "parameters": {
        "modelVersion": "latest"
    },
    "analysisInput":{
        "documents":[
              {
                "id": "1",
                "text": "Hello world",
                "countryHint": "US"
              },
              {
                "id": "2",
                "text": "Bonjour tout le monde"
              }
        ]
    }
}

서비스는 예측 언어 및 예측의 신뢰도 수준을 나타내는 값을 포함하여 요청 본문의 각 문서에 대한 결과를 포함하는 JSON 응답을 반환합니다. 신뢰 수준은 0에서 1 사이의 값이며 1에 가까운 값이 신뢰 수준이 높습니다. 다음은 위의 요청 JSON에 매핑되는 표준 JSON 응답의 예입니다.

JSON
{   "kind": "LanguageDetectionResults",
    "results": {
        "documents": [
          {
            "detectedLanguage": {
              "confidenceScore": 1,
              "iso6391Name": "en",
              "name": "English"
            },
            "id": "1",
            "warnings": []
          },
          {
            "detectedLanguage": {
              "confidenceScore": 1,
              "iso6391Name": "fr",
              "name": "French"
            },
            "id": "2",
            "warnings": []
          }
        ],
        "errors": [],
        "modelVersion": "2022-10-01"
    }
}

이 샘플에서는 텍스트가 비교적 간단하고 언어를 쉽게 식별할 수 있기 때문에 모든 언어는 대부분 신뢰도 1을 표시합니다.

다국어 콘텐츠가 있는 문서를 전달하면 서비스가 약간 다르게 작동합니다. 동일한 문서 내에서 혼합된 언어 콘텐츠는 콘텐츠에서 가장 많은 표현이 있는 언어를 반환하지만, 더 낮은 긍정적 등급으로 인해 해당 평가의 한계 강도가 반영됩니다. 다음 예제의 입력에는 영어, 스페인어 및 프랑스어가 혼합되어 있습니다. 분석기는 텍스트의 통계 분석을 사용하여 지배적 언어를 결정합니다.

JSON
{
  "documents": [
    {
      "id": "1",
      "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
    }
  ]
}

다음 샘플에서는 이 다국어 예제에 대한 응답을 보여 줍니다.

JSON
{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "Spanish",
                "iso6391Name": "es",
                "confidenceScore": 0.9375
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2022-10-01"
}

고려해야 할 마지막 조건은 언어 콘텐츠에 모호성이 있는 경우입니다. 예를 들어 텍스트를 문자열 변수로 변환할 때 문자 인코딩 문제로 인해 분석기에서 구문 분석할 수 없는 텍스트 콘텐츠를 제출하는 경우의 시나리오가 발생할 수 있습니다. 결과적으로 언어 이름 및 ISO 코드에 대한 응답은 (알 수 없음)을 나타내고 점수 값은 0으로 반환됩니다. 다음 예에서는 응답이 어떻게 표시되는지 보여 줍니다.

JSON
{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2022-10-01"
}