엔터티 연결 인식 기술(v3)

엔터티 링크 설정 기술(v3)은 잘 알려진 기술 자료인 Wikipedia의 문서에 대한 링크가 있는 인식된 엔터티의 목록을 반환합니다.

참고 항목

이 기술은 Azure AI Language의 Entity Linking 기계 학습 모델에 바인딩되며 하루에 인덱서당 20개 문서를 초과하는 트랜잭션에 대해 청구 가능한 리소스가 필요합니다. 기본 제공 기술의 실행은 기존 Azure AI 서비스 종량제 가격으로 청구됩니다.

@odata.type

Microsoft.Skills.Text.V3.EntityLinkingSkill

데이터 제한

레코드의 최대 크기는 String.Length에 의해 측정된 대로 50,000자여야 합니다. EntityLinking 기술로 보내기 전에 데이터를 분리해야 하는 경우 텍스트 분할 기술을 사용하는 것이 좋습니다. 텍스트 분할 기술을 사용하는 경우 최상의 성능을 위해 페이지 길이를 5000으로 설정합니다.

기술 매개 변수

매개 변수 이름은 대/소문자를 구분하며 모두 선택 사항입니다.

매개 변수 이름 설명
defaultLanguageCode 입력 텍스트의 언어 코드입니다. 기본 언어 코드가 지정되지 않은 경우 영어(en)가 기본 언어 코드로 사용됩니다.
지원되는 언어 전체 목록을 참조하세요.
minimumPrecision 0에서 1 사이의 값입니다. 출력의 entities 신뢰도 점수가 이 값보다 낮으면 엔터티가 반환되지 않습니다. 기본값은 0입니다.
modelVersion (선택 사항) 엔티티 연결을 호출할 때 사용할 모델의 버전을 지정합니다. 지정하지 않으면 기본적으로 사용 가능한 최신 버전으로 설정됩니다. 필요한 경우가 아니면 이 값을 지정하지 않는 것이 좋습니다.

기술 입력

입력 이름 설명
languageCode 레코드의 언어를 나타내는 문자열입니다. 이 매개 변수를 지정하지 않으면 레코드를 분석하는 데 기본 언어 코드가 사용됩니다.
지원되는 언어 전체 목록을 참조하세요.
text 분석할 텍스트입니다.

기술 출력

출력 이름 설명
entities 다음 필드를 포함하는 복합 형식의 배열입니다.
  • "name" (텍스트에 표시되는 실제 엔터티 이름)
  • "id"
  • "language" (기술에서 결정된 텍스트의 언어)
  • "url" (이 엔터티에 대한 연결된 URL)
  • bingId (이 연결된 엔터티의 bingId)
  • "dataSource" (URL과 연결된 데이터 원본)
  • "matches" (text, offset, lengthconfidenceScore를 포함하는 복합 형식의 배열)

샘플 정의

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityLinkingSkill",
    "context": "/document",
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "entities", 
            "targetName": "entities" 
        }
    ]
}

샘플 입력

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft is liked by many.",
             "languageCode": "en"
           }
      }
    ]
}

샘플 출력

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "entities": [
          {
            "name": "Microsoft", 
            "id": "Microsoft",
            "language": "en", 
            "url": "https://en.wikipedia.org/wiki/Microsoft", 
            "bingId": "a093e9b9-90f5-a3d5-c4b8-5855e1b01f85", 
            "dataSource": "Wikipedia", 
            "matches": [
                {
                    "text": "Microsoft", 
                    "offset": 0, 
                    "length": 9, 
                    "confidenceScore": 0.13 
                }
            ]
          }
        ],
      }
    }
  ]
}

이 스킬의 출력값에서 엔터티에 대해 반환되는 오프셋은 언어 서비스 API에서 직접 반환되며, 이는 원래 문자열에 인덱싱하는 데 사용할 경우 올바른 콘텐츠를 추출하기 위해 .NET에서 StringInfo 클래스를 사용해야 합니다. 자세한 내용은 언어 서비스 기능에서 다국어 및 이모지 지원을 참조하세요.

경고 사례

문서의 언어 코드가 지원되지 않으면 경고가 반환되고 엔터티가 추출되지 않습니다.

참고 항목