엔터티 구성 요소

대화 언어 이해에서 엔터티는 발화에서 추출된 관련 정보 부분입니다. 엔터티는 다른 메서드를 통해 추출할 수 있습니다. 컨텍스트를 통해 학습되거나, 목록에서 일치되거나, 미리 빌드된 인식된 엔터티에서 검색될 수 있습니다. 프로젝트의 모든 엔터티는 엔터티의 구성 요소로 정의되는 이러한 메서드 중 하나 이상으로 구성됩니다. 엔터티가 둘 이상의 구성 요소에서 정의되면 해당 예측이 겹칠 수 있습니다. 엔터티 옵션에서 고정된 옵션 세트를 사용하여 구성 요소가 겹칠 때 엔터티 예측의 동작을 결정할 수 있습니다.

구성 요소 유형

엔터티 구성 요소는 엔터티를 추출할 수 있는 방법을 결정합니다. 엔터티는 엔터티를 추출하는 데 사용할 유일한 메서드를 결정하는 하나의 구성 요소를 포함하거나, 엔터티가 정의되고 추출되는 방식을 확장하는 여러 구성 요소를 포함할 수 있습니다.

학습된 구성 요소

학습된 구성 요소는 발화에 레이블을 지정하는 엔터티 태그를 사용하여 기계 학습 모델을 학습시킵니다. 모델은 발화 내의 컨텍스트에 따라 엔터티의 위치를 ​​예측하는 방법을 학습시킵니다. 레이블은 발화에서 주위에 있는 단어의 의미에 따라 레이블이 지정된 단어로 엔터티가 있어야 하는 위치에 대한 예를 제공합니다. 이 구성 요소는 엔터티에 대한 태그를 발화에 지정하여 레이블을 추가하는 경우에만 정의됩니다. 엔터티를 사용하여 태그를 발화에 지정하지 않으면 학습된 구성 요소가 없습니다.

A screenshot showing an example of learned components for entities.

목록 구성 요소

목록 구성 요소는 동의어와 함께 관련 단어의 고정된 폐쇄형 세트를 나타냅니다. 구성 요소는 동의어로 제공한 값 목록에 대해 정확한 텍스트 일치를 수행합니다. 각 동의어는 목록 구성 요소가 일치하는 경우 출력에 반환되는 동의어에 대한 정규화된 표준 값으로 사용할 수 있는 "목록 키"에 속합니다. 목록 키는 일치에 사용되지 않습니다.

다국어 프로젝트에서는 각 언어에 대해 다른 동의어 집합을 지정할 수 있습니다. 예측 API를 사용하는 동안 입력 요청에서 해당 언어를 지정할 수 있습니다. 이 경우 해당 언어와 연결된 동의어만 검색합니다.

A screenshot showing an example of list components for entities.

미리 빌드된 구성 요소

미리 빌드된 구성 요소를 사용하면 숫자, 날짜/시간 및 이름과 같은 일반적인 유형의 라이브러리에서 선택할 수 있습니다. 추가되면 미리 빌드된 구성 요소가 자동으로 검색됩니다. 엔터티당 최대 5개의 미리 빌드된 구성 요소를 포함할 수 있습니다. 자세한 내용은 지원되는 미리 빌드된 구성 요소 목록을 참조하세요.

A screenshot showing an example of prebuilt components for entities.

정규식 구성 요소

정규식 구성 요소는 정규식을 일치시켜 일관된 패턴을 캡처합니다. 추가되면 정규식과 일치하는 모든 텍스트가 추출됩니다. 동일한 엔터티 내에 여러 정규식이 있고 각각 다른 키 식별자가 있을 수 있습니다. 일치하는 식은 예측 응답의 일부로 키를 반환합니다.

다국어 프로젝트에서는 각 언어에 대해 다른 식을 지정할 수 있습니다. 예측 API를 사용하는 동안 입력 요청에서 해당 언어를 지정할 수 있습니다. 이 경우 해당 언어와 연결된 정규식만 검색합니다.

A screenshot showing an example of regex components for entities.

엔터티 옵션

한 엔터티에 대해 여러 구성 요소가 정의되는 경우 해당 예측이 겹칠 수 있습니다. 겹침이 발생하면 다음 옵션 중 하나에 따라 각 엔터티의 최종 예측이 결정됩니다.

구성 요소 결합

모든 구성 요소의 합집합을 구하여 겹치는 구성 요소를 하나의 엔터티로 결합합니다.

겹치는 모든 구성 요소를 결합하는 데 사용합니다. 구성 요소가 결합되면 구성 요소가 있을 때 목록 또는 미리 빌드된 구성 요소에 연결된 모든 추가 정보가 제공됩니다.

예시

"Proseware OS"를 항목으로 포함하는 목록 구성 요소가 있는 Software라는 엔터티가 있다고 가정해 보겠습니다. 발화 데이터에는 "Proseware OS 9"에 Software 태그가 지정된 “I want to buy Proseware OS 9”가 있습니다.

A screenshot showing a learned and list entity overlapped.

구성 요소 결합을 사용하면 엔터티는 목록 구성 요소의 키와 함께 전체 컨텍스트 "Proseware OS 9"를 반환합니다.

A screenshot showing the result of a combined component.

동일한 발화가 있었지만 학습된 구성 요소에서 "OS 9"만 예측했다고 가정합니다.

A screenshot showing an utterance with O S 9 predicted by the learned component.

구성 요소를 결합하면 엔터티는 목록 구성 요소의 키를 사용하여 "Proseware OS 9"로 반환됩니다.

A screenshot showing the returned software entity.

구성 요소 결합 안 함

겹치는 각 구성 요소는 엔터티의 별도 인스턴스로 반환됩니다. 이 옵션을 사용하여 예측 후 고유한 논리를 적용합니다.

예시

"Proseware Desktop"을 항목으로 포함하는 목록 구성 요소가 있는 Software라는 엔터티가 있다고 가정해 보겠습니다. 발화 데이터에는 “Proseware Desktop Pro”에 Software 태그가 지정된 “I want to buy Proseware Desktop Pro”가 있습니다.

A screenshot showing an example of a learned and list entity overlapped.

구성 요소를 결합하지 않으면 엔터티가 두 번 반환됩니다.

A screenshot showing the entity returned twice.

필수 구성 요소

엔터티는 때때로 여러 구성 요소로 정의할 수 있지만 하나 이상의 구성 요소가 있어야 합니다. 모든 구성 요소를 필수로 설정할 수 있습니다. 즉, 해당 구성 요소가 없는 경우 엔터티가 반환되지 않습니다. 예를 들어 목록 구성 요소와 학습된 필수 구성 요소가 있는 엔터티가 있는 경우 반환된 엔터티에 학습된 구성 요소가 포함되어야 합니다. 그렇지 않으면 엔터티가 반환되지 않습니다.

필수 구성 요소는 학습된 구성 요소와 함께 가장 자주 사용됩니다. 다른 구성 요소 형식을 특정 컨텍스트로 제한할 수 있으므로 일반적으로 역할에 연결됩니다. 엔터티에 대한 모든 구성 요소가 있는지 확인하려면 모든 구성 요소가 필요할 수도 있습니다.

Language Studio에서 엔터티의 모든 구성 요소 옆에는 필요에 따라 설정할 수 있는 토글이 있습니다.

예시

"Book two tickets tomorrow to Cairo"와 같은 발화의 경우 항공편을 예약하려는 정확한 티켓 수를 추출하려고 하는 Ticket Quantity라는 엔터티가 있다고 가정해 보겠습니다.

일반적으로 모든 숫자를 이미 추출하는 Quantity.Number에 대해 미리 빌드된 구성 요소를 추가합니다. 그러나 엔터티가 미리 빌드된 것으로만 정의된 경우 "Book two tickets tomorrow to Cairo at 3 PM"과 같이 Ticket Quantity의 일부로 다른 숫자도 추출합니다.

이 문제를 해결하려면 학습 데이터에서 Ticket Quantity가 될 수 있는 모든 숫자에 대한 학습된 구성 요소에 레이블을 지정합니다. 이제 엔터티에는 모든 숫자를 알고 있는 미리 빌드된 구성 요소와 문장에 Ticket Quantity가 있는 위치를 예측하는 학습된 구성 요소의 2개의 구성 요소가 있습니다. 학습된 구성 요소가 필요한 경우 학습된 구성 요소가 올바른 컨텍스트에서 Ticket Quantity를 예측하는 경우에만 Ticket Quantity가 반환되는지 확인합니다. 미리 빌드된 구성 요소도 필요한 경우 반환된 Ticket Quantity 엔터티가 숫자이고 올바른 위치에 있는지 확인할 수 있습니다.

구성 요소 및 옵션을 사용하는 방법

구성 요소를 사용하면 여러 가지 방법으로 엔터티를 유연하게 정의할 수 있습니다. 구성 요소를 결합할 때 각 구성 요소가 표시되는지 확인하고 예측에서 반환되는 엔터티 수를 줄입니다.

일반적인 방법은 미리 빌드된 구성 요소를 사전 빌드 기능이 지원하지 않을 수 있는 값 목록으로 확장하는 것입니다. 예를 들어 General.Organization 미리 빌드된 구성 요소가 추가된 Organization 엔터티가 있는 경우 엔터티는 도메인과 관련된 모든 조직을 예측하지 못할 수 있습니다. 목록 구성 요소를 사용하여 Organization 엔터티의 값을 확장하고, 사용자 고유의 조직으로 미리 빌드된 항목을 확장할 수 있습니다.

소매 프로젝트에서 Product와 같은 컨텍스트를 통해 엔터티를 추출하는 데 관심이 있는 경우도 있습니다. 제품의 학습된 구성 요소에 레이블을 지정하여 문장 내에서의 위치에 따라 제품의 위치를 학습시킵니다. 또한 사전에 이미 알고 있으며 항상 추출하려고 하는 제품 목록이 있을 수 있습니다. 두 구성 요소를 하나의 엔터티에 결합하면 엔터티에 대한 두 가지 옵션을 모두 가져올 수 있습니다.

구성 요소를 결합하지 않으면 모든 구성 요소가 독립적인 엔터티 추출기 역할을 하도록 허용합니다. 이 옵션을 사용하는 한 가지 방법은 목록에서 추출된 엔터티를 학습된 구성 요소 또는 미리 빌드된 구성 요소를 통해 추출된 엔터티와 구분하고 다르게 처리하는 것입니다.

참고 항목

이전에는 서비스의 퍼블릭 미리 보기 중에는 가장 긴 겹침, 정확한 겹침, 겹침 합집합모두 개별적으로 반환의 4가지 옵션을 사용할 수 있었습니다. 가장 긴 겹침정확한 겹침은 더 이상 사용되지 않으며 이전에 해당 옵션을 선택한 프로젝트에 대해서만 지원됩니다. 겹침 합집합구성 요소 결합으로 이름이 바뀌었지만 모두 개별적으로 반환구성 요소 결합 안 함으로 이름이 바뀌었습니다.

다음 단계

지원되는 미리 빌드된 구성 요소