발언

아티클
03/10/2024

Important

LUIS는 2025년 10월 1일에 사용 중지되며 2023년 4월 1일부터 새 LUIS 리소스를 만들 수 없습니다. 지속적인 제품 지원 및 다국어 기능을 활용하려면 LUIS 애플리케이션을 대화 언어 이해로 마이그레이션하는 것이 좋습니다.

발화는 앱에서 해석해야 하는 사용자의 입력입니다. 이러한 입력에서 의도와 엔터티를 추출하도록 LUIS를 학습시키려면 의도마다 다양한 발화 예를 캡처하는 것이 중요합니다. 새로운 발화에 대한 활성 학습 또는 지속적인 학습 프로세스는 LUIS에서 제공하는 기계 학습 인텔리전스에 필수적입니다.

사용자가 입력할만한 발언을 수집합니다. 같은 의미를 갖지만 다양한 방법으로 구성된 발언을 포함시킵니다.

발언 길이 - 클라이언트 애플리케이션에 대해 짧게, 중간으로, 길게
단어 길이 및 문구 길이
단어 배치 - 발언의 시작, 중간 및 끝에 있는 엔터티
문법
복수화
형태소 분석
명사 및 동사 선택
문장 부호 - 올바른 문법과 올바르지 않은 문법 모두 사용

다양한 발화 선택

LUIS 모델에 발화 예를 추가할 때 다음과 같은 몇 가지 원칙에 유의해야 합니다.

발언이 항상 올바른 형식인 것은 아닙니다.

앱에서 "내 파리행 티켓 예약"과 같은 문장이나 "예약" 또는 "파리행 항공권"과 같은 문장의 일부를 처리해야 할 수도 있습니다. 사용자가 맞춤법을 틀리는 경우가 많습니다. 앱을 계획할 때는 사용자 입력을 LUIS에 전달하기 전에 수정하는 데 Bing Spell Check를 사용하려는지를 고려합니다.

사용자 발언의 맞춤법을 검사하지 않으면 입력 오류 및 철자 오류가 포함된 발언으로 LUIS를 학습하게 됩니다.

사용자의 대표 언어 사용

발화를 선택할 때 일반적인 용어나 문구라고 생각하는 것이 클라이언트 애플리케이션의 일반적인 사용자와 다를 수 있다는 점을 인지해야 합니다. 도메인 환경이 없거나 다른 용어를 사용할 수 있습니다. 사용자가 전문가인 경우에만 말할 수 있는 용어나 문구를 사용할 때는 주의하십시오.

다양한 용어 및 관용구 선택

아무리 다양한 문장 패턴을 만들기 위해 애쓰더라도 일부 어휘가 여전히 반복될 수 있습니다. 예를 들어 다음 발화의 의미는 비슷하지만 용어와 관용구는 다릅니다.

“컴퓨터를 어떻게 얻을 수 있을까요?”
“컴퓨터를 어디서 얻을 수 있을까요?”
“컴퓨터를 갖고 싶어요. 어떻게 하면 될까요?”
“컴퓨터를 언제 받을 수 있을까요?”

여기서 핵심 용어인 computer는 변형되지 않습니다. 데스크톱 컴퓨터, 랩톱, 워크스테이션 또는 간단히 머신과 같은 대체 용어를 사용합니다. LUIS는 컨텍스트에서 동의어를 지능적으로 유추하지만 학습을 위해 발언을 만들 때는 변형하는 것이 더 좋습니다.

각 의도의 예제 발언

의도마다 발화 예가 최소 15개 이상 필요합니다. 예제 발언이 없는 의도로는 LUIS를 학습시킬 수 없습니다. 의도 하나에 발화 예가 하나 또는 몇 개 있으면 LUIS에서 의도를 정확히 예측하지 못할 수 있습니다.

소규모 발화 그룹 추가

개선하기 위해 모델에서 반복할 때마다 많은 양의 발화를 추가하지 마세요. 발화를 15개 정도 추가하는 것이 좋습니다. 그런 다음, 학습, 게시 및 테스트를 다시 진행합니다.

LUIS는 LUIS 모델 작성자가 신중하게 선택한 발언으로 효과적인 모델을 빌드합니다. 너무 많은 발언을 추가하면 혼동을 가져오므로 유용하지 않습니다.

처음에는 소수의 발화로 시작한 다음, 올바른 의도 예측과 엔터티 추출을 위해 엔드포인트 발화를 검토합니다.

발화 정규화

발화 정규화는 학습 및 예측 중에 문장 부호 및 분음 부호와 같은 텍스트 형식의 효과를 무시하는 프로세스입니다.

발화 정규화 설정은 기본적으로 중지되어 있습니다. 이러한 설정은 다음과 같습니다.

단어 양식
분음 부호
문장 부호

정규화 설정을 켜면 테스트 창, 일괄 처리 테스트 및 엔드포인트 쿼리의 점수가 해당 정규화 설정에 대한 모든 발화에 대해 변경됩니다.

LUIS 포털에서 버전을 복제하는 경우 버전 설정은 복제된 새 버전에서 유지됩니다.

애플리케이션 설정 페이지 위 탐색 메뉴에서 관리를 선택하여 LUIS 포털을 사용해 앱의 버전 설정을 지정합니다. 업데이트 버전 설정 API를 사용할 수도 있습니다. 자세한 내용은 참조 문서를 참조하세요.

단어 양식

단어 형식을 정규화하면 루트를 벗어나 확장되는 단어의 차이를 무시합니다.

분음 부호

분음 부호는 다음과 같은 텍스트 내의 표시 또는 부호입니다.

İ ı Ş Ğ ş ğ ö ü

문장 부호

문장 부호 정규화는 모델이 학습되고 엔드포인트 쿼리가 예측되기 전에 발화에서 문장 부호가 제거됨을 의미합니다.

문장 부호는 LUIS에서 별도 토큰입니다. 끝에 마침표가 있는 발화는 끝에 마침표가 없는 발화와 다른 별도의 발화이며 두 가지 다른 예측이 이루어질 수 있습니다.

문장 부호가 정규화되지 않은 경우 일부 클라이언트 애플리케이션에서 이러한 표시에 대해 의미를 부여할 수 있으므로 LUIS는 문장 부호를 무시하지 않습니다. 두 스타일 모두 동일한 상대 점수를 반환하려면 문장 부호를 사용하는 발화 예와 그렇지 않은 발화 예가 포함되어야 합니다.

모델이 발화 예(문장 부호를 포함하거나 포함하지 않음) 또는 문장 부호를 무시하는 것이 더 쉬운 패턴에서 문장 부호를 처리하는지 확인합니다. 예: {Job} 직책을 신청하고 있습니다[.]

사용자의 클라이언트 애플리케이션에서 문장 부호에 특별한 의미를 두지 않는다면 문장 부호를 정규화하여 문장 부호를 무시하는 것이 좋습니다.

단어 및 문장 부호 무시

패턴의 특정 단어 또는 문장 부호를 무시하려는 경우 대괄호 []의 ignore 구문과 함께 패턴을 사용합니다.

모든 발화로 학습

학습은 일반적으로 비결정적입니다. 발화 예측은 버전이나 앱마다 약간 다를 수 있습니다. 모든 교육 데이터를 사용하기 위해 UseAllTrainingData 이름/값 쌍으로 버전 설정 API를 업데이트하여 비결정적 학습을 제거할 수 있습니다.

발언 테스트

개발자는 발화를 예측 엔드포인트 URL로 전송하여 실제 데이터로 자신의 LUIS 애플리케이션을 테스트해야 합니다. 이러한 발언은 발언 검토로 의도 및 엔터티의 성능을 개선하는 데 사용됩니다. LUIS 포털의 테스트 창을 통해 제출된 테스트는 엔드포인트로 전송되지 않으며 활성 학습에 기여하지 않습니다.

발화 검토

모델이 학습되고, 게시되고 엔드포인트 쿼리를 수신하면 LUIS에서 제안한 발언을 검토합니다. LUIS는 의도 또는 엔터티에 대해 낮은 점수를 갖는 엔드포인트 발언을 선택합니다.

모범 사례

단어 의미에 대한 레이블

단어 선택이나 단어 배열은 동일하지만 같은 의미를 나타내지 않는 경우 엔터티로 레이블을 지정하지 마세요.

다음 발화에서 fair 단어는 철자는 같지만 의미가 다른 동형이의어입니다.

"What kind of county fairs are happening in the Seattle area this summer?"
"Is the current 2-star rating for the restaurant fair?

이벤트 엔터티에서 모든 이벤트 데이터를 찾도록 하려면 두 번째 발화가 아닌 첫 번째 발화에서 fair 단어에 레이블을 지정합니다.

가능한 발화 변형을 무시하지 마세요.

LUIS는 의도의 발화에서 변형을 예측합니다. 전체 의미는 동일하지만 발화가 달라질 수 있습니다. 변형에는 발화 길이, 단어 선택 및 단어 배치가 포함될 수 있습니다.

같은 형식 사용 안 함	다양한 형식 사용
시애틀행 항공권 구입	시애틀행 항공권 1매 구입
파리행 항공권 구입	다음 월요일에 파리행 야간 항공편에서 2석 예약
올랜도행 항공권 구입	봄 방학을 위해 올란도행 항공권 3매를 예약

두 번째 열에는 여러 가지 동사(구입, 예약), 여러 가지 수량(1, 2, 3), 여러 가지 단어 배열이 사용되지만 모두 여행을 위해 항공사 티켓을 구입하려는 동의할 의도를 포함합니다.

의도에 많은 발화 예를 추가하지 마세요.

앱이 게시된 후 개발 수명 주기 프로세스에서 활성 학습의 발화만 추가합니다. 발화가 너무 비슷한 경우, 패턴을 추가합니다.

발언