검색을 위해 단어 분리기와 형태소 분석기 구성 및 관리 (SQL Server)

아티클
08/21/2023

적용 대상: SQL Server Azure SQL 데이터베이스

단어 분리기와 형태소 분석기에서 모든 전체 텍스트 데이터에 대해 언어 분석을 수행합니다. 언어 분석에서는 다음 두 작업을 수행합니다.

단어 경계 찾기(단어 나누기). 단어 분리기는 언어의 어휘 규칙에 따라 단어 경계가 존재하는 위치를 파악하여 개별 단어를 식별합니다. 각 단어(토큰이라고도 함)는 크기를 줄이기 위해 압축된 표현을 사용하여 전체 텍스트 인덱스에 삽입됩니다.
동사 활용(형태소 분석기). 형태소 분석기 는 해당 언어의 규칙에 따라 특정 단어의 굴절형을 생성합니다. 예를 들어 "running", "ran" 및 "runner"는 "run"이라는 단어의 여러 가지 형태입니다.

단어 분리기 및 형태소 분석기는 언어별로 다릅니다.

단어 분리기와 형태소 분석기는 언어별로 다르며 언어 분석 규칙은 언어마다 다릅니다. 언어별 단어 분리기는 해당 언어에 대해 결과 용어를 보다 정확하게 만듭니다.

SQL Server에서 지원하는 모든 언어에 대해 제공되는 단어 분리기 및 형태소 분석기를 사용하기 위해 일반적으로 다른 작업을 수행할 필요가 없습니다.

해당 언어군의 단어 분리기만 있고 특정 하위 언어의 단어 분리기가 없으면 주 언어가 사용됩니다. 예를 들어 프랑스어 단어 분리기는 프랑스어 캐나다어 텍스트를 처리하는 데 사용됩니다.
특정 언어에 사용할 수 있는 단어 분리기가 없으면 중립 단어 분리기가 사용됩니다. 중립 단어 분리기를 사용하면 공백 및 문장 부호와 같은 중립 문자에서 단어가 끊어집니다.

지원되는 언어 목록 가져오기

SQL Server 전체 텍스트 검색에서 지원하는 언어 목록을 보려면 다음 Transact-SQL 문을 사용합니다. 이 목록에 언어가 있으면 단어 분리기가 해당 언어에 대해 등록되었음을 나타냅니다.

SELECT * FROM sys.fulltext_languages

등록된 단어 분리기 목록 가져오기

전체 텍스트 검색에서 언어에 단어 분리기를 사용하려면 해당 단어 분리기를 등록해야 합니다. 단어 분리기가 등록되면 형태소 분석기, 의미 없는 단어(중지 단어) 및 동의어 사전 파일과 같은 관련 언어의 리소스도 전체 텍스트 인덱싱 및 쿼리 작업에 사용할 수 있습니다.

등록된 단어 분리기 구성 요소 목록을 보려면 다음 문을 사용합니다.

EXEC sp_help_fulltext_system_components 'wordbreaker';  
GO

추가 옵션 및 추가 정보는 sp_help_fulltext_system_components (Transact-SQL)를 참조하세요.

단어 분리기를 추가 또는 제거하는 경우

단어 분리기를 추가, 제거 또는 변경하는 경우 전체 텍스트 인덱싱 및 쿼리에 지원되는 Microsoft Windows 로컬 식별자(LCID) 목록을 새로 고쳐야 합니다. 자세한 내용은 등록된 필터 및 단어 분리기 보기 또는 변경 내용을 참조하세요.

기본 전체 텍스트 언어 옵션 설정

SQL Server의 지역화 버전의 경우, SQL Server 설치 프로그램은 적절한 일치 항목이 있는 경우 기본 전체 텍스트 언어 옵션을 서버 언어로 설정합니다. 지역화되지 않은 버전의 SQL Server의 경우 기본 전체 텍스트 언어 옵션은 영어입니다.

전체 텍스트 인덱스 만들기 또는 변경 시 전체 텍스트 인덱싱된 각 열에 대해 다른 언어를 지정할 수 있습니다. 열에 대해 지정된 언어가 없는 경우 기본값은 구성 옵션 기본 전체 텍스트 언어의 값입니다.

참고 항목

쿼리에 LANGUAGE 옵션을 지정하지 않은 경우 하나의 전체 텍스트 쿼리 함수 절에 있는 모든 열은 동일한 언어를 사용해야 합니다. 쿼리되는 전체 텍스트 인덱싱된 열에 사용되는 언어는 전체 텍스트 쿼리 조건자(CONTAINS 및 FREETEXT) 및 함수(CONTAINSTABLE 및 FREETEXTTABLE)의 인수에 대해 수행되는 언어 분석을 결정합니다.

인덱싱된 열의 언어 선택

전체 텍스트 인덱스를 만들 때는 인덱싱되는 각 열에 대해 언어를 지정하는 것이 좋습니다. 열에 대해 언어를 지정하지 않으면 시스템 기본 언어가 사용됩니다. 열의 언어는 해당 열을 인덱싱하는 데 사용되는 단어 분리기 및 형태소 분석기를 결정합니다. 또한 해당 언어의 동의어 사전 파일은 열의 전체 텍스트 쿼리에서 사용됩니다.

전체 텍스트 인덱스를 만들기 위해 열 언어를 선택할 때 고려할 몇 가지 사항이 있습니다. 이러한 고려 사항은 전체 텍스트 엔진으로 텍스트를 토큰화한 다음 인덱싱하는 방법과 관련이 있습니다. 자세한 내용은 전체 텍스트 인덱스 생성 시 언어 선택을 참조하세요.

특정 열의 단어 분리기 언어를 보려면 다음 문을 실행합니다.

SELECT language_id AS 'LCID' FROM sys.fulltext_index_columns;

추가 옵션 및 추가 정보는 sys.fulltext_index_columns (Transact-SQL)를 참조하세요.

단어 분리 시간 제한 오류 문제 해결

단어 분리 시간 초과 오류는 다양한 상황에서 발생할 수 있습니다. 이러한 상황과 각 상황에서의 대처 방법에 대한 자세한 내용은 MSSQLSERVER_30053을 참조하세요.

MSSQLSERVER_30053 오류에 대한 정보

속성	값
제품 이름	SQL Server
이벤트 ID	30053
이벤트 원본	MSSQLSERVER
구성 요소	SQLEngine
심볼 이름	FTXT_QUERY_E_WORDBREAKINGTIMEOUT
메시지 텍스트	전체 텍스트 쿼리 문자열에 대한 단어 분리 시간이 초과되었습니다. 이 문제는 단어 분리기가 전체 텍스트 쿼리 문자열을 처리하는 데 시간이 오래 걸리거나 서버에서 많은 수의 쿼리가 실행되는 경우에 발생할 수 있습니다. 더 가벼운 부하로 쿼리를 다시 실행해 보세요.

설명

다음과 같은 상황에서 단어 분리 시간 제한 오류가 발생할 수 있습니다.

쿼리 언어용 단어 분리기가 올바르지 않게 구성된 경우. 해당 레지스트리 설정이 올바르지 않은 경우가 이에 해당합니다.
단어 분리기가 특정 쿼리 문자열에 대해 오작동합니다.
단어 분리기가 특정 쿼리 문자열에 대해 너무 많은 데이터를 반환합니다. 초과 데이터는 잠재적인 버퍼 오버런 공격으로 처리되고 단어 분리 서비스를 호스트하는 필터 디먼 프로세스(fdhost.exe)를 종료합니다.
필터 데몬 프로세스 구성이 올바르지 않은 경우

가장 일반적인 구성 문제는 암호 만료 또는 필터 디먼 계정 로그온을 방지하는 도메인 정책입니다.
서버 인스턴스에서 매우 많은 쿼리 워크로드가 실행되고 있습니다. 예를 들어 단어 분리기는 전체 텍스트 쿼리 문자열을 처리하는 데 시간이 오래 걸리거나 서버에서 많은 수의 쿼리가 실행되고 있습니다. 이것이 가장 가능성이 낮은 원인입니다.

사용자 작업

다음과 같이 시간 제한의 가능한 원인에 적합한 사용자 작업을 선택합니다.

가능한 원인:	사용자 작업
쿼리 언어의 단어 분리기가 잘못 구성되었습니다.	타사 단어 분리기를 사용하는 경우 운영 체제에 잘못 등록되었을 수 있습니다. 이 경우 단어 분리기를 다시 등록하십시오. 자세한 내용은 검색에서 사용하는 단어 구분 기호를 이전 버전으로 되돌리기를 참조하세요.
단어 분리기가 특정 쿼리 문자열에 대해 오작동합니다.	SQL Server에서 단어 분리기를 지원하는 경우 Microsoft 고객 서비스 및 지원에 문의하세요.
단어 분리기가 특정 쿼리 문자열에 대해 너무 많은 데이터를 반환합니다.	SQL Server에서 단어 분리기를 지원하는 경우 Microsoft 고객 서비스 및 지원에 문의하세요.
필터 데몬 프로세스 구성이 올바르지 않은 경우	현재 암호를 사용하고 있고 도메인 정책이 필터 디먼 계정의 로그온을 차단하지 않는지 확인합니다.
서버 인스턴스에서 매우 많은 쿼리 워크로드가 실행되고 있습니다.	더 가벼운 부하로 쿼리를 다시 실행해 보세요.

업데이트된 단어 분리기의 영향 이해

SQL Server의 각 버전에는 일반적으로 언어 규칙이 더 우수하고 이전 단어 분리기보다 더 정확한 새 단어 분리기가 포함되어 있습니다. 잠재적으로 새 단어 분리기는 이전 버전의 SQL Server에서 가져온 전체 텍스트 인덱스의 단어 분리기와 약간 다르게 동작할 수 있습니다.

이는 데이터베이스를 현재 버전의 SQL Server로 업그레이드한 상태에서 전체 텍스트 카탈로그를 가져온 경우에 중요합니다. 이제 전체 텍스트 카탈로그의 전체 텍스트 인덱스에 사용되는 하나 이상의 언어가 새 단어 분리기와 연결될 수 있습니다. 자세한 내용은 전체 텍스트 검색 업그레이드를 참조하세요.

참고 항목

CREATE FULLTEXT INDEX(Transact-SQL)
ALTER FULLTEXT INDEX(Transact-SQL)
전체 텍스트 검색에 사용할 중지 단어와 중지 목록 구성 및 관리

다음을 통해 공유

검색을 위해 단어 분리기와 형태소 분석기 구성 및 관리 (SQL Server)

단어 분리기 및 형태소 분석기는 언어별로 다릅니다.

지원되는 언어 목록 가져오기

등록된 단어 분리기 목록 가져오기

단어 분리기를 추가 또는 제거하는 경우

기본 전체 텍스트 언어 옵션 설정

인덱싱된 열의 언어 선택

단어 분리 시간 제한 오류 문제 해결

MSSQLSERVER_30053 오류에 대한 정보

설명

사용자 작업

업데이트된 단어 분리기의 영향 이해

참고 항목

피드백

추가 리소스