용어 추출 변환

아티클
07/12/2024

적용 대상: SQL Server Azure Data Factory의 SSIS Integration Runtime

용어 추출 변환은 변환 입력 열의 텍스트에서 용어를 추출한 다음 변환 출력 열에 용어를 씁니다. 변환은 영어 텍스트에만 사용할 수 있으며 자체 영어 사전과 영어 언어 정보를 사용합니다.

용어 추출 변환을 사용하여 데이터 집합의 콘텐츠를 검색할 수 있습니다. 예를 들어 전자 메일 메시지가 포함된 텍스트는 제품에 대한 유용한 피드백을 제공할 수 있으므로 피드백을 분석하는 방법으로 용어 추출 변환을 사용하여 메시지에서 논의 주제를 추출할 수 있습니다.

추출된 용어 및 데이터 형식

용어 추출 변환에서는 명사 또는 명사구를 따로 추출하거나 모두 추출할 수 있습니다. 명사는 단일 명사입니다. 명사구는 적어도 두 단어이며, 그중 하나는 명사이고 다른 하나는 명사 또는 형용사입니다. 예를 들어 변환에서 명사 전용 옵션을 사용하는 경우 bicycle 및 landscape과 같은 용어를 추출합니다. 변환에서 명사구 옵션을 사용하는 경우 new blue bicycle, bicycle helmet, boxed bicycles와 같은 용어를 추출합니다.

관사와 대명사는 추출하지 않습니다. 예를 들어 용어 추출 변환은 the bicycle, my bicycle, that bicycle이라는 텍스트에서 bicycle이라는 용어를 추출합니다.

용어 추출 변환은 추출하는 각 용어에 대한 점수를 생성합니다. 점수는 TFIDF 값 또는 원시 빈도일 수 있습니다. 즉, 정규화된 용어가 입력에 나타나는 횟수를 의미합니다. 어느 경우에도 순위는 0 이상의 실수로 표현됩니다. 예를 들어 TFIDF 점수의 값은 0.5이고, 빈도는 1.0 또는 2.0과 같은 값일 수 있습니다.

용어 추출 변환의 출력에는 두 개의 열만 포함됩니다. 한 열에는 추출된 용어가 포함되고, 다른 열에는 점수가 포함됩니다. 열의 기본 이름은 Term 및 Score입니다. 입력의 텍스트 열이 다양한 용어를 포함할 수 있기 때문에 용어 추출 변환의 출력에는 일반적으로 입력보다 많은 수의 행이 포함됩니다.

추출된 용어가 테이블에 기록되는 경우 이를 용어 조회, 유사 항목 조회, 조회 변환과 같은 다른 조회 변환에서 사용할 수 있습니다.

용어 추출 변환은 DT_WSTR 또는 DT_NTEXT 데이터 형식을 가진 열의 텍스트에서만 작동할 수 있습니다. 열에 텍스트가 포함되어 있지만 이러한 데이터 형식 중 하나를 가지지 않은 경우 데이터 변환을 사용하여 데이터 흐름에 DT_WSTR 또는 DT_NTEXT 데이터 형식의 열을 추가하고 열 값을 새 열에 복사할 수 있습니다. 그런 다음 데이터 변환의 출력을 용어 추출 변환에 대한 입력으로 사용할 수 있습니다. 자세한 내용은 Data Conversion Transformation을 참조하세요.

제외 용어

선택적으로 용어 추출 변환은 데이터 집합에서 용어를 추출할 때 건너뛸 수 있는 용어를 의미하는 제외 용어가 포함된 테이블의 열을 참조할 수 있습니다. 이는 특정 비즈니스 및 업계에서 용어 집합이 이미 중요하지 않은 것으로 식별된 경우에 유용합니다. 일반적으로 해당 용어가 의미 없는 단어인 경우가 많기 때문입니다. 예를 들어 특정 자동차 브랜드에 대한 고객 지원 정보가 포함된 데이터 집합에서 용어를 추출하는 경우 의미를 갖기에는 너무 자주 언급되기 때문에 브랜드 이름 자체가 제외될 수 있습니다. 따라서 제외 목록의 값은 사용 중인 데이터 집합에 맞게 사용자 지정되어야 합니다.

제외 목록에 용어를 추가하는 경우 해당 용어가 포함된 모든 단어 또는 명사구도 제외됩니다. 예를 들어 제외 목록에 단일 단어 data가 포함된 경우 data, data mining, data integrity, data validation과 같이 이 단어가 포함된 모든 용어도 제외됩니다. data를 포함하는 복합어만 제외하려는 경우에는 제외 목록에 해당 복합 용어를 명시적으로 추가해야 합니다. 예를 들어 data의 빈도를 추출하지만 data validation을 제외하려는 경우 제외 목록에 data validation을 추가하고 제외 목록에서 data가 제거되었는지 확인합니다.

참조 테이블은 SQL Server 또는 Access 데이터베이스의 테이블이어야 합니다. 용어 추출 변환은 별도의 OLE DB 연결을 사용하여 참조 테이블에 연결합니다. 자세한 내용은 OLE DB 연결 관리자를 참조하세요.

용어 추출 변환은 완전히 미리 캐시된 모드에서 작동합니다. 용어 추출 변환은 런타임에 참조 테이블로부터 제외 용어를 읽고 변환 입력 행을 처리하기 전에 이를 프라이빗 메모리에 저장합니다.

텍스트에서 용어 추출

텍스트에서 용어를 추출하기 위해 용어 추출 변환은 다음 작업을 수행합니다.

단어 식별

먼저 용어 추출 변환은 다음 작업을 수행하여 단어를 식별합니다.

공백, 줄 바꿈 및 기타 영어에서 사용되는 단어 종료 문자를 사용하여 텍스트를 여러 단어로 구분합니다. 예를 들어, ? 및 :과 같은 문장 부호는 단어를 구분하는 문자입니다.
하이픈이나 밑줄로 연결된 단어는 그대로 유지합니다. 예를 들어 copy-protected 및 read-only라는 단어는 한 단어로 유지됩니다.
마침표가 포함된 머리글자어를 그대로 유지합니다. 예를 들어 A.B.C Company는 ABC와 Company로 토큰화됩니다.
특수 문자에서 단어를 분할합니다. 예를 들어 date/time이라는 단어에서는 date 및 time을 추출하고, (bicycle)에서는 bicycle을 추출하고, C#은 C로 처리됩니다. 특수 문자는 삭제되며 어휘화할 수 없습니다.
아포스트로피와 같은 특수 문자가 단어를 분할해서는 안 되는 경우를 인식합니다. 예를 들어 bicycle's라는 단어는 두 단어로 분할되지 않고 bicycle이라는 단일 용어(명사)를 생성합니다.
시간 식, 통화 식, 전자 메일 주소, 우편 주소를 분할합니다. 예를 들어 January 31, 2004라는 날짜는 January, 31, 2004라는 세 가지 토큰으로 구분됩니다.

태그가 지정된 단어

둘째, 용어 추출 변환은 다음과 같은 문장 요소 중 하나로 단어를 분류합니다.

단수 형태의 명사. 예를 들면 bicycle 및 potato가 있습니다.
복수 형태의 명사. 예를 들면 bicycles 및 potatoes가 있습니다. 분류하지 않은 모든 복수 명사는 형태소 분석의 대상이 됩니다.
단수 형태의 고유 명사. 예를 들면 April 및 Peter가 있습니다.
복수 형태의 고유 명사. 예를 들면 Aprils 및 Peters가 있습니다. 고유 명사가 형태소 분석되기 위해서는 표준 영어 단어로 제한되는 내부 어휘집에 속해야 합니다.
형용사. 예를 들면 blue가 있습니다.
두 개의 사물을 비교하는 비교 형용사. 예를 들면 higher 및 taller가 있습니다.
적어도 두 개 이상의 사물보다 높거나 낮은 특성을 가진 사물을 식별하는 최상급 형용사. 예를 들면 highest 및 tallest가 있습니다.
숫자. 예를 들면 62 및 2004가 있습니다.

이러한 품사 중 하나가 아닌 단어는 삭제됩니다. 예를 들어 동사와 대명사는 삭제됩니다.

참고 항목

품사의 태그 지정은 통계 모델을 기반으로 하며 태그 지정이 완전히 정확하지 않을 수 있습니다.

용어 추출 변환이 명사만 추출하도록 구성된 경우 명사 및 고유 명사의 단수 또는 복수 형태로 태그가 지정된 단어만 추출됩니다.

용어 추출 변환이 명사구만 추출하도록 구성된 경우 명사, 고유 명사, 형용사 및 숫자로 분류된 단어가 조합되어 명사구가 될 수 있지만 명사구에는 명사 또는 고유 명사의 단/복수 형태로 분류된 단어가 적어도 하나 이상 들어 있어야 합니다. 예를 들어 highest mountain이라는 명사구는 최상급 형용사(highest)로 태그가 지정된 단어와 명사(mountain)로 태그가 지정된 단어를 결합합니다.

명사 및 명사구를 모두 추출하도록 용어 추출이 구성된 경우 명사 규칙과 명사구 규칙이 모두 적용됩니다. 예를 들어 변환은 many beautiful blue bicycles라는 텍스트에서 bicycle 및 beautiful blue bicycle을 추출합니다.

참고 항목

추출된 용어는 변환에서 사용되는 최대 용어 길이 및 빈도 임계값에 따라 유지됩니다.

형태소가 분석된 단어

용어 추출 변환은 또한 명사를 형태소 분석하여 명사의 단수 형태만 추출합니다. 예를 들어 변환은 men에서 man을, mice에서 mouse를, bicycles에서 bicycle을 추출합니다. 변환은 자체 사전을 사용하여 명사의 어간을 분석합니다. 동명사는 사전에 있는 경우 명사로 처리됩니다.

용어 추출 변환은 용어 추출 변환의 내부 사전을 사용하여 다음 예제에서와 같이 단어의 어간을 사전 형식에 맞춰 분석합니다.

명사에서 s를 제거합니다. 예를 들어 bicycles는 bicycle이 됩니다.
명사에서 es를 제거합니다. 예를 들어 stories는 story가 됩니다.
사전에서 불규칙 명사의 단수 형태를 검색합니다. 예를 들어 geese는 goose가 됩니다.

정규화된 단어

용어 추출 변환은 문장에서의 위치 때문에 대문자로 표시된 용어를 정규화하고 대신 대문자로 표시되지 않은 형식을 사용합니다. 예를 들어 Dogs chase cats 및 Mountain paths are steep라는 구에서 Dogs 및 Mountain은 dog 및 mountain으로 정규화됩니다.

용어 추출 변환은 대문자로 표시된 단어 버전과 대문자로 표시되지 않은 단어 버전이 다른 용어로 처리되지 않도록 단어를 정규화합니다. 예를 들어 You see many bicycles in Seattle 및 Bicycles are blue라는 텍스트에서 bicycles 및 Bicycles는 같은 용어로 인식되어 변환은 bicycle만 남깁니다. 내부 사전에 나열되지 않은 고유 명사와 단어는 정규화되지 않습니다.

대/소문자 구분 정규화

용어 추출 변환은 소문자를 사용한 단어와 대문자를 사용한 단어를 고유한 용어 또는 동일한 용어의 다른 변형으로 간주하도록 구성할 수 있습니다.

대/소문자의 차이를 인식하도록 변환이 구성된 경우 Method 및 method와 같은 용어는 두 개의 서로 다른 용어로 추출됩니다. 문장의 첫 번째 단어가 아닌 대문자로 표시된 단어는 기본 형태로 바뀌지 않으며 고유 명사로 분류됩니다.
변환이 대/소문자를 구분하지 않도록 구성된 경우 Method 및 method와 같은 용어는 단일 용어의 변형으로 인식됩니다. 추출된 용어 목록에는 입력 데이터 집합에 먼저 등장하는 단어에 따라 Method 또는 method가 포함될 수 있습니다. Method 가 문장의 첫 번째 단어이기 때문에 대문자로 표기된 경우에는 기본 형태로 바뀌어서 추출됩니다.

문장 및 단어 경계

용어 추출 변환은 다음 문자를 문장 경계로 사용하여 텍스트를 문장으로 구분합니다.

ASCII 줄 바꿈 문자 0x0d(캐리지 리턴) 및 0x0a(줄 바꿈). 이 문자를 문장 경계로 사용하려면 행에 줄 바꿈 문자가 두 개 이상 있어야 합니다.
하이픈(-). 이 문자를 문장 경계로 사용하려면 하이픈 왼쪽과 오른쪽의 문자가 모두 글자이면 안 됩니다.
밑줄(_). 이 문자를 문장 경계로 사용하려면 하이픈 왼쪽과 오른쪽의 문자가 모두 글자이면 안 됩니다.
0x19보다 작거나 같거나 0x7b보다 크거나 같은 모든 유니코드 문자.
숫자, 문장 부호, 사전순 문자의 조합입니다. 예를 들어 A23B#99 는 용어 A23B를 반환합니다.
여기에는 문자, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", '가 포함됩니다.

참고 항목

하나 이상의 마침표(.)를 포함하는 머리글자어는 여러 문장으로 구분되지 않습니다.

그런 다음 용어 추출 변환은 다음 단어 경계를 사용하여 문장을 단어로 구분합니다.

Space
Tab
ASCII 0x0d(캐리지 리턴)
ASCII 0x0a(줄 바꿈)

참고 항목

we're 또는 it's와 같이 아포스트로피가 축약을 위해 단어에 사용된 경우 아포스트로피를 기점으로 단어를 나눕니다. 다르게는 아포스트로피 뒤의 문자를 자릅니다. 예를 들어 we're는 we 및 're로 나누고, bicycle's는 bicycle로 자릅니다.

용어 추출 변환 구성

텍스트 추출 변환은 내부 알고리즘 및 통계 모델을 사용하여 결과를 생성합니다. 용어 추출 변환을 여러 번 실행하여 결과를 검토하고 텍스트 마이닝 솔루션에 적합한 결과를 생성하도록 변환을 구성해야 할 수도 있습니다.

용어 추출 변환에는 하나의 일반 입력, 하나의 출력 및 하나의 오류 출력이 있습니다.

SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.

고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요.

속성을 설정하는 방법에 대한 자세한 내용은 데이터 흐름 구성 요소의 속성 설정을 참조하세요.

용어 추출 변환 편집기(용어 추출 탭)

용어 추출 변환 편집기 대화 상자의 용어 추출 탭을 사용하여 추출할 텍스트가 포함된 텍스트 열을 지정합니다.

옵션

사용 가능한 입력 열
확인란을 사용하여 용어 추출에 사용할 단일 텍스트 열을 선택합니다.

기간
추출된 용어를 포함할 출력 열의 이름을 입력합니다.

점수
추출된 각 용어에 대한 점수를 포함할 출력 열의 이름을 지정합니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 유발하는 행에 대한 오류 처리를 지정합니다.

용어 추출 변환 편집기(제외 탭)

용어 추출 변환 편집기 대화 상자의 제외 탭을 사용하여 제외 테이블에 대한 연결을 설정하고 제외 용어를 포함하는 열을 지정할 수 있습니다.

옵션

제외 용어 사용
제외 용어를 포함하는 열을 지정하여 용어 추출 중 특정 용어를 제외할지 여부를 나타냅니다. 용어를 제외하고자 하는 경우 다음 원본 속성을 지정해야 합니다.

OLE DB 연결 관리자
기존 OLE DB 연결 관리자를 선택하거나 새로 만들기를 클릭하여 새 연결을 만듭니다.

새로 만들기
OLE DB 연결 관리자 구성 대화 상자를 사용하여 데이터베이스에 대한 새 연결을 만듭니다.

테이블 또는 뷰
제외 용어를 포함하는 테이블 또는 뷰를 선택합니다.

열
제외 용어를 포함하는 테이블 또는 뷰의 열을 선택합니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 유발하는 행에 대한 오류 처리를 지정합니다.

용어 추출 변환 편집기(고급 탭)

용어 추출 변환 편집기 대화 상자의 고급 탭을 사용하여 빈도, 길이, 단어 또는 구 추출 여부와 같은 추출 속성을 지정합니다.

옵션

명사
변환에서 개별 명사만 추출하도록 지정합니다.

명사구
변환에서 명사구만 추출하도록 지정합니다.

명사 및 명사구
변환에서 명사 및 명사구를 모두 추출하도록 지정합니다.

빈도
점수를 용어의 빈도로 지정합니다.

TFIDF
점수를 용어의 TFIDF 값으로 지정합니다. TFIDF 점수는 TF(용어 빈도)와 IDF(역 문서 빈도)의 곱으로, 용어 T의 TFIDF = (T의 빈도) * log((입력의 행 수)/(T를 포함하는 행 수))와 같이 정의됩니다

빈도 임계값
단어 또는 구를 추출할 때까지 발생해야 하는 횟수를 지정합니다. 기본값은 2입니다.

최대 용어 길이
단어에서 구의 최대 길이를 지정합니다. 이 옵션은 명사구에만 영향을 줍니다. 기본값은 12입니다.

대/소문자 구분 용어 추출 사용
추출에서 대/소문자를 구분할지 여부를 지정합니다. 기본값은 False입니다.

오류 출력 구성
오류 출력 구성 대화 상자를 사용하여 오류를 유발하는 행에 대한 오류 처리를 지정합니다.

참고 항목

Integration Services 오류 및 메시지 참조
용어 조회를 변환

다음을 통해 공유

용어 추출 변환

추출된 용어 및 데이터 형식

제외 용어

텍스트에서 용어 추출

단어 식별

태그가 지정된 단어

형태소가 분석된 단어

정규화된 단어

대/소문자 구분 정규화

문장 및 단어 경계

용어 추출 변환 구성

용어 추출 변환 편집기(용어 추출 탭)

옵션

용어 추출 변환 편집기(제외 탭)

옵션

용어 추출 변환 편집기(고급 탭)

옵션

참고 항목

피드백

추가 리소스