NLP에 대한 통계 기술 이해
NLP(자연어 처리)의 기초를 형성하는 두 가지 중요한 통계 기법은 Naïve Bayes 및 용어 빈도 - 역 문서 빈도 (TF-IDF)입니다.
Naïve Bayes에 대한 이해
Naïve Bayes 는 전자 메일 필터링에 처음 사용된 통계 기법입니다. 스팸과 스팸이 아닌 스팸의 차이점을 알아보기 위해 두 문서를 비교합니다. Naïve Bayes 분류자는 스팸으로 레이블이 지정된 전자 메일과 상관 관계가 있는 토큰을 식별합니다. 즉, 이 기술은 한 형식의 문서에서만 발생하는 단어 그룹을 찾습니다. 다른 형식에서는 발생하지 않습니다. 단어 그룹은 주로 bag-of-words 기능이라고 불린다.
예를 들어 단어 miracle cure, lose weight fast및 anti-aging 일반 이메일보다 모호한 건강 제품에 대한 스팸 전자 메일에 더 자주 나타날 수 있습니다.
Naïve Bayes는 텍스트 분류에 대한 간단한 규칙 기반 모델보다 더 효과적인 것으로 판명되었지만 단어 또는 토큰의 존재(위치가 아님)만 고려되었기 때문에 비교적 초보적이었습니다.
TF-IDF에 대한 이해
용어 빈도 - TF-IDF(역 문서 빈도) 기술은 한 문서에 있는 단어의 빈도와 전체 문서 모음의 단어 빈도를 비교한다는 점에서 비슷한 접근 방식을 사용했습니다. 단어가 사용되는 컨텍스트를 이해하면 특정 항목에 따라 문서를 분류할 수 있습니다. TF-IDF 검색할 상대 단어 또는 토큰을 이해하는 데 도움이 되도록 정보 검색에 자주 사용됩니다.
비고
NLP의 컨텍스트에서 코퍼스 는 기계 학습 작업에 사용되는 크고 구조화된 텍스트 문서 컬렉션을 나타냅니다. Corpora(복수의 코퍼스)는 다양한 NLP 모델을 학습, 테스트 및 평가하기 위한 필수 리소스 역할을 합니다.
예를 들어 단어를 "we choose to go to the moon"토큰화한 후에는 일부 분석을 수행하여 각 토큰의 발생 횟수를 계산할 수 있습니다. 가장 일반적으로 사용되는 단어(, "a"등과 같은 "the" 중지 단어 외에)는 종종 텍스트 모음의 주요 주제에 대한 단서를 제공할 수 있습니다. 예를 들어 이전에 고려한 "go to the moon" 음성의 전체 텍스트에서 가장 일반적인 단어에는 "new", "go", "space"및 "moon"포함됩니다. 텍스트를 bi-grams(단어 쌍)로 토큰화하려는 경우, 음성에서 가장 흔한 bi-gram은 "the moon"입니다. 이 정보에서 텍스트가 주로 우주 여행과 달로 가는 것과 관련이 있다고 쉽게 추측 할 수 있습니다.
단순히 각 토큰의 발생 횟수를 계산하는 간단한 빈도 분석은 단일 문서를 분석하는 효과적인 방법이 될 수 있지만, 동일한 모음 내의 여러 문서를 구분해야 하는 경우 각 문서에서 가장 관련성이 큰 토큰을 확인하는 방법이 필요합니다. TF-IDF 는 전체 문서 컬렉션에서 보다 일반적인 빈도와 비교하여 한 문서에 단어 또는 용어가 표시되는 빈도를 기준으로 점수를 계산합니다. 이 기법을 사용하면 특정 문서에 자주 표시되지만 다른 문서의 범위에서 상대적으로 드물게 나타나는 단어에 대해 높은 수준의 관련성이 있다고 가정합니다.
다음으로, 오늘날의 의미 체계 모델을 만드는 데 사용되는 딥 러닝 기술을 살펴보겠습니다.