의미 체계 언어 모델 이해

완료됨

NLP에 대한 최첨단이 발전함에 따라 토큰 간의 의미 체계 관계를 캡슐화하는 모델을 학습시키는 기능이 강력한 딥 러닝 언어 모델의 출현으로 이어졌습니다. 이러한 모델의 핵심은 언어 토큰을 포함이라고 하는 벡터(숫자의 다중값 배열)로 인코딩하는 것입니다.

벡터는 여러 축을 따라 방향과 거리를 설명하는 다차원 공간의 선을 나타냅니다. 전반적으로 벡터는 원점에서 끝까지 경로의 방향과 거리를 설명합니다. 의미상 유사한 토큰은 방향을 비슷한 벡터로 만들어야 합니다. 즉, 동일한 방향을 가리킵니다. 간단한 예로, 토큰에 대한 임베딩이 다음과 같이 세 개의 요소로 이루어진 벡터로 구성된다고 가정해 봅시다.

- 4 ("dog"): [10,3,2]
- 8 ("cat"): [10,3,1]
- 9 ("puppy") [5,2,1] 
- 10 ("skateboard"): [-3,3,2]

3차원 공간에서 이러한 벡터는 다음과 같습니다.

3차원 공간에 그려진 토큰의 다이어그램입니다.

"개"와 "강아지"에 대한 포함 벡터는 "고양이"의 방향과 매우 유사한 거의 동일한 방향을 따라 경로를 설명합니다. 그러나 "스케이트 보드"에 대한 포함 벡터는 매우 다른 방향으로 여행을 설명합니다.

업계에서 사용하는 언어 모델은 이러한 원칙을 기반으로 하지만 복잡성이 더 큽니다. 예를 들어 사용되는 벡터에는 일반적으로 더 많은 차원이 있습니다. 또한 지정된 토큰 집합에 대한 적절한 포함을 계산할 수 있는 여러 가지 방법이 있습니다. 메서드가 다르면 자연어 처리 모델과 예측이 다릅니다.

대부분의 최신 자연어 처리 솔루션에 대한 일반화된 보기는 다음 다이어그램에 나와 있습니다. 원시 텍스트의 큰 모음은 토큰화되고 다양한 유형의 자연어 처리 작업을 지원할 수 있는 언어 모델을 학습시키는 데 사용됩니다.

텍스트를 토큰화하고 자연어 처리 작업을 지원하는 언어 모델을 학습하는 프로세스의 다이어그램입니다.

텍스트 분류를 위한 기계 학습

또 다른 유용한 텍스트 분석 기술은 로지스틱 회귀와 같은 분류 알고리즘을 사용하여 알려진 분류 집합을 기반으로 텍스트를 분류하는 기계 학습 모델을 학습시키는 것입니다. 이 기술의 일반적인 적용은 감정 분석 또는 의견 마이닝을 수행하기 위해 텍스트를 긍정 또는 부정으로 분류하는 모델을 학습시키는 것입니다.

예를 들어 이미 0(부정) 또는 1(긍정)로 레이블이 지정된 다음 식당 리뷰를 고려해 보세요.

- *The food and service were both great*: 1
- *A really terrible experience*: 0
- *Mmm! tasty food and a fun vibe*: 1
- *Slow service and substandard food*: 0

레이블이 지정된 리뷰가 충분하면 토큰화된 텍스트를 기능 으로 사용하고 감정(0 또는 1)을 레이블로 사용하여 분류 모델을 학습시킬 수 있습니다. 모델은 토큰과 감정 간의 관계를 캡슐화합니다(예: ). "great", "tasty"또는 "fun" 같은 단어에 대한 토큰을 사용한 리뷰는 1(긍정)의 감정을 반환할 가능성이 더 높으며, "terrible", "slow""substandard" 같은 단어가 있는 리뷰는 0(부정)을 반환할 가능성이 높습니다.