瞭解語意語言模型
隨著 NLP 技術的進步,能夠訓練出表達詞彙之間語義關係的模型,導致強大的深度學習語言模型的出現。 這些模型的核心是將語言標記編碼為向量(數位的多值陣列)稱為 內嵌。
向量代表多維度空間中的線條,描述沿著多個軸的方向和距離。 整體而言,向量描述從原點到終點的路徑方向和距離。 語意上類似的標記應該會產生具有類似方向的向量,換句話說,它們指向相同的方向。 例如,假設標記的內嵌是由具有三個元素的向量所組成,例如:
- 4 ("dog"): [10,3,2]
- 8 ("cat"): [10,3,1]
- 9 ("puppy") [5,2,1]
- 10 ("skateboard"): [-3,3,2]
在三維空間中,這些向量看起來像這樣:
「狗」和「小狗」的內嵌向量描述沿著幾乎完全相同的方向路徑,這與“貓”的方向也相當類似。 然而,「滑板」的內嵌向量卻以非常不同的方向描述旅程。
我們在產業中使用的語言模型是以這些原則為基礎,但複雜度更高。 例如,使用的向量通常有更多的維度。 您也可以使用多種方式來計算一組指定令牌的適當內嵌。 不同的方法會產生與自然語言處理模型不同的預測。
下圖顯示大部分新式自然語言處理解決方案的一般化檢視。 原始文字的大型主體已標記化,並用來定型語言模型,其可支援許多不同類型的自然語言處理工作。
文字分類的機器學習
另一種實用的文字分析技術是使用分類演算法,例如 羅吉斯回歸,來定型機器學習模型,以根據一組已知的分類來分類文字。 這項技術的常見應用是將文字分類為 正面 或 負面 的模型,以執行 情感分析 或 意見採礦。
例如,請考慮下列餐廳評論,這些評論已標示為 0 (負面)或 1 (正面):
- *The food and service were both great*: 1
- *A really terrible experience*: 0
- *Mmm! tasty food and a fun vibe*: 1
- *Slow service and substandard food*: 0
使用足夠的標註評論,您可以使用標記化文字作為 特徵 和情感(0 或 1)標籤來訓練分類模型。 此模型會封裝標記和情感之間的關係,例如,帶有標記詞"great"、"tasty"或"fun"的評論更可能返回情感值為1(正面),而帶有詞"terrible"、"slow"或"substandard"的評論更可能返回0(負面)。