言語モデルの違いを理解する

完了

今日、開発者はモデルをゼロからトレーニングする必要はありません。 生成型 AI アプリケーションを構築するには、事前トレーニング済みのモデルを使用できます。 一部の言語モデルはオープンソースであり、一般公開されています。 その他は独自のカタログで提供されています。 現在、モデルは異なり、トレーニングに使用される特定のデータや、アーキテクチャ内での注意の実装方法によってほとんど異なります。

大小の言語モデル

一般に、言語モデルは、 大規模言語モデル (LLM) と 小言語モデル (SLB) の 2 つのカテゴリで考慮できます。

大規模言語モデル (LLM) 小規模言語モデル (SMM)
LLM は、幅広い一般的な主題を表す膨大な量のテキストでトレーニングされます。通常は、インターネットやその他の一般公開されている出版物からデータをソーシングします。 SLB は、より小さい、より主題に重点を置いたデータセットを使用してトレーニングされます
トレーニングすると、LLM には数十億 (数兆もの) パラメーターがあります (予測されたトークン シーケンスを計算するためにベクター埋め込みに適用できる重み)。 通常、パラメーターの数は LLM よりも少なくなります。
幅広い会話コンテキストで包括的な言語生成機能を発揮できます。 この集中したボキャブラリは、特定の会話トピックでは効果的ですが、より一般的な言語の生成では効果が低くなります。
サイズが大きいとパフォーマンスに影響を与え、デバイスやコンピューターにローカルに展開するのが困難になる可能性があります。 SLB のサイズが小さいほど、デバイスやオンプレミスコンピューターへのローカル展開など、展開のオプションが増える可能性があります。より迅速かつ簡単に微調整できます。
より多くのデータを使用してモデルを微調整して、その対象の専門知識をカスタマイズすると、時間がかかり、追加のトレーニングを実行するために必要なコンピューティング能力の面でコストがかかる場合があります。 微調整は、時間とコストが削減される可能性があります。