言語モデルの違いを理解する
今日、開発者はモデルをゼロからトレーニングする必要はありません。 生成型 AI アプリケーションを構築するには、事前トレーニング済みのモデルを使用できます。 一部の言語モデルはオープンソースであり、一般公開されています。 その他は独自のカタログで提供されています。 現在、モデルは異なり、トレーニングに使用される特定のデータや、アーキテクチャ内での注意の実装方法によってほとんど異なります。
大小の言語モデル
一般に、言語モデルは、 大規模言語モデル (LLM) と 小言語モデル (SLB) の 2 つのカテゴリで考慮できます。
大規模言語モデル (LLM) | 小規模言語モデル (SMM) |
---|---|
LLM は、幅広い一般的な主題を表す膨大な量のテキストでトレーニングされます。通常は、インターネットやその他の一般公開されている出版物からデータをソーシングします。 | SLB は、より小さい、より主題に重点を置いたデータセットを使用してトレーニングされます |
トレーニングすると、LLM には数十億 (数兆もの) パラメーターがあります (予測されたトークン シーケンスを計算するためにベクター埋め込みに適用できる重み)。 | 通常、パラメーターの数は LLM よりも少なくなります。 |
幅広い会話コンテキストで包括的な言語生成機能を発揮できます。 | この集中したボキャブラリは、特定の会話トピックでは効果的ですが、より一般的な言語の生成では効果が低くなります。 |
サイズが大きいとパフォーマンスに影響を与え、デバイスやコンピューターにローカルに展開するのが困難になる可能性があります。 | SLB のサイズが小さいほど、デバイスやオンプレミスコンピューターへのローカル展開など、展開のオプションが増える可能性があります。より迅速かつ簡単に微調整できます。 |
より多くのデータを使用してモデルを微調整して、その対象の専門知識をカスタマイズすると、時間がかかり、追加のトレーニングを実行するために必要なコンピューティング能力の面でコストがかかる場合があります。 | 微調整は、時間とコストが削減される可能性があります。 |