まとめ

2 分

この学習モジュールでは、テキスト表現から従来の再帰型ネットワークモデルまで、自然言語処理のすべての基本事項について説明しました。これは、自然言語のタスクに取り組むための入門用のレッスンであり、学習者が NLP の問題に恐れることなく取り組むことができるようになることを願って準備されました。

次の重要な領域について学習しました。

ボキャブラリに基づいてテキストを単語トークンにトークン化する方法
Bag of Words または TF-IDF を使用してトークンインデックスをベクターに変更するさまざまな方法
埋め込みモデルを使用して、埋め込みやオフセットを使用しながらボキャブラリ検索用のベクターに単語を格納する方法
テキスト分類に RNN ニューラルネットワークを使用してモデルを構築する方法

主にテキスト分類タスクに焦点を当てています。 NLP フィールドの学習を続けるには、名前付きエンティティ認識、機械翻訳、質問応答など、他のいくつかの機能を実験してみる必要があります。そのタスクの実装には、同じ基本原則または再帰型ネットワークが使用されますが、それらのネットワークの一番上のレイヤーアーキテクチャが異なります。

NLP に関する知識を広げ、より深く学習するには、次の新しいトピックを調べることができます。

アテンションメカニズムとトランスフォーマー: トランスフォーマーモデルでは、前の各セルのコンテキストを次の評価ステップに転送する代わりに、位置エンコードとアテンションメカニズムを使用します。この手法では、シーケンス内の各単語間のコンテキスト関係をキャプチャする入力順序は無視されます。これは、テキストシーケンス内の各単語のコンテキストを理解するための新しい方法です。この手法では、RNN で見られる長いシーケンスでコンテキストが失われることはありません。また、シーケンシャル RNN モデルではなく並列処理で学習できます。
BERT: BERTology は、トランスフォーマーから事前トレーニング済みのモデルを提供します。これは、次のセンテンスを予測するようにトレーニングされた強力なメソッドです。これは、単語のコンテキスト埋め込みを学習することにより、テキストを数値表現に変換します。
GPT-3: GPT-3 は、BERT とは少し異なる最新のテキスト生成モデルです。このモデルは、テキスト生成に適した "初期シーケンス" を提供するだけで、さまざまなタスクを解決するように "プログラミング" できます。これにより、パラダイムシフトが発生する可能性があります。この場合、転移学習トレーニングを行う代わりに、事前にトレーニングされた巨大なネットワークに適した質問を作成することに重点を置いています。 NLP に真剣に取り組みたい場合は、GPT-3 や Microsoft Turing NLG などの最新のテキスト生成モデルのいくつかを調べる必要があります。

このような大規模なモデルをトレーニングするには多くの作業が必要であり、分散型の方法で行う必要があります。分散トレーニングは、真剣に NLP プロジェクトを計画している場合に焦点を当てる必要があるもう 1 つの領域です。 Azure Machine Learning を確認する価値は間違いなくあります。

ニューラルネットワークの概念を利用し、機械学習の基本を一部学習したので、「PyTorch 基礎ラーニングパス」に進み、さらに学習することをお勧めします。

ヒント

ハイパーリンクを開くには、右クリックして [新しいタブで開く] または [新しいウィンドウで開く] を選択します。この方法でリソースを確認し、簡単にモジュールに戻ることができます。

お楽しみください。

続行

フィードバック