摘要

在本学习模块中，我们介绍了自然语言处理的所有基础知识，从文本表示形式到传统的循环网络模型。本模块是让你开始任何自然语言任务的入门课程，我们希望你现在能够毫不担心地处理任何 NLP 问题。

你学习了以下主要方面：

我们主要关注文本分类任务。若要继续学习 NLP 领域，应尝试一些其他功能，例如命名实体识别、机器翻译或问题解答。若要实现这些任务，可以使用相同的基本原理或循环网络，只是这些网络的顶层体系结构有所不同。

若要拓展知识并深入了解 NLP，可以探索以下新兴主题：

注意机制和转换器：转换器模型使用位置编码和注意机制，而不是将每个上一单元的上下文转发到下一个评估步骤。此方法会忽略输入顺序，以捕获序列中每个单词之间的上下文关系。这是一种学习了解文本序列中每个单词的上下文的新兴方法。它不会在我们在 RNN 中看到的长序列中丢失上下文。此外，它可以在并行处理而不是顺序 RNN 模型中学习。
BERT：BERTology 从转换器提供预先训练的模型。这是一种经过训练的强大方法，可以预测下一句话。它通过学习单词的上下文嵌入，将文本转换为数字表示形式。
GPT-3：GPT-3 是与 BERT 略微不同的最新文本生成模型。该模型可以进行“编程”，以通过为文本生成提供合适的“初始序列”来解决不同的任务。这可能导致范例转变，在这种情况下，我们将专注于为预先训练的大型网络创建合适的问题，而不是进行迁移学习训练。若要真正了解 NLP，可能需要探索一些最新的文本生成模型，例如 GPT-3 或 Microsoft 图灵 NLG。

训练此类大型模型需要进行大量工作，并且需要以分布式方式完成。如果要计划任何重要 NLP 项目，还需要重点关注分布式训练。非常有必要查看 Azure 机器学习。

现在，你已了解了使用神经网络概念进行机器学习的一些基础知识，我们邀请你继续学习 PyTorch 基础知识学习路径，并了解更多信息：

提示

要打开超链接，请单击右键并选择“在新选项卡或窗口中打开”。这样就可以查看资源，然后轻松返回到本模块。

祝学习愉快！

反馈