摘要

已完成

在本学习模块中,我们介绍了自然语言处理的所有基础知识,从文本表示形式到传统的循环网络模型。 本模块是让你开始任何自然语言任务的入门课程,我们希望你现在能够毫不担心地处理任何 NLP 问题。

你学习了以下主要方面:

  • 如何基于词汇将文本标记化为单词标记
  • 使用词袋或 TF-IDF 将标记索引更改为向量的不同方法
  • 如何在使用填充或偏移时使用嵌入模型将单词存储在词汇查找向量中
  • 如何使用 RNN 神经网络生成用于文本分类的模型

我们主要关注文本分类任务。 若要继续学习 NLP 领域,应尝试一些其他功能,例如命名实体识别、机器翻译或问题解答。 若要实现这些任务,可以使用相同的基本原理或循环网络,只是这些网络的顶层体系结构有所不同。

若要拓展知识并深入了解 NLP,可以探索以下新兴主题:

  • 注意机制和转换器:转换器模型使用位置编码和注意机制,而不是将每个上一单元的上下文转发到下一个评估步骤。 此方法会忽略输入顺序,以捕获序列中每个单词之间的上下文关系。 这是一种学习了解文本序列中每个单词的上下文的新兴方法。 它不会在我们在 RNN 中看到的长序列中丢失上下文。 此外,它可以在并行处理而不是顺序 RNN 模型中学习。
  • BERT:BERTology 从转换器提供预先训练的模型。 这是一种经过训练的强大方法,可以预测下一句话。 它通过学习单词的上下文嵌入,将文本转换为数字表示形式。
  • GPT-3:GPT-3 是与 BERT 略微不同的最新文本生成模型。 该模型可以进行“编程”,以通过为文本生成提供合适的“初始序列”来解决不同的任务。 这可能导致范例转变,在这种情况下,我们将专注于为预先训练的大型网络创建合适的问题,而不是进行迁移学习训练。 若要真正了解 NLP,可能需要探索一些最新的文本生成模型,例如 GPT-3Microsoft 图灵 NLG

训练此类大型模型需要进行大量工作,并且需要以分布式方式完成。 如果要计划任何重要 NLP 项目,还需要重点关注分布式训练。 非常有必要查看 Azure 机器学习

现在,你已了解了使用神经网络概念进行机器学习的一些基础知识,我们邀请你继续学习 PyTorch 基础知识学习路径,并了解更多信息:

提示

要打开超链接,请单击右键并选择“在新选项卡或窗口中打开”。 这样就可以查看资源,然后轻松返回到本模块。

祝学习愉快!