自然语言处理综述

摘自文章

本文从两篇论文出发先简要介绍了自然语言处理的基本分类和基本概念,再向读者展示了深度学习中的 NLP。这两篇论文都是很好的综述性入门论文,希望详细了解自然语言处理的读者可以进一步阅读这两篇论文。

第一部分介绍了自然语言处理的基本概念,作者将 NLP 分为自然语言理解和自然语言生成,并解释了 NLP 过程的各个层级和应用。

第二描述的是基于深度学习的 NLP,该论文首先描述了深度学习中的词表征(word embedding),即从 one-hot 编码、词袋模型到词嵌入和 word2vec 等,我们首先需要数字表征词汇才能进一步做自然语言处理。随后,本论文介绍了各种应用于 NLP 的模型,包括卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆(LSTM)和门控循环神经网络(GRU)等,这一些模型加上其它如注意力机制(Attention)那样的技巧就能实现十分强大的能力,如机器翻译、问答系统和情感分析等。

概念基础

语言可以被定义为一组规则或符号。我们会组合符号并用来传递信息或广播信息。
NLP 基本上可以分为两个部分,即自然语言理解和自然语言生成,它们演化为理解和生成文本的任务(图 1)。
自然语言处理综述

NLP研究任务:

  • 自动摘要
  • 指代消解(Co-Reference Resolution)
  • 语篇分析
  • 机器翻译
  • 语素切分(Morphological Segmentation)
  • 命名实体识别(NER)
  • 光学字符识别
  • 词性标注(POS)
  • 情感分析等

NLP 的应用

  • 机器翻译
  • 文本分类
  • 垃圾邮件过滤
  • 信息提取
  • 自动摘要
  • 对话系统
  • 医疗