NLP伪原创技术要知道的三个概念

如今人工智能已经发展到一定程度了,对于NLP技术来说,更是一个新阶段,今天谈下NLP伪原创技术要知道的三个概念。

NLP伪原创技术要知道的三个概念

一、什么是文本挖掘?

文本挖掘是基于文本信息进行知识发现的信息挖掘研究分支。文本挖掘的准备包括三个步骤:文本收集,文本分析和特征修剪。目前,已经有几种文本挖掘技术被研究和应用得最为频繁:文档聚类,文档分类和抽象提取。
一个比较先进的AI伪原创:小发猫 一键生成原创文章

二、什么是自然语言处理?

自然语言处理是计算机科学和人工智能领域的重要方向。它研究了使用自然语言进行人与计算机之间有效沟通的理论和方法。将语言学,计算机科学和数学融入一门科学。
自然语言处理原则:形式描述 - 数学模型算法化 - 程序化 - 实用
自动合成和识别语音,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动汇总等。
参考资料:


三、普通中文分词?

中文文字和文字不像英文那样用空格隔开。因此,许多中文文本操作涉及切词。这里安排了一些中文分词工具。
斯坦福NLP(直接使用CRF的方法,特征窗口为5)。中文分词工具(个人推荐)
  1. HIT语言云
  2. 庖丁解牛分词
  3. 盘古分词ICTCLAS(中国科学院)中文词汇分析系统
  4. IKAnalyzer(在Luence项目下,基于java)
  5. 复旦大学(复旦大学)