自然语言处理笔记8-哈工大 关毅

目录

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

问答系统基础一

IBM这个人,蓝色巨人,硅谷海盗。
Watson 对话系统,doing。
老师自我吐槽,扯淡时间多于工作的时间。
问答系统基本概念。
问答的简史:问答的所有问题?
1机器翻译2语音识别3数据库
自然语言控制机器人动作,积木世界。
LUNAR系统。
扩充知识转移网络进行句法分析。
LIFER系统
CHAT-80系统
START系统
MURAX系统
AskFeeres系统
人肉高科技,人工恢复问题
十万篇相关文档分析,相关问题答案未实现。

问答系统基础二

在各个步骤,建立统计分类模型。
问答式信息检索。
自然语言处理笔记8-哈工大 关毅
会议检索,评测技术平台,check。
1问句处理?
2海量答案对应?
3事实性陈述即可解决

问答系统术语

问题类型 question type
答案类型 answer type
问句焦点 question focus
问句主题 question topic
候选段落 candidate passage
候选答案 candidate answer
答案所属类别,最型问题,观点问题,因果类问题,事实类问题
问句对应的目标类型。

问答系统基础三

2008年,认识到自己目前做的和想做的距离有多大。
焦点:实体的属性。
主题:讨论的实体。
自然语言处理笔记8-哈工大 关毅
候选段落:由搜索引擎响应用户问句而检索得到的文本片段。
候选答案:可能的答案
{1找到候选段落2与问句匹配并检查段落的语义3抽取答案}
{1相似段落2语义匹配法3语法匹配法}
智能化信息检索结构图
语法,语义,专业知识库
元搜索,满足确切的未知的点。

问答系统基础四

网页重复太多(一些搜索引擎死了,百度活下来了)
工程问题细节超多,这才是你的生命线。
自然语言处理笔记8-哈工大 关毅
数据库索引技术,PAT树,B+树,哈希树,My SQL
智能化信息,检索模型。
{布尔,向量空间,概率模型}
基于结构映射理论的新型信息,检索模型,系统相似模型。
向量空间模型的本源理论模型,通用性理论模型。
自然语言处理技术:各个技术的综合。
完善自己的理论,做应用课题。
原创理论时代。复杂性,精度是冲突的。
问答式基础理论。

问答系统基础五

项目研究进展报告提纲:
1开放域问答系统概要设计
2工作进展与展望
3主要阶段性成果
4总结
自然语言处理笔记8-哈工大 关毅用户层:用户交互,语言分析识别,个性化信息。
最终肯定要个性化发展。
机器学习,ranking结果
NLP+NLG。
三层体系,四层系统。
自然语言处理笔记8-哈工大 关毅语义层,用户层,强化学习技术。