直播预告|ACL 2020最佳论文|不止于准确性:使用CheckList为NLP模型的进行行为测试...
Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
2020年7月29日 20:00-21:00
NLP模型最常见的评估方式——留出法 (held-out)——通常会会高估模型的泛化能力 (generalization);而现有的其他评估方法通常只针对某一特定任务或某种特定的模型行为。
受软件工程行为测试原理的启发,讲者及其团队提出一种全新的NLP模型测试方法CheckList。作为一种模型测试框架,CheckList将行为测试抽象为一个独立于具体任务的模型性能x测试类型的矩阵,让用户可以通过填表全方位地设计、构想各种测试。
作为一个开源软件,CheckList也提供了包括可视化、填词建议等实用组件,帮助用户快速生成大量和多样化的测试用例。在用户实验中,使用CheckList的用户发现的模型错误几乎是没使用它的用户的三倍;更有趣的是,通过与微软情感分析的工程组的合作,CheckList对于已经被认为是经过了大规模测试过的商业化模型仍然非常有效。
这篇论文拿到ACL 2020的最佳论文奖,并已经开源: https://github.com/marcotcr/checklist。在本次分享中,吴彤霜也会介绍作者们在模型评估方面做出的一些其他尝试。
直播时间:
2020年7月29日 20:00-21:00
嘉宾简介:
吴彤霜,本科毕业于香港科技大学,目前在华盛顿大学读博士四年级,导师为Jeffrey Heer和Dan Weld。主要研究方向是通过结合人机交互的技术,来探索和改进自然语言处理模型的训练和评估步骤,最终帮助用户更有效、系统地与他们的模型进行交互。
划重点
!
直播通道:
哔哩哔哩直播通道
扫码或点击链接
关注AITIME哔哩哔哩官方账号
观看直播
链接:https://live.bilibili.com/21813994
直播结束后我们会邀请讲者在微信群中与大家答疑交流,请添加“AI TIME小助手(微信号:AITIME_HY)”,回复“nlp”,将拉您进“AI TIME PhD自然语言处理交流群”!
AI TIME微信小助手
联合支持:中国工程院知领直播、学堂在线、****
公益合作:智谱·AI、学术头条、biendata、大数据文摘、数据派、AI科技评论、 Ever链动
清华情怀·AITIME基地
1911主题餐厅
待疫情结束,AI TIME期待与您线下相聚!
AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至[email protected]!
微信联系:AITIME_HY
AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。
更多资讯请扫码关注