说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark
郭一璞 发自 中关村
量子位 报道 | 公众号 QbitAI
怎么才能方便的找自己需要的代码?
最好是能用人话来直接搜索、说什么就给什么那种。
Facebook刚刚发布了新benchmark和数据集,用于评估神经代码搜索模型。
比如在去年滑铁卢大学、Facebook和UC伯克利的研究者发布的NCS模型,还有MIT、Facebook和UC伯克利发布的UNIF这个模型上,都可以运行。
在这类模型上,给到一个自然语言的query,比如:
How can I convert a stack trace to a string?
如何将栈追踪转化为字符串?”
代码搜索模型就会在整个语料库里搜索相关的代码片段。
因此,Facebook此次推出的数据集包含以下三个部分:
总共包含3个部分:
GitHub存储库
由GitHub上近24549个星数最高的Android库的代码片段组成的搜索语料库,包含Python脚本。
搜索语料库
依靠前面的24549个库,解析其中的方法主体,总共包括4,716,814个。给到自然语言query后,代码搜索模型从中搜索出需要的代码片段。
每个方法主体已经给到了包括它的ID、文件路径、起始行、结束行、url等在内的相关信息。
评估数据集
包含287个堆栈溢出问答对,包括其ID、问题、答案url、答案几个部分,这些问题来自Stack Exchange。
在NCS和UNIF两个模型和他们的变体上的运行结果如下:
传送门
论文Neural Code Search Evaluation DatasetHongyu Li, Seohyun Kim, Satish Chandra
GitHub
NCS模型Retrieval on source code: a neural code searchSaksham Sachdev, Hongyu Li, Sifei Luan, Seohyun Kim, Koushik Sen, Satish Chandra
UNIF模型When Deep Learning Met Code SearchJose Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra
— 完 —
大会启幕!预见智能科技新未来
量子位MEET 2020智能未来大会启幕,将携手优秀AI企业、杰出科研人员呈现一场高质量行业盛会!详情可点击图片:
2019中国人工智能年度评选启幕,将评选领航企业、商业突破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优秀的AI公司扫码报名!
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !