AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」

关注:决策智能与机器学习,深耕AI脱水干货

AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」

者 |   王晋东

来源 |  王晋东不在家

导读:微软亚洲研究院大牛王晋东研究员分享多年研究心得,包括且不限于研究思想、工具和科研经验,非常干货,非常有用,非常推荐!

[作者简介]王晋东(不在家),中国科学院计算技术研究所博士,目前任微软亚洲研究院机器学习研究员。研究方向为机器学习、迁移学习、元学习等。推荐关注大牛的微信公众号(王晋东不在家)和知乎账号(王晋东不在家)。

一、如何进行文献调研?

文献调研是深入任何一个领域研究的第一步,在你的论文/项目申请书等文献中,一般是指相关工作/国内外研究现状等等。对于硕士,或者博士,或者任何一个专业人员,想快速入门自己的研究领域,他的导师/指导人员通常都会先让他对该领域进行一些调研。好的文献调研足以使自己站在这个领域的高峰,一览众山小,从而快速定位自己的研究点。

用一个形象的比喻来说,博士所做的研究好比是在一个圆上往外凸出一点,那么充分的文献调研就可以帮助你站在这个圆周上,从而才有往外凸出的可能。做不好调研,你永远都站在圆内,又如何往外凸?

从文献调研的内容、调研的方法以及整理总结的技巧三个方面来叙述。

什么是文献调研

文献调研包括,对调研对象的了解/定义,与调研对象相关的另一些名词的相关性总结,调研对象通常的发展/制造/计算方法,现有方法的优缺点,未来的展望等等。一般来说,按照这些方面进行调研,再配合广泛的调查手段,应该会事半功倍。

我们以「可穿戴设备」这一主题为例说明什么是文献调研。

(1)首先是「名词解释」,就是这个概念的「内涵」。什么是可穿戴设备?好,我们用必应/Google/Wiki可以搜索出一大堆解释,甚至在名人的博客、新闻里,都可以找到一些类似的定义。

(2)然后是这个概念的「外延」。穿戴设备包括哪些方面?这时候主要还是依靠搜索,中英文混合,我们可以找到很多类型的,比如手环、手表等。

(3)更进一步深入,它们都有哪些「优缺点」?这时候需要我们对调研得到的一些型号做针对性的调查,一般来源于官网、论坛、第三方机构等等。要注意,调研的结果一定要「注明出处」,做到有迹可循。

(4)概念理解了,继续延伸:未来的可穿戴设备是什么样的?可穿戴设备适用于怎样的场景?等等。这种展望的问题一般答案都会五花八门,我们挑那些「名人」说的、「有出处」的,可以做一些简单的总结。

(5)最后,用简短的话来总结一下这个主题,我们的调研就大概算是完成了。

调研的方法

通常拿到一个名词,我们倾向于先用「搜索引擎」。这里要着重提出,不要忽略「英文」搜索!很多时候,鉴于一种语言的表达能力有限,以及被调研产品的丰富性,用英文可以得到意想不到的收获呢。

如果自己觉得与理论/方法有关,要尝试调研相关的文献资料。如何调研文献参看第一帖。比如,要调研“非监督学习”,心里知道这是机器学习方面的一个大方向,则可以其中英文关键词分别进行文献检索。

「中英文专利」有时候也不要放过。

「市场」有关的,一定不要放过「*」的网站,以及一些*主导的「媒体」等的报道。它们往往是权威数字的出处。另外,可以关注本领域的「国际知名调查机构」的网站,从它们那里拿来的数据往往具有高可用性和说服力。

整理总结的技巧

哲学式思考总结。哲学的三个终极问题:「我是谁」「我从哪里来」「我到哪里去」(或者是「是什么」「为什么」「怎么办」),可以对调研结果进行直接调用,方便总结使用。

这里说几点要注意的:

  • 注重结果的「可视化」表现。一般来说,如果调研过程做的充分,那么调研到的结果将会是五花八门,文字,网页,表格,图表应有尽有。这里,如果能将结果呈现得比较完美,则对梳理调查结果和后期的分析很有作用。比如,参数多的,可以画表格比较;图片多的,可以做图文混合排版比较清晰;思路多的,可以用思维导图辅助呈现;等等。好的结果呈现是成功的一半。

  • 「出处要慎重」。如果必要,尽量从产品的官方网站中进行查阅。现有的网站五花八门,如果调研产品/信息相关,一定要从官方网站等公信力可靠的地方去查找,这样才能保证调研结果的真实可信性。

  • 优缺点填写要慎重。一般来说,我们会在写自己文章的相关工作时提到别人的工作,或者在写自己项目申请时提到国内外研究水平。在写别人研究现状时,用词一定要舒缓,虽然别人有不足,但是切记不可过于锋利,不能贬低别人的研究。要先承认别人工作的意义,然后委婉地指出其不足之处,并不过分地提出自己的改进。好的学术态度,审稿人也是喜闻乐见的,这体现了一个人的学术和道德修养。

二、怎么写文献综述?

几乎大多数学术论文、硕博士毕业论文等,都会在开头部分用或短或长的篇幅介绍本文的主要工作。通常这部分工作指的是Introduction,抑或是绪论、引言,我们统称为文献综述。

毫无疑问,文献综述是重要的,对于读者快速了解本文研究课题、内容框架与创新点至关重要。本文将从写作学术论文的角度,简要叙述一些写文献综述的技巧。

文献综述的组成

要想写好综述,首先要「了解」综述。文献综述通常来说,主要由「课题背景」「研究意义」「前沿工作」「自己工作创新」以及「文章结构介绍」几部分组成。

这几部分中,前沿工作可以通过大量的「调研」完成。自己的工作介绍和文章结构都是显而易见的。课题背景和研究意义通常是最不容易把握的。好的文献综述,要使读者读完之后,大致清晰地明白本文所研究的问题领域以及该领域目前的进展,并更加专注于作者所做的工作。

课题背景和研究意义

通常来说,最难写的这部分往往是修改多次最后写好的。我们把背景和意义看作是「故事」,它们的价值就在于,作者要通过简单的文字表达,向读者讲清楚自己所做工作的重要性(否则如果不重要,为什么还要做?)。

好的作者,一定是一个很会「讲故事」的人。写这部分时,可以由一个日常生活现象引出,可以由名人名言引出,可以由一个近期社会现象引出,可以开门见山写出,也可以由指出现有工作不足来引出;等等。

比如我们的研究课题是「睡眠监测」,那么完全可以这样开头

  • “充足的睡眠、均衡的饮食和适当的运动,是国际社会公认的三项健康标准。。。”;

  • 或者以一个现象开头“达特茅斯学院研究发现,每日睡眠时间多于6小时的学生,会比那些少于6小时的学生有更好的课堂表现”;

  • 或者直接说“XX在XX会议上2013年做的睡眠检测工作运用了头戴式脑电仪,大大增加了生活的不便性。我们研究非干扰的睡眠监测。。。”

讲好了故事,「说清楚了自己做什么」,这很重要。别以为这是微不足道的小事,有很多人不会写文章,读者读完之后根本不知道他是要干什么。能够把自己研究的问题讲清楚,是写好文章的第一要求。

前沿工作

这部分需要大量的「文献调研」工作,前面已经说过有关文献调研的内容。写这部分时,最好分类写,把现有工作自己做归类,每类举例说明其工作的「肯定之处与不足」,最后提出自己的工作「优点」

最好要「肯定」别人的工作,强调自己工作「创新性」。也可以由时间顺序引出,大致按照所在领域的时间顺序把工作一一列举即可。一定要「客观」地评价别人的工作。

自己的工作介绍

介绍完别人的工作,介绍自己工作可以说是轻车熟路。这时要注意,「强调」自己的contribution,最好分点写。如果经过大量文献调研确定自己是某一方面第一个做工作的,要强调这个「first(但是要保证一定是first)」

介绍自己工作时要简单明了,用概括的方式即可。方法部分通常伴随着实验部分,简单介绍实验的结果证明自己方法有效性即可。如果实验非常出彩(比如大数据、多用户)则可以作为创新点写。

文章结构介绍

这部分没有什么,直接写即可。


三、当我们在读论文时,我们在读些什么?

读文献,看论文,乃是研究生们的日常生活。面对浩如烟淼的文献海洋,如何有效地读论文,才能让你的科研事半功倍?

论文是科研的主要产物之一,也是我们跟踪科研最新进展的有效媒介。随着计算技术的进步与科研人群的极速增加,论文数也在逐年攀升。

以新冠疫情为例,下图展示了我们中国的科研人员在短短几个月内,围绕新冠疫情展开的研究而发表的论文:

AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」

发论文,首先要会读论文

高效地阅读论文,乃是高质量地撰写、发表论文的前提。为什么?

没有一定的「创新」肯定无法发表高质量的论文。所以什么是创新?

创新创造不是「凭空想象」,而是知识之间的「重新组合」。任何一种创新创意都是先把原有的常识从固定的布局中游离进去,然后在全新的系统中产生全新的体系,全新的知识结构。

不信你看:我们都知道,古埃及著名的斯芬克斯(sphinx)是一种可怕的怪物。但是斯芬克斯是个啥?就是狮身人面像呀!你知道狮子,也知道人,那它再可怕,也无非是这两种的组合呀!

计算机领域有一个非常经典的工作:深度残差网络ResNet,从2015年到现在已被引用超过几万次。ResNet的核心是一个skip connection,就是给普通的卷积加了一个跳跃的恒等变换。你看,都是已有的知识,为什么别人就能发表高影响力的文章?重点在于这个「巧妙的连接点」

所以:「当我们在读论文时,我们都在读些什么?」

入门阶段

入门阶段,读论文的主要目的是「看别人都在干啥」

在不知道要做啥,也就是所谓的「找方向」时,要多读文章:

  • 找一篇或几篇几个待选领域的综述(如果有),大致掌握不同领域的研究主题;

  • 了解一下国内外牛学校牛人,最近都在干啥;

  • 也了解一下,某一个方向,谁最牛;

  • 找方向一定要找国际主流的(能经常在顶会顶刊上出现的),不然你可能做多少年,这东西都只会停留在二流三流水平。

此阶段的建议是:「多读、速读」,而不是「精读」

初级阶段

入门了,有方向了,初级阶段的目的是「看别人是怎么干的」

你已经知道了你要做的研究主题,但是你一开始往往不知道怎么做。这时候,读论文可以让你了解,别人大概是怎么干的。

这个阶段,一般来说你基本上看到一篇文章,觉得这个文章,哪哪都好,无懈可击。心想:“我怎么没想到!真厉害!”这是很正常的。

所以这时候一定不能偷懒:

  • 找一篇或几篇本领域的综述(如果有),掌握本领域的核心问题和核心技术。

  • 不仅知道他大概是怎么干的,还要看明白,理解,不要白看!

  • 对于重要的和自己感兴趣的文章,尽量去推公式、跑实验、透彻理解。

  • 经常做笔记,归纳整理,对同一件事的不同做法,「分门别类」

此阶段的建议是:「多读」本领域的重点文章,配合一定的「精读」,有助于你快速了解这个领域的常用做法。还要注意多实践!

中级阶段

中级阶段,你对自己方向也有了一定了解,这时候的目的是「看别人为什么这么干」

「Motivation」这个东西是做研究最重要的。这就是那个巧妙的连接点

看明白别人怎么干以后,更重要的是:为什么这么干?虽然motivation这东西,不像是提出了一个方法那样比较吸引人,但是,这个才是做研究背后的道理。

怎么干是「术」,为什么这么干,才是「道」。也是在这时候,你之前看的那些所谓*文章,它们不管披着怎样的外衣,不管写得如何高深,你都能一眼看穿它们的「本质」

这时候你在读些什么?

  • 看看别人为什么要研究这个问题,为什么要这么做,这么做的道理在哪里,你觉得对不对?

  • 看看别人怎么写的论文,怎么「讲故事」。其实很多时候我们不是东西做的不到位,是在写法上欠缺火候。

什么时候能一眼看穿大多数论文的本质,你也就成功了一半。

高级阶段

经历了中级阶段,恭喜你终于到了高级阶段。这时候还看论文?对,「看别人哪没干或哪没干好」

到这一步,你基本上对于文章有了一个全面的理解,可以开始「填坑」了:

  • 看别人文章里干了啥,啥没干;

  • 或者是有没有可能扩展一下。他这个方法是同构的,我能不能做个异构?

  • 他这方法是A1+B1,我能不能搞个A2+B2,克服A1和B1的缺点?

这是最快出idea的时候了!当然,往往在这个时候,你再看别人的文章,就会有一种「不过如此」的感觉,一眼看过去,能找它七八个漏洞。

高级阶段主要不是读,而是「思考」行动

除了填坑,更重要也更有意思的是「挖坑」,也就是开拓一个较新领域,或者把已有方法应用于一个新领域解决一个新问题。

填坑是基本操作,你可以看到绝大多数论文都是填坑。挖坑的,就是大牛了!

每每到这个阶段,就要感叹国人的现状:大多数都是填坑,挖坑的实在太少!填坑很少填出大家,挖坑的才是领域的开山鼻祖。

比如在我们之前的文章VAE、GAN和流模型的区别和联系:对生成模型家族的分析里,对几大类生成模型都做了详细对比。这几大类模型无一例外都不是国人的作品:Transformer这类是Google的,GAN是Bengio团队,VAE是Max Welling团队,流模型则也是Bengio团队的。

希望今后有越来越多的挖坑作品吧。注意我们前不是说填坑不好,填坑填的好也是重磅作品。希望你不是一个平庸的填坑者。

神级阶段

你们发过的文章都是渣渣,我是说所有!这种级别的您就别读PhD了,您来指导我们读吧):

最后祝大家天天开心,论文多多!

四、推荐给研究僧们的好用工具集锦

时光匆匆,每个人都在前行。不变的是我们想提高效率、事半功倍的本心。本次整理了我在读博过程中,写论文、做PPT、写文档经常用的各种工具,每种都是我精挑细选试错以后留存的结果。特此分享给大家,希望大家在做这些事的时候,不要被工具扰乱思绪,全心全意扑在研究上,达到事半功倍的效果。

工具千万条,好用第一条。我们这里大多数工具均以用LaTex为例(用word的小伙伴可以选择性忽略)。我们将介绍以下工具软件:

  • 用于日常写LaTex的TexStudio

  • 用于制作LaTex表格的网站Tablesgenerator

  • 用于复制别人公式的Mathpix

  • 用于快速写LaTex数学公式的在线公式编辑器

  • 用于多人协作的Overleaf

  • 用于word和ppt的公式神器AxMath

  • 用于写markdown的Visual Studio Code

  • 用于画图的PPT(没错,就是PPT)

  • 用于论文查错的网站Grammarly

  • 用于PPT和论文画图的islide插件

先强调一下,萝卜青菜,各有所爱。我用的这些工具不代表是最好的,是我认为最满足我科研需求的。我并不是打广告哦。

用于日常写LaTex的TexStudio

TexStudio是一个开源LaTex编辑器,拥有最完整的编辑体验。最重要的是,安装完Tex内核以后,直接安装TexStudio即可使用,完全不用配置!我特别神烦那些需要各种配置的东西(对,说的就是用sublime和vscode的),既浪费时间,又没意义。

TexStudio是开源的跨平台软件,支持Windows、MacOS、Linux。有一个叫TexMate的软件与其很像,但是我体验过,没有TexStudio好用。TexStudio有个缺点就是没有内置好主题色彩,因此刚安装好是惨白色,对眼睛极不友好。我们可以在高级设置里自己更改配色。希望官方对内置主题的支持早日到来。

Tips:TexStudio在编译时,如果你已打开了该PDF则编译失败。那又不想每次都关了。这时候你需要神器sumatrapdf作为外部预览工具!

TexStudio下载地址:texstudio.org/

用于制作LaTex表格的网站Tablesgenerator

既然写论文,免不了要制作表格。LaTex表格语法又很冗长,非常不利于我们编写表格。我们的表格结果经常是放在Excel里的,有没有办法将Excel表格导出成LaTex?之前有一些插件,但都不好用。直到Tablesgenerator网站的出现。

你可以直接复制Excel中的内容粘贴到网站上,所有事情都解决了。网站还提供了一些简单的编辑功能。以我的研究经验来看,足够了。毕竟你不是要做一个超级复杂的表格。除此之外,该网站还支持导出Markdown、html等格式的表格,非常良心!

AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」
Tablesgenerator

Tablesgenerator网站地址:https://www.tablesgenerator.com

用于复制别人公式的Mathpix

很多时候我们需要借鉴(抄)别人已有的公式放到自己文章中,以进行二次修改。简单的还好,要是很复杂的话,写起来简直崩溃。这时候我们就需要一个能进行公式OCR的软件:截图或拍照,公式马上变成LaTex代码。

Mathpix就是完成这个任务的神器。你只需要下载安装,然后选中区域进行截图,该软件马上就会为你生成对应的LaTex代码。个人体验这么久,从来,是从来,没出错过!它是跨平台的,还有手机客户端,可以拍照识别。官网上还卖萌地放上了牛顿和爱因斯坦的评语,哈哈!

AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」
Mathpix

Mathpix下载地址:mathpix.com/

用于快速写LaTex数学公式的在线公式编辑器

很多时候我们只是想写个LaTex公式,不想新建工程-文件-编译。我就是想写个公式,放到word、ppt里。或者,我就是想验证一下我的代码对不对。这时候,你需要codecogs提供的在线LaTex公式网站。

该网站可以实时将LaTex代码转换为可见的公式,方便下载导出。

AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」

在线公式编辑器网址:codecogs.com/latex/eqne

用于多人协作的Overleaf

多个人写LaTex、改论文,如何同步?Overleaf是神器。不说了。

Overleaf网址:overleaf.com/

用于word和ppt的公式神器AxMath

如果我们在word和ppt中有书写公式的要求,可以使用AxMath。它支持所见即所得,也支持写LaTex代码转换为公式。在淘宝有卖,作者是一位浙江工业大学的老师,只要几十块就行,比笨重难看的Mathtype好用不要太多!

AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」
Axmath

AxMath地址:amyxun.com/

用于写markdown的Visual Studio Code

如果你是临时写文档、简短报告,那么Markdown将是你的不二选择。Markdown编辑器非常多,我体验过很多以后,只推荐Visual Studio Code。实时预览、自动补全、界面友好大气!它还是跨平台开源免费的,支持众多常用编程语言,是Github上最火热的项目之一!

Visual Studio Code下载地址:code.visualstudio.com/

用于画图的PPT

你没看错。如果你有画图需求(比如,展示自己的idea、画流程图),那么PPT将是你的不二选择!它支持导出高清矢量PDF,而且PPT本身就可以支持你画众多的图。你可以画深度网络,可以画概率分布,还可以画方法流程图。只有你想不到,没有PPT画不出来!当然,要画严谨的折线、柱状、分布图什么的,还是需要Excel、Matlab、Python等专业工具/语言的。

AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」
用PPT画的神经网络图

PPT下载地址就不说了。

用于论文查错的网站Grammarly

论文写好了,总得查查语法错误吧?又不想一个人读下来,又不相信自己的英语水平。怎么办?这时候,你需要Grammarly网站帮你自动查错!就算是Latex源域复制进去也可以!网站是免费使用的,高级功能需要付费。不过我觉得,免费功能就足够了。

Grammarly网址:www.grammarly.com

用于PPT、论文画图的islide插件

我们经常需要在PPT或者论文中画一些示意图,比如画一个人像、一个手机、一个建筑等。通常情况下我们会通过一些搜索引擎来搜索想要的图片。然而此过程繁琐且质量不可保证,尤其无法得到放大不失真的矢量图。推荐一个PPT插件,名字叫做islide,它里面不仅包括了辅助做PPT的很多工具,同时还内置了几万种各类的矢量图标和图片。我个人的论文和PPT就多次用到了此工具。全功能需要付费,不过也不是很贵,可以接受。

Islide下载地址:islide.cc/

五、文献检索、下载、管理的常用工具

作为一名标准的研究生,查文献是必备的技能。别小看这一条,觉得不就是去搜索东西么,有什么技巧。事实是,能够合理、有效地利用现有的资源快速搜索到想要的信息,对研究生活来讲可以说是事半功倍。

主要从查文献、下载文献,以及文献管理软件三个方面来介绍文献的检索与管理。

查文献

下面列出了一些常用的文献查阅地址:

通用

  • Google Scholar[1]: 这个是最常用的,但是通常需要FQ。在国内有很多代理,比如这个网站就收集了很多国内可用的镜像[2]

  • Semantic scholar[3]:微软联合创始人Paul Allen投资开发的新一代学术搜索引擎,几乎80%的文章都可以在上面下载。它与Google Scholar的不同之处是:当你查找一个文章时,它可以自动计算这个文章的重要性、贡献,并且,对于一个文章来说,可以智能查找引用(如文章A引用了50篇引文,那么直接在网页上可以看到文章都是怎么描述引文的,而且,哪些引文对这篇文章贡献大。相应的,也可以查看这个文章被哪些文章引用了,都是如何引用的),很给力!在检索时,还可以选择会议/期刊名称,作者,文章类型等等,比较丰富,好用。

  • AMINER[4]:可以通过社交网络和数据挖掘统计出你想搜索的话题下面的专家和文章,对于进行以主题为目标的搜索非常有用!

  • Web of Science:传说中的SCI查询网站。在这个网站可以查询所有的被SCI收录的期刊、文章等。我们经常会有这个需求:这个期刊是不是SCI?影响因子是多少?在这个网站下面的Journal Citation Reports里可以直接查询出来。(最好是在校园网下登录,不然需要你登录,也是需要购买的) .这个网站也可以查询国外的专利,选择Derwent数据库就可以了。

  • EI工程索引[5]:传说中的EI检索。

  • 一个微信公众号:fenqubiao,中科院JCR分区查询地址。我们经常想知道一个期刊的分区,属于第几区,在这里查。

  • arXiv[6]: 这个网站是用来占坑和查阅最新的idea的。当你有一个idea,并且已基本完成实验和初步论文撰写后,你可以先把文章投在这上面占坑,向全世界宣告这个idea是你的,保护自己的idea,避免直接投期刊或者会议经过漫长的等待后出现不可预知的情况。当然你也可以在上面查阅最新的别人的idea,甚至可以直接引用它。

中文

  • 中国知网[7]:这个主要用来查中文文献,还有一些硕士博士论文。我不是很常用。

  • 中国专利检索[8] :这个网站收录了所有中国申请的专利,可以进行方便的检索。值得一提的是,这个网站在几个月之前刚刚改版,以前那个版本烂的不成样子我就懒得吐槽了。现在新版用着不错的。

  • 中国专利下载[9] :通常在检索网站上检索到的专利只能看到简单的介绍和图片而不能看全文。在这网站上可以按照专利号和申请号直接下载专利的PDF,非常有用。

计算机

  • 一个微信公众号:Call4papers,经常推送一些计算机方面的会议、期刊征稿信息。配套推出了一个app(公众号内有下载链接),更加方便查看CCF分类截稿信息,强烈推荐!

  • ACM数字图书馆[10]:查一些ACM出版的文章会用到。这个用来查特定会议,比如某年的某个会议特别有效。在查询时,需要在这个页面点击“proceeding”按钮,然后在新页面的所有会议列表中选择即可。

  • IEEE Xplore Digital Library[11]:与ACM平齐。也可以用来直接查某个会议或者期刊的所有文章。

  • Springer[12]:第三大出版机构。

  • dblp: computer science bibliography[13]:这个用来查特定作者的出版物比较有效。但是要注意搜索出来的结果要甄别,它的归类功能做的不是那么好。

下载文献

文献查到了,通常我们都是把它下载到电脑上。作为学生很幸运,如果你所在的学校或研究所购买了相关数据库,你可以直接进行下载。但是我们经常会碰到这样的情况:学校没有购买相关的数据库,或者我们不在学校也要下文章!这时候怎么办呢?

  • 直接Google scholar,或Google搜索标题,看是否有可用的下载;

  • 如果必须到对应的数据库下载,这时候通常只有学生或科研院所能下载;

  • 「如果碍于版权无法下载」,则用这个神器:Sci-Hub[14],把文章所在的页面地址填写进去即可下载!这个神器是俄罗斯一个女黑客开发的,自动爬取网络上的学术文章免费让世界各地下载!如果这个地址打不开,请网上自行搜索可用的后缀。

文献管理

好了,下载了这么多的文章,我们可以愉快地开始阅读和研究了。请等一等,有没有考虑过,当你只有十几篇文章,或者几十篇文章时,也许只是把它们建立文件夹保存起来就好了。当你有几百篇文章呢?怎么快速从这些文章中查到你要的信息?怎么快速找到你看过的那个文章?怎么记笔记?。。。总之,文献管理的目的就是让我们高效地利用手头的文章,用到时候能很快获取到需要的信息。

下面列出了比较流行的几种文献管理软件:

生成引文,文章基本信息保存之类的基本功能就不仔细说了,下这几种软件都有。

  • EndNote:老牌文献管理工具,但是收费,如果学校有免费账号还可以。特点是兼容性强,可以集成到word里进行引用的辅助。不过这个缺点是太大太臃肿了,反正我不喜欢用。

  • Mendeley:比较出名的管理软件,内置自己的PDF阅读器可以保存各种笔记,可以到网上下载相关的引文。比较好用。

  • Zotero:我正在用的。免费开源跨平台。不仅可以管理文献,可以管理书籍、文档、网页等各种东西。它有三个杀手级功能:

    • 一是有一个Chrome/FireFox/Safari插件,当你查阅到文章时,比如一个在ACM里的文章,点击插件可以直接把文章PDF、元数据等信息一键下载到自己的电脑里并根据设置好的格式进行命名!

    • 二是可以PDF全文索引!也就是说PDF里的文字都可以进行搜索!所以我用这个。

    • 三是可以把现有的PDF文件直接进行提取,到Google(需要*)里去匹配它的会议、年份、作者等源信息然后保存在软件里!

「Zotero的强大之处在于插件,请自行搜索zotero强大的插件配置,这里我推荐zotfile配合网盘,无限量paper存取!」

这个软件功能太强大,但是如果不配置好的话就会觉得很难用。这里附上牛人写的配置链接以供参考:Zotero配置向导[15]

当然,使用软件全看个人喜好。*里列出了常用的文献管理软件对比,大家可以根据自己需求来选择。

由于作者水平有限,错误和不足之处请读者直接评论,我会及时更正。

也请读者点击“阅读原文”,关注「同名知乎账号」

Reference

[1]

Google学术:https://scholar.google.com/

[2]

Google学术镜像:https://ac.scmor.com/

[3]

Semantic scholar:https://www.semanticscholar.org/

[4]

Aminer:http://aminer.org/

[5]

EI检索:https://www.engineeringvillage.com/

[6]

ArXiv:https://arxiv.org/

[7]

中国知网:http://cnki.net/

[8]

中国专利检索:http://www.pss-system.gov.cn/sipopublicsearch/patentsearch/tableSearch-showTableSearchIndex.shtml

[9]

中国专利下载:http://www.drugfuture.com/cnpat/cn_patent.asp

[10]

ACM:http://dl.acm.org/

[11]

IEEE:http://ieeexplore.ieee.org/Xplore/home.jsp

[12]

Springer:http://www.springer.com/cn/

[13]

DBLP:https://dblp.org/

[14]

Sci-hub:https://sci-hub.tw/

[15]

Zotero配置向导:https://www.yangzhiping.com/tech/zotero1.html

历史精华好文

交流合作

请加微信号:yan_kylin_phenix注明姓名+单位+从业方向+地点,非诚勿扰。

AI研究者的方法论和工具箱|微软大牛独家「AI课程/资源/数据」