一个简单的文字类作品版权保护装置

1 引言

我当初决定在知乎里写博客,目的是以“费米学习法”的形式,将学习过程和成果可视化、量化。这个目的很单纯。

公元2020年4月份的某个上午,阳光明媚,我在网上冲浪的时候,突然发现有一篇博客似曾相识——不,就是我写的。问题是,博客标注的作者不是我,这是怎么回事呢?抄袭或者盗用。连洗稿都懒得做一下,成何体统!

在学习的时候,我们需要为自己设计一个激励机制。在这个激励机制中,学有所获就会有正反馈(负反馈可以酌情设置)。如果正反馈足够多,那么我们就会进入一种上瘾的状态,希望吧尽量多的资源投入到学习中去。我在实现目的的时候,为自己设置了一个激励机制:知友们的浏览甚至是点赞、收藏、评论,都是对我的学习内容、方法、成果的肯定。然而,这种抄袭现象把属于我的正反馈抢走了。如果换成其他背景,比如我在通过写东西建立社会影响力、赚钱,那这种抄袭现象就是罪过了。

一个简单的文字类作品版权保护装置
图 1-1 电影《走着瞧》截图

 

我的第一反应是“出离愤怒”,然后开始想办法处理这些侵权行为。首先,我花了几个小时,检索了自己写的3篇博客,并找到涉嫌抄袭或盗用的网页。然后,我以站内举报,邮件投诉,评论或留言提醒等形式,试图让抄袭我的朋友们悬崖勒马。感谢知乎的版权团队(邮箱地址[email protected]),我发的申诉邮件,都给了非常实在的回应和帮助。

一个简单的文字类作品版权保护装置
图1-2 《马大帅》名场面

 

就我比较熟悉的国内互联网环境来说,抄袭或盗用文章的现象非常普遍,防不胜防。人,尤其是个人的力量太渺小了,实际上无法有效处理这种侵权事件——一般情况下,我是不知道自己的文章被使用的情况的,也没有时间和精力去一篇篇地搜索转载文章和确认有无侵权。实际上,主要的工作量还是在“搜索转载文章”这一块;确认是否侵权就比较快了,看一下有无大片雷同、文章来源是否标注正确即可。

我在荣之联的时候,参与开发过的一个项目叫iMonitor,正好可以解决这种场景下,疑似侵权文章的快速查找问题。由于这个项目比较重、设计的一些技术我也不懂,为了开发一个可用的系统,我进行了一定的“阉割”。本文将对iMonitor的大致思路,以及阉割版系统的结构进行简要介绍。这样做的原因或目的是:(1)我计划利用业余时间开发这样一个小助手,辅助自己的版权保护工作;(2)万一我不行,也许有别的朋友愿意并可以做出来;(3)积极配合国家的知识产权保护政策、助力我们的产业升级,让后代们活得轻松一点。

2 荣之联的iMonitor

我负责的是文本匹配模块,因此主要介绍系统的NLP部分。如图2-1,是iMonitor的基本结构。系统的爬虫模块会从互联网中采集全网的数据;经过预处理和结构化之后,数据被存储到全文索引中。客户数据,即需要版权保护服务的文章A,则会经过(与全网数据)相同的预处理和结构化。然后召回模块会从全文索引中,挑选出可能与客户文章类似的文章列表一个简单的文字类作品版权保护装置。接着文本相似度计算模块会计算Bn与A的相似度,然后把相似度高于阈值的挑出来,形成一个更小的列表一个简单的文字类作品版权保护装置

列表C内的文章,内容与A非常相似。如果文章正确注明了来源,则是合理转载;如果文章没有正确注明来源,则认为是不被允许的使用行为,需要进一步处理。

一个简单的文字类作品版权保护装置
图 2-1 iMonitor的结构

3 疑似侵权文章搜索助手的结构

iMonitor对采集、存储、搜索等等方面的要求比较高,一个人是没办法做出来的。如果我想开发一个针对自己困境的”疑似侵权文章搜索助手”,那就得做一些“减法”,设计一个足够简单的系统,如图3-1。

这个系统主对采集、存储和存储进行了大幅度的简化:(1)只采集几个主要的创作平台中,标题或正文,与我的文章A有一定程度相似的文章列表B;(2)所有的数据直接放在在内存里,不使用索引(创作平台已经提供了存储和检索)。

文本相似度模块负责检测雷同或部分引用的情况,形成相似文章列表C。部分引用的检测,则需要将A和B分段,然后计算二者段落的相似性(可以使用倒排降低一点复杂度);雷同检测任务直接计算全文的相似度即可。使用”ngram+杰卡德距离”即可检测简单的抄袭;洗稿情形则需要使用复杂一点的模型来做文本匹配。文本相似度计算法方法可以参考https://zhuanlan.zhihu.com/p/88938220(这才是引用)。

而文章来源检查模块,则负责核对列表C中,来源标注不正确的部分,形成文章列表D。可以使用规则或模型,识别出C中文章的来源信息,然后与A的信息进行比较——不相同大话,那就是错误引用,需要进一步观察。

在这套系统的帮助下,我们可能只需要看个位数的链接,就可以完成对一篇文章的版权保护状况检测了。

 

一个简单的文字类作品版权保护装置
图 3-2 疑似侵权文章搜索助手的结构

4 结语

希望大家支持原创,共同建设一个良好的创新、创造环境,支持我们经济社会的长远发展、可持续发展。支持原创的做法非常简单:(1)尽量自己开发;(2)引用其他人的内容时,确认来源的可靠性,并注明来源。这方面做得比较好的是科研领域,比如大家会在引用他人观点、论述、数据、图标等的位置会标记作者、年份信息[比如” Yu T(2014)”],然后在文末的“参考文献”里添加文献的具体信息(比如Yu T , Yu G , Li P Y , et al. Citation impact prediction for scientific papers using stepwise regression analysis[J]. entometrics, 2014, 101(2):1233-1252.)。

这样做的好处还是挺多的。正确标注引用来源,有助于同行精准、快速地把握知识传播的脉络,不至于张冠李戴、甚至造成损失。对于一个主动学习者来说,每搜到一篇雷同文章,就是浪费了一份时间。大众对作品的反馈,是对原创者的非常有价值的的奖励/批评,会激励和帮助原创者继续创造更多的好东西——反过来,读者们又可以看到更多优质的作品。俗一点讲,很多朋友正在努力创作,试图以原创作品为媒介去获得生活来源或者满足自己的其他需求,而侵犯知识产权就是在抢甚至砸人家的饭碗。

这几年我们已经不需要依靠“灵活手段”来发展科技了,国家已经开始从法规、政策、文化建设等等方面入手,优化创新环境,目标直指产业升级。计算机视觉的同行们请收起大刀

——很明显,CV(ctr+c, ctr+v)大军们的好日子不多了。

 

注意:本文为李鹏宇(知乎个人主页https://www.zhihu.com/people/py-li-34)原创作品,受到著作权相关法规的保护。如需引用、转载,请注明来源信息:(1)作者名,即“李鹏宇”;(2)原始网页链接,即https://zhuanlan.zhihu.com/p/136767937。如有疑问,可发邮件至[email protected]