和爬虫战斗的日子02

如何防止利用接码平台恶意注册

今天终于解决了利用接码平台注册大量账号进行数据爬取的问题,事情是这样的…
周五晚上,照旧在系统管理后台又发现了一些爬虫账号在那爬取数据,拉黑这些账号后我打开了几个接码平台的网站,浏览过程中,我发现这些手机号基本上全是165开头的手机号,于是,我打开了百度,搜索“165开头的手机号”,如下图
和爬虫战斗的日子02
有两个关键词立刻吸引住了我“虚拟运营商”“虚拟号段”,那么什么是虚拟运营商呢?
我们都知道,传统三大电信运营商是移动、联通、电信,虚拟运营商就是指依靠租用传统电信运营商的通信资源开展电信业务的新型电信运营商。简而言之就是虚拟运营商没有组建自己的通讯网络,而是通过与传统运营商合作,一样可以卖手机号,为用户提供通话、短信等服务,而他们卖的手机号是有固定号段的,就是所谓的虚拟号段。
2013年12月开启第一批虚拟运营商试点,2014年开始投入市场,在最初的时候管理措施的不到位致使实名制没有得到贯彻落实,从而被不法分子钻了空子,许多虚拟号段也成为垃圾短信和诈骗短信重灾区。
了解了虚拟号段,我打开系统数据库统计了一下当前黑名单中的手机号段
和爬虫战斗的日子02
我发现165、171、170号段在黑名单中占有很大的比例,而这些号段全都是所谓的虚拟号段,原来接码平台基本上都是用的虚拟号段啊,那我直接在注册时禁止这些虚拟号段的手机号注册时是否可行呢?
接下来我统计了一下当前系统中使用这几个虚拟号段进行注册的用户数量,发现数量加起来不足整个注册量的千分之二,而且我相信这里边绝大多数都是爬虫账号,所以我认为禁止虚拟号段的手机号注册对系统影响有限。
那么禁止虚拟号段注册是否有先例呢?总感觉有点不踏实,所以我决定先调研一下
和爬虫战斗的日子02
和爬虫战斗的日子02
原来许多大厂早已禁止了虚拟手机号的注册
看到这,我终于可以安心的禁止虚拟号段注册了,过几天看看效果吧