Pandas:关于pandas中筛选的效率测试

前言

上一篇说到，最近我在做地址匹配的一个竞赛，目前陷入了瓶颈，所以想从pandas效率上玩玩。
比如给出一个切分好的地址列表，如[‘福建省’, ‘厦门市’, ‘思明区’, ‘梧村街道’, ‘湖滨南路’]，需要将这个地址在140+万条数据的地址库里筛选出满足条件的所有地址，应该怎么做呢？

一、常规方法

最常规的方法肯定是直接使用pandas里面的筛选方法，如下面代码所示
Pandas:关于pandas中筛选的效率测试
可以看到用时大概在843毫秒左右
这个方法的好处是书写简单，无脑&就可以了，但是如果当中某个对象可能是空的而且需要同时对很多地址进行批量筛选怎么办？
如果还是有老办法的话，出来的结果肯定是不对的

二、map方法

在https://blog.****.net/qq_38727626/article/details/100164430这篇文章中提到可以用map的方法来重新书写，我们改进一下看看效率
Pandas:关于pandas中筛选的效率测试
提取是提出来了，但是这时间也太长了：2.36秒
看来map的方法少量用可以，大批量肯定不合适