如何规范公司名称
问题描述:
我们有用户生成的所有变体雇主名称。例如,人们在输入或导入:如何规范公司名称
谷歌
谷歌公司
谷歌公司
谷歌公司
要在数据库搜索这个,看起来像一个不同的公司都在一起。我们改变了一些东西来映射每个雇主到一个“正常化”的名字,但总共有7万个,这很难用手工来完成。
有没有人有如何规范现有条目的建议,以及如何保持我们为所有传入的名称做呢?
答
有两件事情可以做,以帮助:
当用户添加了一个公司的名字,给他们一个自动完成框,以便他们得到的建议,如果它已经存在。或者,建议您在添加问题时使用现有的一个像stackoverflow。
查询数据库时使用搜索工具,以便您可以总结所有变体。您可以在这里找到https://www.ruby-toolbox.com/categories/rails_search
搜索的宝石,我不认为“正常化”他们事后会很容易,也不准确。
+0
我们有一个自动完成框,但大部分数据都是从其他平台导入的比如LinkedIn和Facebook,所以对此没有太多的控制。 – user577808
参见http://stackoverflow.com/questions/4835318/normalize-data-according-to-business-entity-legal-name-class-of-business-dns –
参见http://stackoverflow.com/questions/429385/how-do-i-normalize-a-large-user-generated-data-set-of-company-names –
我一直在做这方面的一些研究,并且发现了一篇最近的论文,提取,发现(通过聚类)并规范化(通过增强的编辑距离计算)组织名称。 [NEMO](http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2990275/?report=classic“NEMO”) – fjxx