来自mysql数据库的关键字/短语密度

问题描述:

我有一个LAMP设置,其中mysql数据库实质上是一个产品目录。由于数据库随着新产品的添加而频繁变化,因此手动维护关键字列表和热门词组很麻烦。需要保持关键字/短语列表是双重的:(1)谷歌AdWords和其他营销举措,(2)在我的网站上的链接结构。来自mysql数据库的关键字/短语密度

我一直在使用Zend Lucene端口作为我网站上所有搜索的主干。是否有可能使用Lucene确定关键字密度和/或短语密度?另一个搜索引擎呢?

为了进一步明确我在找什么,比方说我有一个笔记本电脑的目录。我可能会有各种型号的戴尔Inspiron,戴尔Latitude,Macbook,Gateway,联想和宏基笔记本电脑。对于关键字密度报告,我希望看到“笔记本电脑”和“笔记本”这两个词很受欢迎,也许还有“戴尔Inspiron”或“戴尔Inspiron笔记本电脑”或“联想笔记本电脑”。

任何人都可以推荐一些开始?我很喜欢搜索整个搜索模块世界,比如Lucene,Sphinx,Solr等,因为它已经在索引数据,但我不知道我是否会走错路。

谢谢!

Lucene能够给你一个(关键字,频率)对列表。见this questionthis blog post

+0

谢谢,我注意到这篇文章是指纯Lucene(java),并且我正在使用与Zend捆绑在一起的Lucene端口。所以希望我可以在PHP中使用本地方式完成所有任务,否则我可能需要擦掉java的蜘蛛网。 – dustin999 2010-11-02 00:01:09

+0

似乎你可以在PHP中执行此操作:在此页面中搜索termDocs():http://framework.zend.com/manual/en/zend.search.lucene.best-practice.html – 2010-11-02 06:59:36

+0

我最终写了我的自己的脚本来确定关键字密度,用python并不太难。我会继续并接受这是正确的答案... – dustin999 2011-08-08 18:33:03