从电子商务产品页面提取主要产品图像

问题描述:

我正在寻找从零售商网站上的产品页面提取主要图像的选项,问题是产品页面中有多个图像(相关图像),一种方法我认为将工作将是提取所有图像链接,下载其中每一个,并比较每个这些图像的大小,并考虑其中存储字节的最大尺寸作为主要产品图像。从电子商务产品页面提取主要产品图像

显然这是一种非常低效的方法,我们知道大多数零售商使用某些电子商务平台,如magento,bigcommerce等,主要的电子商务平台只有少数,是否有可能检测到电子商务平台并利用模板由他们每个人提供精确提取主要产品图像?

我知道这个方法永远不会是完美的,但我正在寻找一种算法,大概精确到80%左右,是否可行?

您是否有要从中提取图像的零售商列表?如果是这样,那么请手动浏览每个零售商的网站,查看其HTML,并创建一些代码,以便成功从该特定零售商提取图像。如果不是,那么恐怕你运气不好 - 你可以抓住页面上最大的图像,或者使用其他启发式方法,但不能保证你抓取实际的产品图像。

创建某种通用实用程序的问题在于,每个电子商务平台都有自己的显示产品图像的结构,并且每个网站都可以更改该结构。例如,仅仅因为Magento 通常以以某种方式构建其图片,并不意味着您总能以这种方式看到它们 - 完全取决于当前应用的主题。

你可以使用简单的dom html lib来提取html。在magento方面,产品缩略图是产品页面上“product-image”类中的img标签。您可以将其解压缩为尺寸不错的缩略图图像。

如果您知道零售商和图片以及通过脚本下载并检查foreach循环语句中的大小并保存最大的一个。

谢谢

+0

本文对已经提供的答案没有任何价值。 – user1965449 2015-02-02 18:14:44