从链接检索图像

问题描述:

是否有脚本或服务或代码片段或方法或任何可以从网址获取缩略图的缩略图我不是指网站的快照,而是可以自动提取并用作帖子的图像缩略图,非常像Facebook中使用的那个。应该提取图片img src =“xxxxxxx?url = google.com”。这将获取谷歌徽标这从链接检索图像

也许有现有的解决方案,但它不是真的很难实现:

  1. 你需要获取远程站点,例如与file_get_contents
  2. 任选使用Tidy来清理源HTML
  3. 解析输出与XML parser如果使用整洁清洁取的数据,或HTML parser
  4. 取从站点中的第一n图像(n应是一个相对较小的数字)
  5. 存放在缓存中设置此获取图像,因为这个取,分析事情可能需要一段时间

评论:

  • 你可以从网站上获取robots.txt检查它是否是允许的使用/索引内容
  • 设置该远程网站取一个超时,因为如果该网站已关闭或慢会超时您现场还有
  • 限制并发抓取到一个网站,并在全球范围内防御DoS-ING
  • 你可以使用一个HTTP客户端和限制取出的HTML数据大小,或使用HEAD HTTP方法来下载之前获取Content-Length实际内容如果允许的话
+0

不要对远程站点使用file_get_contents,请使用CUrl或fsocket。 – 2011-12-03 00:07:53

+0

亲爱的@ MatthewR.Miller,你看过我的评论吗? –

+0

是的,我做了,我喜欢你的答案,我只是让他知道不要使用file_get_contents并使用一个http客户端,就像你说的一样...... file_get_contents()被学习php的人懒惰地使用,它的真的很难用于远程文件。很好的答案!这是我自己写的。 – 2011-12-03 20:23:52