除了正则表达式之外,还有另一种方法可以屏幕抓取吗?
问题描述:
我正在做一个个人的,只是为了好玩,使用屏幕抓取的项目给我一个系统托盘通知,以防添加,修改或删除HTML表格上的另一行。除了正则表达式之外,还有另一种方法可以屏幕抓取吗?
之前做过这些之前我想:我们来看看正则表达式的东西,就是这样,但作为一个好奇的人,让我觉得可能有其他东西可以有另一个范例,但是要尽可能简单使用。
我了解DOM和X-Path以及所有xml'ish方法。我正在寻找盒子外的东西,甚至可以在一组规则中定义,这样您就可以制作一个插件系统来聚合各种网站。
答
这里有一个想法:假设你的主要使用案例越来越每当一个HTML文件的变化,为什么不使用经过更改的行一个标准的diff工具,然后循环,将您的规则的通知?此外,如果您有权访问服务器和您正在观看的文件,您可以使用CVS(或类似软件)将所有内容都放在源代码控制之下,然后只需观察提交。如果您想将此方法用于网络上的随机网站,只需编写一个脚本,该脚本会定期下载相应网址的html,然后将其提交到源代码管理并观看差异。
不是很实用,但在盒子外面。
现在有两个问题 - 解析HTML和管理XSLT,而“解决方案”比原始问题困难。 – 2008-11-21 18:18:58