解析HTML(不是XML)到XElement的最佳实践?

问题描述:

我有这样的代码:解析HTML(不是XML)到XElement的最佳实践?

var url = textBox1.Text; 
WebClient wc = new WebClient(); 

var page= wc.DownloadString(url); 
XElement doc = XElement.Parse(page); 

它失败,意想不到的人物例外。 显然,我试图以这种愚蠢的方式解析的HTML不是严格的XML。 解析任意HTML到IQueriable的下一个最简单的方法是什么?

我真正想要的是抓住一个表格和分页链接。 然后用我自己的LINQ解析它们。

看一看的HTML敏捷性包:
http://www.codeplex.com/htmlagilitypack

+0

是啊,这一个有点想。看起来像它符合我的需求。 – 2010-01-15 13:04:45

我能想到的最佳方式是搜索标签并解析包含分页链接的标签中的所有内容。希望缩小到应该使手动解析器写入。