c＃和regEx在html页面上拉链接href部分链接

问题描述：

我在c＃中有这样的代码来从网页中拉链接，并希望使它更智能，因为我希望能够在排除中添加小增加链接基于2个标准。c＃和regEx在html页面上拉链接href部分链接

首先我要排除的如指向PDF文件或PPT文件页面发现某些文件扩展......

未来我希望能够排除在URL这样的事情的第一部分链接FTP和images.google ...或maps.google ....及电邮地址...

这是一个需要帮助，我当前的代码：

MatchCollection m1 = Regex.Matches(file, @"(?i)(<A[^>]*href\s*=\s*['""](?!mailto|[^'""]*\.(?:pdf|doc|ppt))[^>]*>.*?</A>)", RegexOptions.Singleline);

答

有趣的是，我正在检查这一点。谢谢。 – kacalapy 2010-05-17 13:45:46