c#和regEx在html页面上拉链接href部分链接
问题描述:
我在c#中有这样的代码来从网页中拉链接,并希望使它更智能,因为我希望能够在排除中添加小增加链接基于2个标准。c#和regEx在html页面上拉链接href部分链接
首先我要排除的如指向PDF文件或PPT文件页面发现某些文件扩展......
未来我希望能够排除在URL这样的事情的第一部分链接FTP和images.google ...或maps.google ....及电邮地址...
这是一个需要帮助,我当前的代码:
MatchCollection m1 = Regex.Matches(file, @"(?i)(<A[^>]*href\s*=\s*['""](?!mailto|[^'""]*\.(?:pdf|doc|ppt))[^>]*>.*?</A>)", RegexOptions.Singleline);
有趣的是,我正在检查这一点。谢谢。 – kacalapy 2010-05-17 13:45:46