如何从Java中的网页获取信息?

问题描述:

有没有人知道一个快速的方法,我可以从Java的网页获取信息?例如,如果我正在查看这样的页面:http://www.ncbi.nlm.nih.gov/pubmed/?term=10952317并且我想提取标题“MeSH条款”下面的单词列表,那我该怎么做呢?如何从Java中的网页获取信息?

我有东西,可以读取源,但它是完整的HTML标签和这样的......

任何帮助,非常感谢!

+0

[如何“扫描”一个网站(或网页)的信息,并将其带入我的程序?](http://stackoverflow.com/questions/2835505/how-to-scan-a-网站或页面的信息,并把它带入我的程序) – BalusC 2011-06-16 16:09:30

正如之前在无数次看到JSoup这是一个Java的HTML解析库一样。或者写你自己的(不推荐)。

+0

非常感谢! :) – NSP 2011-06-16 16:01:39

很可能TagSoup是给你的。

+0

谢谢!我会研究它。 – NSP 2011-06-16 16:01:49