如何使用Python将网页元素解析为记事本?
问题描述:
任何人都可以帮助我从网站上使用Python“提取”东西吗?这里是信息: 我有文件夹名称与一组数字(他们是项目的ID),我必须使用该ID进入页面,然后从页面“废”信息到我的记事本...这就像这样:http ://www.somesite.com/pic.mhtml?id = [ID] ...我需要从图片链接中提取图片链接(图片链接总是在文件末尾有ID.jpg)并将其写入记事本中然后用该图片的名称替换该txt名称...图片始终在标题标签...在此先感谢...如何使用Python将网页元素解析为记事本?
答
您需要的是一个数据刮板 - http://www.crummy.com/software/BeautifulSoup/将帮助您将数据从网站拉出。然后,您可以将该数据加载到变量中,将其写入文件,或者执行通常对数据执行的任何操作。
答
你可以尝试解析图像的html源代码。 尝试类似的东西:
class Parser(object):
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)'
def __crawl(self, url):
images = []
code = urllib.urlopen(url).read()
for line in code.split('\n'):
imagesearch = re.search(self.__rx, line)
if imagesearch:
image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4))
images.append(image)
return images
它untestet,你可能要检查的正则表达式