如何使用Python将网页元素解析为记事本？

问题描述：

任何人都可以帮助我从网站上使用Python“提取”东西吗？这里是信息：我有文件夹名称与一组数字（他们是项目的ID），我必须使用该ID进入页面，然后从页面“废”信息到我的记事本...这就像这样：http ：//www.somesite.com/pic.mhtml？id = [ID] ...我需要从图片链接中提取图片链接（图片链接总是在文件末尾有ID.jpg）并将其写入记事本中然后用该图片的名称替换该txt名称...图片始终在标题标签...在此先感谢...如何使用Python将网页元素解析为记事本？

答

您需要的是一个数据刮板 - http://www.crummy.com/software/BeautifulSoup/将帮助您将数据从网站拉出。然后，您可以将该数据加载到变量中，将其写入文件，或者执行通常对数据执行的任何操作。

答

你可以尝试解析图像的html源代码。尝试类似的东西：

class Parser(object): 
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)' 

def __crawl(self, url): 
    images = [] 
    code = urllib.urlopen(url).read() 
    for line in code.split('\n'): 
     imagesearch = re.search(self.__rx, line) 
     if imagesearch: 
      image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4)) 
      images.append(image) 
    return images

它untestet，你可能要检查的正则表达式

如何使用Python将网页元素解析为记事本？

相关推荐