如何打印已在python
问题描述:
解释HTML数据,我有以下数据结构的HTML文件:如何打印已在python
<tr>
<td valign="top"><img src="img.jpg"></td>
<td><a href="file.zip">file.zip</a></td>
<td align="right">24-Apr-2013 12:42 </td>
<td align="right">200K</td>
</tr>
...
它基本上是一个简单的表格,并在Firefox中查看时,它看起来是这样的:
file.zip 22-Apr-2013 12:42 200K
我想提取这三个值(文件名,日期,大小),我可以做到这一点,例如与split()
但我想知道是否有可能在python中打印“html解释表单”这个?
import xyz
print xyz.htmlinterpreted(htmlfile.html)
>>> file.zip 22-Apr-2013 12:42 200K
这样我可以很容易地将数据拆分为split(" ")
。这在Python中可能吗?
答
使用HTML解析器。 BeautifulSoup使这是一个breaze:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_source)
print list(soup.stripped_strings)
演示:
>>> from bs4 import BeautifulSoup >>> soup = BeautifulSoup('''<tr><td valign="top"><img src="img.jpg"></td><td><a href="file.zip">file.zip</a></td><td align="right">24-Apr-2013 12:42 </td><td align="right">200K</td></tr>''')
>>> print list(soup.stripped_strings)
[u'file.zip', u'24-Apr-2013 12:42', u'200K']
打我给它以秒为单位。 – ecline6 2013-04-24 18:26:41