在python中转换unicode字符串

问题描述:

{u'Status': u'OK', u'City': u'Ciri\xe8', u'TimezoneName': '', u'ZipPostalCode': '', u'CountryCode': u'IT', u'Dstoffset': u'0', u'Ip': u'x.x.x.x', u'Longitude': u'7.6', u'CountryName': u'Italy', u'RegionCode': u'12', u'Latitude': u'45.2333', u'Isdst': '', u'Gmtoffset': u'0', u'RegionName': u'Piemonte'} 

这是我的对象的输出。我想访问城市但它是编码的。我如何读取所有参数并对其进行解码在python中转换unicode字符串

>>> data['City'] 
u'Ciri\xe8' 

>>>data['City'].decode('utf-8') 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode 
    return codecs.utf_8_decode(input, errors, True) 
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe8' in position 4: ordinal not in range(128) 

我希望明文不是unicode字符串。谢谢!

+0

我使用此代码https://github.com/sonicrules1234/pyipinfodb/blob/master/pyipinfodb.py – dani 2012-04-22 02:04:30

+0

没有“明文”这样的东西。 – 2012-04-22 02:07:45

+2

你不需要做任何事情。它已经被解码了......尝试'print data ['City']' – JBernardo 2012-04-22 02:07:48

阅读:http://nedbatchelder.com/text/unipain.html

然后,只需打印:

>>> data = {u'City':u'Ciri\xe8'} 
>>> data['City'] 
u'Ciri\xe8' 
>>> print data['City'] 
Ciriè 

如果不打印,打印的Python一个安全的字符串表示,表示它是Unicode文本u'',并且它包含一个非ASCII字符\xe8print尝试通过在终端编码中对Unicode字符串进行编码来显示非ASCII字符。如果字符串包含未由所述终端支持的编码字符它可能会失败:

>>> print u'\xe8' 
è 
>>> print u'\x81' 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "d:\dev\Python27\lib\encodings\cp437.py", line 12, in encode 
    return codecs.charmap_encode(input,errors,encoding_map) 
UnicodeEncodeError: 'charmap' codec can't encode character u'\x81' in position 0: character maps to <undefined> 

在上述例子中,支持code page 437 Unicode字符U + 00E8,但不是U + 0081。

通过明文,我想你的意思是ascii。为此,您可以使用:

data['City'].encode('ascii','ignore') 

这会剥夺Unicode字符并返回

Ciri 

请参阅此链接了解更多信息:http://docs.python.org/howto/unicode.html

你想要的是不明确的。如果 '明文' 你的意思是删除加重,试试这个:

>>> s = u'Ciri\xe8' 
>>> from unicodedata import normalize 
>>> normalize('NFKD', s).encode('ASCII', 'ignore') 
'Cirie'