我该如何解决这个UnicodeDecodeError?

问题描述:

stemmer和lemmatizer似乎为传递给我的文本文件的某些句子产生了这个错误。他们是什么意思,我该如何解决它们?我该如何解决这个UnicodeDecodeError?

Traceback (most recent call last): 
     File "preproc.py", line 89, in <module> 
     apos=stem_data(nostop) 
     File "preproc.py", line 51, in stem_data 
     r=stemmer.stem(n) 
     File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 632, in stem 
     stem = self.stem_word(word.lower(), 0, len(word) - 1) 
     File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 590, in stem_word 
     word = self._step1ab(word) 
     File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/stem/porter.py", line 275, in _step1ab 
     if word.endswith("sses"): 
    UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 6: ordinal not in range(128) 
+0

哪些是正在生成错误的句子? –

+0

[python nltk.sent \ _tokenize错误ascii编解码器无法解码]的可能重复(http://stackoverflow.com/questions/27212912/python-nltk-sent-tokenize-error-ascii-codec-cant-decode) –

你有某种非ASCII字符,所以它是一个编码问题..这将有助于了解哪些句子产生这个错误

+0

这个:在2月24日由国际射电天文学研究中心提供的日期图中显示了艺术家对银河系背后的避难区中发现的星系的印象。澳大利亚望远镜用于广播人类视觉1969年在月球上的第一步发现了数百个隐藏在银河系后面的新星系,使用一个可以测量无线电波的创新接收器 – minks

+0

将您的编码更改为utf-8。应该解决这个问题。 – ubadub

+0

但是,我再次得到这个:UnicodeEncodeError:'ascii'编解码器不能编码字符u'\ u2019'在位置6:序号不在范围内(128) – minks