NLTK:原始字符串转换为普通字符串

问题描述:

我已得到NLTK的路透社语料库的文章,作为一个原始字符串NLTK:原始字符串转换为普通字符串

>>>from nltk.corpus import reuters 
>>>retail_article = reuters.raw('training/8173') 
>>>print (retail_article) 

"FRENCH GDP SHOULD RISE 2.3 PCT IN 1988 - MINISTRY\n French gross domestic 
product should grow\n by 2.3 pct in 1988 after two pct growth this year 
and 2.1 pct\n in 1986, the Finance Ministry said.\n  The latest 
forecast,... 

相反的\n,我希望文字是在一个单独的线。我怎样才能做到这一点?

>>>type(retail_article) 
str 

decode()不处理字符串,并encode()没有得到所要的结果。

TIA

告诉你的输出不是通过书面print(retail_article)产生。很明显,你在解释器提示符下键入retail_article。差异很大,它似乎是你混淆的根源。

不需要转换。 “原始”字符串是一种编写文字字符串的方式。语料库读取器的raw()方法不返回“原始字符串”,它只是返回一个字符串。 (方法名是指一个事实,即没有处理完成;返回文件(S)的确切内容。)

你的字符串retail_article包含实际换行符,不\n序列。要查看换行符,请使用print(retail_article)。当您在命令提示符下编写retail_article时,您会明确表示该字符串(即所谓的“repr”形式) - 您正在查看的内容。