NLTK：原始字符串转换为普通字符串

问题描述：

我已得到NLTK的路透社语料库的文章，作为一个原始字符串NLTK：原始字符串转换为普通字符串

>>>from nltk.corpus import reuters 
>>>retail_article = reuters.raw('training/8173') 
>>>print (retail_article) 

"FRENCH GDP SHOULD RISE 2.3 PCT IN 1988 - MINISTRY\n French gross domestic 
product should grow\n by 2.3 pct in 1988 after two pct growth this year 
and 2.1 pct\n in 1986, the Finance Ministry said.\n  The latest 
forecast,...

相反的\n，我希望文字是在一个单独的线。我怎样才能做到这一点？

>>>type(retail_article) 
str

decode()不处理字符串，并encode()没有得到所要的结果。

TIA

答

告诉你的输出不是通过书面print(retail_article)产生。很明显，你在解释器提示符下键入retail_article。差异很大，它似乎是你混淆的根源。

不需要转换。 “原始”字符串是一种编写文字字符串的方式。语料库读取器的raw()方法不返回“原始字符串”，它只是返回一个字符串。（方法名是指一个事实，即没有处理完成;返回文件（S）的确切内容。）

你的字符串retail_article包含实际换行符，不\，n序列。要查看换行符，请使用print(retail_article)。当您在命令提示符下编写retail_article时，您会明确表示该字符串（即所谓的“repr”形式） - 您正在查看的内容。

NLTK：原始字符串转换为普通字符串

相关推荐