NLTK:原始字符串转换为普通字符串
问题描述:
我已得到NLTK的路透社语料库的文章,作为一个原始字符串NLTK:原始字符串转换为普通字符串
>>>from nltk.corpus import reuters
>>>retail_article = reuters.raw('training/8173')
>>>print (retail_article)
"FRENCH GDP SHOULD RISE 2.3 PCT IN 1988 - MINISTRY\n French gross domestic
product should grow\n by 2.3 pct in 1988 after two pct growth this year
and 2.1 pct\n in 1986, the Finance Ministry said.\n The latest
forecast,...
相反的\n
,我希望文字是在一个单独的线。我怎样才能做到这一点?
>>>type(retail_article)
str
decode()
不处理字符串,并encode()
没有得到所要的结果。
TIA
答
告诉你的输出不是通过书面print(retail_article)
产生。很明显,你在解释器提示符下键入retail_article
。差异很大,它似乎是你混淆的根源。
不需要转换。 “原始”字符串是一种编写文字字符串的方式。语料库读取器的raw()
方法不返回“原始字符串”,它只是返回一个字符串。 (方法名是指一个事实,即没有处理完成;返回文件(S)的确切内容。)
你的字符串retail_article
包含实际换行符,不\
,n
序列。要查看换行符,请使用print(retail_article)
。当您在命令提示符下编写retail_article
时,您会明确表示该字符串(即所谓的“repr”形式) - 您正在查看的内容。