如何访问pyspark中的RDD元组中的单个元素?
问题描述:
可以说,我有一个像如何访问pyspark中的RDD元组中的单个元素?
[(u'Some1', (u'ABC', 9989)), (u'Some2', (u'XYZ', 235)), (u'Some3', (u'BBB', 5379)), (u'Some4', (u'ABC', 5379))]
一个RDD我使用map
得到一次一个元组,但我怎么能获得一个元组的单个元素要看看一个元组包含了一些字符。其实我想过滤出那些包含一些字符的东西。这里包含ABC
元组我试图做这样的事情,但它不是帮助
def foo(line):
if(line[1]=="ABC"):
return (line)
new_data = data.map(foo)
我新的火花和Python以及请帮助!
答
RDD可以直接过滤。下面将给出所有包含元组第二元素第0位的“ABC”的记录。
new_data = data.filter(lambda x: x[1][0] == "ABC")