如何使用多个分隔符将文件加载到猪?
我有以下文件tax_cal
我想在猪加载:如何使用多个分隔符将文件加载到猪?
101,5 | 2; 3 | 2
102,3 | 1; 4.5 | 2; 4 | 1
103,2 | 1; 5 | 2; 5.6 | 3
输出:
101,5 | 2,3 | 2
102,3 | 1,4.5 | 2,4 | 1
103,2 | 1,5 | 2,5.6 | 3
此外,我将这个输出文件传递给python UDF来计算总价格。
我该如何做到这一点?
所以猪的基本加载命令如下,但我不确定你的文件样本数据类型。试着看下面的内容,并检查是否可以按照你需要的方式修改它。
A = LOAD '(your_file_name)' USING PigStorage(',') AS (bill_number:INT, tax:chararray);
没有这样做只会在'|'后给予我值,我下面输出:(,2; 3) (,2; 4) (,2; 2.5)我不知道如何分开这个文件:( –
嗯,我不明白你的文本文件, 5行你的文本文件 –
嗨,这是我想加载解释它的文件第一列是条例草案编号:int和第二列是具有tax_details的数组,例如5 | 2其中5代表价格和2是税。我必须在pig中加载这个文件,然后通过UDF传递它来计算总价 –
你可以添加你的文件的第一行,你需要使用猪加载 –
抱歉,我没有得到你吗? –