如何从Hive表中删除重复的记录?
问题描述:
我想了解从Hive表中删除重复记录。如何从Hive表中删除重复的记录?
我的蜂巢表:“dynpart”的列:ID,名称,技术
Id Name Technology
1 Abcd Hadoop
2 Efgh Java
3 Ijkl MainFrames
2 Efgh Java
我们有一个像“独特”的选择查询使用,但选择查询只是从表中检索数据的选项。任何人都可以告诉如何使用删除查询从Hive表中删除重复的行。
确定不推荐或不是标准来删除/更新Hive中的记录。但我想知道我们该怎么做。
答
您可以使用插入覆盖语句来更新数据
insert overwrite table dynpart select distinct * from dynpart;
有什么其他方法可以让我们不必删除整个表并删除记录 – salmanbw