push-推送部署统计数据重复-问题处理
push-推送部署统计数据重复-问题处理
首先来看需求。
我们发现确实重复了,那么一开始估计是无从下手,没关系,我们有思路。
首先找到文档:
看看页面
svn代码位置在哪里。
检下来
然后。
这个可以一路追到:
到这里有两个分支,我们要看到使用的数据库,和使用的表。所以依次挨个进去看。
这个是url。
这个是库
这个是表的操作查询:
可以看到库是:
$uri = 'mongodb://192.168.0.141:27010';
库:connection->push_report;
$db->push_detail_statistics_deploy;
ok,我们进去xshell
我们发现真的有很多重复的,一开始我是手动删除,后来气得直接删了
db.push_detail_statistics_deploy.find({"pt":"2017-09-05", "udcnt" :1932});
db.push_detail_statistics_deploy.remove({ "_id" : ObjectId("59af4aff813b1f31b86053bb"),"pt":"2017-09-05"});
干脆直接删除吧,然后直接重新跑。
db.push_detail_statistics_deploy.remove({"pt":"2017-09-05"});
数据已经全部被删除了。
然后我们去看步骤,因为push以前也说过嘛,有三步,这个应该是出现在第三步,从hive往mongo同步时出现了问题了。否则就是hive平台出现了问题。
这里我们先看
第一个是hive平台算数据入hive表,第二个红框框是执行jar文件,第三个红框就是我们的hive表同步到mongo了。我们这里执行
cd /etl/tools/etl-python/push;/opt/cloudera/parcels/CDH/lib/hadoop/bin/hadoop jar /home/OTAtest/ToMongo-0.0.1-SNAPSHOT-jar-with-dependencies.jar push_detail_statistics_deploy 2017-09-05 2017-09-05 > ./hive2Mongo.log
注意时间是9月5号的。