集算器协助MongoDB计算之数位比较

  Mongodb脚本解决复杂问题的计算能力有限,直接使用时较为吃力。很多情况下需要将数据读出后在主程序中进一步完成运算,而在Java等高级语言中编写这类集合式运算也比较麻烦。这时可以用集算器esProc来辅助,这里通过一个例子来说明。

Mongodb中有一个test集合如下:

>db.test.find({},{"_id":0})

{"value" : NumberLong(112937552) }

{"value" : NumberLong(715634640) }

{"value" : NumberLong(487229712) }

{"value" : NumberLong(79198330) }

{"value" : NumberLong(440998943) }

{"value" : NumberLong(93148782) }

{"value" : NumberLong(553008873) }

{"value" : NumberLong(336369168) }

{"value" : NumberLong(369669461) }

具体的:test集合包含多个value,每个value是一个数字串。每个数字串都要和另外所有的数字串比较,找出每个数字串的最大相同数和最大不同数。如果第1行和第n行都含有数字1,就算相同数有1个,如果第1行有1n行没有,就算不同数有1个。

  集算器代码如下:

集算器协助MongoDB计算之数位比较

A1:连接mongodbip和端口号是localhost:27017,数据库是test,用户名和密码都是test

  A2:使用find函数从mongodb中取数,形成游标。集合是test,过滤条件是空,键_id不取出。可以看出,esProcfind函数中采用了和mongdbfind语句一样的参数格式。esProc的游标支持分批读取和处理数据,可以避免数据量过大,内存出现溢出的情况。这里因为数据量不大,所以用fetch出游标的所有记录。

  A3:A2的基础上增加两列,用来存放最大相同数和最大不同数。同时把value转成字符串。

  A4:针对A3集合循环,循环体是B4D10

B4:取当前循环的value

C4:利用函数将value分拆成单个字符组成的序列,去掉重复的值。

B5:对A3再进行一次内层循环。循环体是C6D10

C5:如果内层循环的循环位置和外层当前位置的相等,也就是说是同一个value的话,就跳过本次内层循环,进行下一次内层循环。

C6:取得内层循环的value

C7:定义两个变量samediff,分别存放本次比较的相同数和不同数,初始值为0

C8:利用循环函数,在内层循环的value中逐个查找外层循环的value分拆的序列数值。如果能找到,则same自加1,否则diff自加1

C9C10:将samediffA4中的samediff比较,将较大的重新赋值给A4中的samediff

运行结果是:

集算器协助MongoDB计算之数位比较

需要说明的是:esProc并不包含mongodbjava驱动包。用esProc来访问mongodb,必须提前将mongodbjava驱动包(要求2.12.2或以上版,如mongo-java-driver-2.12.2.jar)放到[esProc安装目录]\common\jdbc中。

集算器esProc协助mongodb计算的脚本很容易集成到java中,只要增加一行A11,写成result A3即可向java输出resultset形式的结果,具体的代码参考esProc教程。同样,用java调用esProc访问mongodb也必须将mongdbjava驱动包放到java程序的classpath中。