bitcoin区块数据的获取及mysql的优化加速

距离找到获取比特币余额的方法已经过去四个多月了,中间停顿了一段时间,没有深入研究,最近又重新拾起这个需求来,遇到了一些大大小小的问题,记录下来,作为自己一个成长的见证

 

开始时的代码结构是这样

bitcoin区块数据的获取及mysql的优化加速

每个getblock返回的tx可能是几个到几千个,每个tx可以根据gettransaction生成详细的交易记录older,根据交易信息获取当前接收方的utxo及address地址,这样从头连到尾便会形成比特币这个特殊的余额。

当然,在成功之前遇到了各种问题,然而都合理解决掉了

 

首先是围绕性能问题,ps:主要是性能问题,其他问题都不大,本文就不罗嗦了。

性能瓶颈1

由于每次找到一个交易详情后,需要向前一步找到send,也就是每一个txid对应的是至少两次操作。

相对的时间至少会增加两倍,实际肯定会超出两倍。

解决方法

遍历一次txid,通过两种不同的数据表存放send及rece,用相对较小的空间换取时间,性能提高两倍有余。

算法复杂度由O(n*N)缩小为O(n)。

实际上这个方法也改变了数据存放的结构,间接影响了mysql的性能。

 

性能瓶颈2

bitcoin的API命令gettransaction命令会去index文件夹下遍历levelDB数据库

锁定到这一行代码后,研究了一番levelDB,发现levelDB的写性能十分强劲,而随机读就有点相形见绌了。

要知道bitcoin截至到目前为止将近4亿个txid,而我每次通过gettransaction访问txid的交易记录便是一次随机读。

根据实际测试,平均读取速度是每次70ms左右,要知道,光是读取txid就要1000个小时,这肯定是不可以的.

解决方法

解决方法是通过getblock获取整个tx下的txid交易详情,执行一次大约需要400ms,但是getblock对应的数据量只有区区56万多个块,获取同样数量的txid只需要72个小时,性能提升有多高不需要细说了吧。

 

性能瓶颈3

mysql插入语句insert,开始时使用go库中sql的事务,后来检查sql语句在执行事务时是每个value执行一次insert语句。

要知道,mysql资源占比中,语句的重复插入占比非常高。

解决方法

将value值用字符串拼接方法拼接,一个数据表只执行一次insert语句便将所有对应的value插入

在这个方法下,性能提高5-10倍,由于预计将有20多亿条数据存放,所以mysql分表数量为512个。

多个表的情况下确实会降低mysql的insert性能,不过这些相对数据量来说是不可避免的。

 

性能瓶颈4

mysql中的主键索引随着数据量的增加也会直接影响性能,经过测试,当每个表中的数据量达到几万时,便会大大降低insert速度

解决方法

索引在insert时不设置,当数据插入完成后设置

性能相对来说,提高几倍-几十倍,这个没有实现完整的表数据无法获取到精确数值

 

性能瓶颈5

由于以上所有的硬盘操作都是采用win10下的机械硬盘,所以考虑到服务器的c盘是固态硬盘,将mysql的数据移到c盘的固态中

解决方法

经过测试,由原来的机械硬盘100%占用率到固态硬盘的5%占用率,看到后大喜。

直接开10个并发,因为一开始写代码时就考虑到了以后要并发,所以并发只是一个参数的问题。

开启并发后,cpu占用率到70%,固态占用50%。

性能相比最开始的提高整整几千几万倍。

 

经过计算抓取完整区块信息时间不超过2天48小时,整个过程包括getjson,解析,分类,存库,最后大功告成。

这个过程非常的舒服,很有成就感,本次分享到此结束。