位置:编程技术网 > 编程语言 > 正文 >

睿帆科技:千亿级数据毫秒响应的分布式列存数据库雪球DB

2021年01月12日 16:11来源:未知手机版

七宝,孙佳仁傲慢舞,比克尔

近两年,大数据作为重要资源被提上国家战略。今年两会,马化腾、雷军、丁磊、张近东等互联网企业的全国两会代表委员就关于大数据战略、数字经济发展积极献策。

此外,国家发改委还在近期刊发了关于2020年发展数字经济的八大举措。

例如“实体经济数字化融合;促进数据要素流通;发展新型基础设施”等,以鼓励传统产业加快数字化转型,推进前沿信息技术在各场景的融合应用。

海量的数据是政务管理、企业数字化转型的核心生产因素,但现阶段,真正被有效储存、使用的数据还不到10%。如何唤醒大量“沉睡的”数据并从中寻找、分析有价值的信息,促进业务发展,无疑是一个巨大挑战。

“4G时代,大数据更多是服务IT基础建设成熟行业的头部客户,离个人还有一定距离。5G的到来和国家进一步提出深化大数据的发展,更多中小型企业对于数据采集、存储、治理、分析和挖掘的需求也在快速增加。”在睿帆科技大数据科学家、雪球数据库总架构师李求实博士看来,行业头部企业数据每年以PB级甚至上百PB爆炸式增长,催生了对于PB级数据量在线或实时数据分析的处理能力的需求。

关于PB级数据,美国未来学家雷·库兹韦尔有过一个形象的比喻:如果人类功能记忆的容量预计在1.25个TB,那么800个人类记忆才相当于1个PB。

面对庞大的数据量,很多企业早期主要通过抽样数据来获取结论。李博士告诉笔者,这种方法的弊端在于“抽样之后的数据变成了百万级或千万级,是原始数据的一个子集,和实际情况会有很大偏差,导致根据样本得出的结论可靠性大大降低。”

为了追求数据的准确性,有的企业不得不降低数据处理的实时性,采用离线处理的方式。但数据的价值就在于其时效性,越早分析越能得到快速准确的反馈或响应,并及时利用结论指导后续的业务工作。

此时,一款针对海量数据进行毫秒级在线即席查询分析的数据库就显得尤其关键——它甚至决定了企业是否能以比竞争对手更低的成本、更快的速度解决问题,构建起核心竞争力。

满足大数据量查询的稳、准、快

过去十年,业内一直推崇的分布式计算平台是Apache基金会旗下的Hadoop。2009年,Hadoop将1TB数据的排序时间缩短到了62秒,从此名声大噪。

它也凭借其高可靠性、高可扩展性、高容错性和低成本成为当今大数据领域运用最多、范围最广的技术平台,被雅虎、FaceBook、last.fm等众多公司应用。

李博士介绍,由于Hadoop的设计初衷是针对存储和分析离线大数据,因此无法提供便捷高效的数据交互、多维分析、快速查询服务,“虽然产生了诸多如Spark、Impala、Drill等SQL>

为了帮助企业做到稳、准、快的实现海量数据的调用需求,掌握PB级数据核心处理技术的大数据产品及解决方案供应商睿帆科技,在原有的零距大数据中台的基础上,自研了一款具有千亿级数据毫秒查询速度的分布式分析型数据库雪球DB。

“雪球”的特点主要在于列式存储,向量化执行引擎,高可靠的集群架构以及数据自动均衡、实现副本异步拷贝的能力。


首先,与行式存储将每一行的数据连续存储不同,列存是连续存储每一列的数据。它的优势是在数据读取时,只需要读取参与计算的列,这极大降低了IO>

其次,雪球DB还实现了向量化执行引擎,对内存中的列式数据,一个批次调用一次指令(而非每一行调用一次),不仅减少了函数调用次数,而且可以充分发挥指令的并行能力,大幅缩短了计算耗时。相当于让数据处理的效率有了几何倍的提升。

此外,雪球DB通过Share-nothing节点方式,消除了主节点性能瓶颈,大幅提升集群性能。

本文地址:http://www.reviewcode.cn/bianchengyuyan/185674.html 转载请注明出处!

今日热点资讯