位置:编程技术网 > 架构设计 > 正文 >

浪潮信息:企业互联网化下的数据平台升级

2020年07月18日 21:22来源:未知手机版

扫描仪的功能,海贼王之无双大蛇,辣妹曾根

主讲人 | 浪潮信息数据库产品线总经理-乔鑫
张康 编辑整理
量子位编辑 | 公众号 QbitAI

量子位编辑 | 公众号 QbitAI

6月中旬起,量子位发起了以数据库为主题的系列公开课,邀请来自浪潮信息、蚂蚁集团、腾讯云等头部企业的数据库技术线负责人,围绕数据库的行业现状、趋势与技术进展等内容,以线上直播的形式为大家带来3期分享。

第二期直播中,浪潮信息数据库产品线总经理—乔鑫讲述了HTAP数据库的技术原理、优化方案以及开发部署概要等技术问题,为数百位观众带来前瞻的指导。

以下是分享内容实录,直播回放链接、PPT获取方式见文末。

当前数据库行业市场趋势

当前大数据时代,数据量持续的爆发。在行业权威报告中,我们能够从定性到定量有一个更清晰的认知:

从1970年到2005年,甚至2010年,数据的发展相对来讲比较缓慢,并且大部分数据是结构化数据。从2015年到2020年,数据量有了爆发性的增长。一方面,结构化数据在持续增长,另一方面,非结构化数据迅速增加。在2015年时,结构化数据与非结构化数据各占半壁江山,但到了2020年时,结构化数据约占1/5,非结构化数据将占到4/5。

随着互联网、云计算、大数据的普及,数据量增长速度加快,数据的类型也更加丰富多样。根据IDC的预估来看,2020年整个数据量能达到50ZB,到2025年整体数据量将达到175ZB。

数据的结构分类

结构化数据、非结构化数据、半结构化数据都表示什么?

用技术的语言来讲,能用二维表的方式表现出来的数据就是结构化数据,用关系型数据库来做相应的支撑和存储。结构化数据典型性的代表,有:银行账户信息、企业CRM、ERP信息等数据,包括我们在上学时的档案信息等。

与结构化数据相对应的就是非结构化的数据,结构化的数据是用二维表能够进行表现、存储管理,非结构化数据无法用二维表去表现和存储。非结构化数据的结构不规则、不完整,没有预定义的数据模型。比如我们通常看到的文本数据、图像数据、音视频数据等都属于非结构化数据。

在结构化数据和非结构化数据之间,还有半结构化数据。半结构化数据、包含相关标记,用一些分隔符可以对数据进行相应的分割,但是实际上里面还是有大量的数据的结构是不规则的。邮件、html、xml等都是常见的半结构化数据。

数据的价值分类

上述分类是根据数据的类型进行分类,我们也尝试着根据数据的价值分类,分为稠密数据和稀疏数据。

稠密数据具有三大特点,首先是价值密度比较大,数据容量较小。以金融行业为例,信用卡的数据就是稠密数据,用户的每一条消费记录都是有价值、不能丢失的。稠密数据的数据量通常是在GB到TB级别,少数能达到PB级,它的数据容量相对来讲还比较小。其次稠密数据的变更相对比较频繁,数据流量比较小。

稀疏数据也有三大特点,首先是数据价值密度比较小,但整个的数据的容量是比较大的,有几百TB甚至达到几十PB的规模。其次稀疏数据产生的速度比较快,数据来源比较多样。比如拍摄视频的摄像头,一天24小时都在记录、产生大量的数据,但是这些数据里的价值密度相对比较小,可能只有在发生某些事故时,我们去查看对应的某一段或者是某几帧来了解事故的情况,才体现出一些价值。

针对稠密的数据和稀疏的数据,我们用什么样的架构来进行支撑呢?

稠密数据一般采用核心式架构来进行相应的支撑。核心式架构最主要的特点是数据的一致性要求非常高,节点级的可靠性要求也非常高。节点级的可靠性一方面是指软件(基础软件、操作系统、数据库),另一方面也指硬件(服务器、存储、网络等),对于可靠性的要求都非常高。核心式架构的另一个特点是业务稳定性非常高,对于整体的运维来讲比较便捷。

本文地址:http://www.reviewcode.cn/jiagousheji/157759.html 转载请注明出处!

今日热点资讯