大数据平台架构都包含了哪些内容

2019/10/9 11:54:45 作者:互联网发布企业：运城达内科技有限公司[打印]

随着大数据技术的不断发展,越来越多的企业都开始搭建自己的大数据平台,而今天我们就通过案例分析来了解一下,大数据平台架构都包含了哪些内容。

一、分析架构

面向数据分析和风控人员

Hive和Pg是主力,

Hivew/spark我们做了些优化后,性能还不错,日常大作业和交互查询都在上面

对于精确小查询,又碰上Hadoop资源吃紧,我们建议走TiDB

中间表和输出结果放Pg,是对外报表的主要后端

借助pipelineDb及其他辅助插件,中间表可以在Pg实时生成,并按需同步到其他地方

二、线上架构

面向线上业务系统

TiDB是主力,

历史/全量查询、跨库查询以及业务脚本运行都走TiDB

需要同时访问冷热数据的,用Pg+Mysql_fdw支持(注:适用于条件明确的查询,条件模糊/大查询不适合)

Pgw/pipelineDb用作实时洗数,结果实时同步到需要的地方(计算过程中需要用到线上MySQL主库或TiDB数据的,可以自由访问)

三、流处理架构

既能支撑大规模分布式计算,又兼具PgSQL生态优势。

在数据流动的各个环节都可以自由处理,

Flink主要用于超大规模数据预处理以及CEP等特殊场景(开发、部署及管理成本要高些)

Pgw/pipelineDb推荐日常使用,Pg生态,复杂join、访问外部数据方便

借助数据总线Flink和Pg/pipelineDb可以轻松整合

四、开放架构

这一部分落实“无边界”大数据平台的想法

核心组件服务化,

Kafka服务化,数据直写&消费

Spark服务化,计算资源开放

TiDB、Pg通过JDBC服务化

ES通过Rest接口服务化

开放架构让大数据平台融入业务系统,同时通过流处理业务逻辑也可以托管在大数据平台上。

说不好是业务系统选择了大数据平台,还是大数据平台融化了业务系统。用一个词描述可能更合适,那就是“平台化”。

【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!

关键字：运城达内,大数据,IT培训

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。行业信息网对此不承担任何保证责任。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

会员登录	免费注册
发布新闻	发布产品