随着大数据技术的不断发展,越来越多的企业都开始搭建自己的大数据平台,而今天我们就通过案例分析来了解一下,大数据平台架构都包含了哪些内容。
一、分析架构
面向数据分析和风控人员
Hive和Pg是主力,
Hivew/spark我们做了些优化后,性能还不错,日常大作业和交互查询都在上面
对于精确小查询,又碰上Hadoop资源吃紧,我们建议走TiDB
中间表和输出结果放Pg,是对外报表的主要后端
借助pipelineDb及其他辅助插件,中间表可以在Pg实时生成,并按需同步到其他地方
二、线上架构
面向线上业务系统
TiDB是主力,
历史/全量查询、跨库查询以及业务脚本运行都走TiDB
需要同时访问冷热数据的,用Pg+Mysql_fdw支持(注:适用于条件明确的查询,条件模糊/大查询不适合)
Pgw/pipelineDb用作实时洗数,结果实时同步到需要的地方(计算过程中需要用到线上MySQL主库或TiDB数据的,可以自由访问)
三、流处理架构
既能支撑大规模分布式计算,又兼具PgSQL生态优势。
在数据流动的各个环节都可以自由处理,
Flink主要用于超大规模数据预处理以及CEP等特殊场景(开发、部署及管理成本要高些)
Pgw/pipelineDb推荐日常使用,Pg生态,复杂join、访问外部数据方便
借助数据总线Flink和Pg/pipelineDb可以轻松整合
四、开放架构
这一部分落实“无边界”大数据平台的想法
核心组件服务化,
Kafka服务化,数据直写&消费
Spark服务化,计算资源开放
TiDB、Pg通过JDBC服务化
ES通过Rest接口服务化
开放架构让大数据平台融入业务系统,同时通过流处理业务逻辑也可以托管在大数据平台上。
说不好是业务系统选择了大数据平台,还是大数据平台融化了业务系统。用一个词描述可能更合适,那就是“平台化”。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!