当前位置:网站首页>数据平台简介
数据平台简介
2022-06-24 07:03:00 【一个不靠谱的程序员】
目标
- 为了给各个业务平台提供稳定可靠的数据
- 提供一个通用的数据处理流程解决方案
- 生成一些面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合
- 整合多个数据源的历史数据进行细粒度的、多维的分析
- 说白了就是读取数据–>生产数据–>交付数据的过程
一些概念
ETL
ETL,Extraction-Transformation-Loading的缩写,中文名为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。
数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
目前要解决的问题
- 需要任务调度监控平台来管理数据读取、生产、交付的一系列脚本,任务的调度与监控。
- 需要一个API接口平台来满足一些数据的即席查询。
- 需要一个数据同步平台来将生产完成的数据同步到各个业务端。
- 需要一个数据检测平台来控制交付数据的质量。
- 需要一个BI数据展示的平台来清晰地展示不同角色关注的各个维度数据。
解决方案
- 使用airflow来搭建ETL系统,即编排调度一系列数据的采集脚本,清洗脚本,数据汇总,聚合,预计算多维度指标的工作。提供任务监控以及webUI可视化任务依赖。
- 使用dataX来完成数据同步工作。
- 使用lumen来做API接口平台。
- 数据检测平台和BI展示一期暂时不考虑。
技术栈
airflow(python)、lumen、postgreSQL、dataX、elasticsearch
后期基于数据量会做spark分布式集群离线计算,hdfs存储,流计算、hive等
理想状态
后期的日志分析可以接入ETL系统来分析用户行为,用户画像,提高系统的安全性。
对绩效日报,周报,年报等数据展示汇总提供更短的时延,降低业务系统的负载。
对ERP数据进行汇总分析来为领导层决策提供参考。
对APP日志进行汇总分析来为产品设计和运营提供一些数据事实依据。
同时面对数据极速增长情况下大数据分析也能够得心应手。
“罗马不是一天建成的”
边栏推荐
- ZUCC_ Principles of compiling language and compilation_ Experiment 03 getting started with compiler
- 到底哪一首才是唐诗第一?
- WCF TCP protocol transmission
- Easycvr invokes the interface parameter acquisition method and precautions of device video recording on the page
- LabVIEW finds prime numbers in an array of n elements
- New technology practice, encapsulating the permission application library step by step with the activity results API
- Robot acceleration level task priority inverse kinematics
- Review SGI STL secondary space configurator (internal storage pool) | notes for personal use
- How to replace the web player easyplayerproactivex Key in OCX?
- 12-- merge two ordered linked lists
猜你喜欢

MAYA重新拓布

Maya re deployment

Understanding of the concept of "quality"

uniapp 热更新后台管理

12-- merge two ordered linked lists
![[untitled]](/img/94/792e8363dbfe67770e93b0dcdc8e72.png)
[untitled]

Two methods of QT exporting PDF files

Centos7安装jdk8以及mysql5.7以及Navicat连接虚拟机mysql的出错以及解决方法(附mysql下载出错解决办法)

How to improve the customer retention rate in the operation of independent stations? Customer segmentation is very important!

RCNN、Fast-RCNN、Faster-RCNN介绍
随机推荐
MATLAB Camera Calibrator相机标定
贷款五级分类
ZUCC_编译语言原理与编译_实验05 正则表达式、有限自动机、词法分析
Promise usage scenarios
ZUCC_ Principles of compiling language and compilation_ Experiment 04 language and grammar
Qt源码分析--QObject(2)
QPS, TPS, concurrent users, throughput relationship
How to mount a USB hard disk with NTFS file format under RHEL5 system
Question bank and simulation examination for operation certificate of refrigeration and air conditioning equipment in 2022
orb slam build bug: undefined reference to symbol ‘_ZN5boost6system15system_categoryEv‘
How to handle the problem that calling easycvr address integration cannot be played through easyplayer player?
中国芯片独角兽公司
Application of tidb in Netease games
【无标题】
Qmenu response in pyqt
DHCP, TFTP Foundation
新技术实战,一步步用Activity Results API封装权限申请库
[acnoi2022] not a structure, more like a structure
Promise的使用场景
QT writing security video monitoring system 36 onvif continuous movement