当前位置:网站首页># DWD层及DIM层构建## ,220801 ,
# DWD层及DIM层构建## ,220801 ,
2022-08-02 22:29:00 【啊六六六】


![]()
orc节省90%空间,,

自己写代码,不要复用代码,ods一套dwd一套,,
简历只描述ods层(orc格式)自动化建表,,,
dwd一般需要数据清洗,,
avro数据类型只要string,bigint,没有注释,,








如果一个项目主题特别多,将主题进行分类
将不同主题划分到不同的主题域
ods_usr_visit_1d
表名:分层_主题域_业务名称_时间粒度


简历写一两个主题,,非常熟悉,,
需求决定
减少join?


rank过滤减少数据量,,,


两种性能一样,,
PPD:谓词下推(hive,SparkSQL支持)
思想:将过滤条件提前
![]()


过滤提前,,
sparkSQL从下往上看,stage,hive反着看,,
Hive/Spark:谓词下推 SQL层面优化,
先把不需要数据提前过滤掉,再做Join、分组聚合
尽量手动谓词下推,,容易摸鱼,,
为啥spark看不到库名呀 忘记了 记得提过 兼容性问题,,

后面没有过滤条件,,,


规范:尽量避免同层调用

笛卡尔积
1-显示申明:cross join
2-开启参数:其他join的时候不给关联条件
cross join ==后两表先join,,

SQL只能repartition,,
实际操作,先抽取好表字段,再建表,,,








floor



连上3天 , 2天面试加强,
review,,
![]()
今年会把下一年的每一天对应的时间维度的信息放入对应的年分区中(需要文件时,找老师要)
报错明天问老师??
查询没有问题,插入数据表就报这个错误,,
查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,
, 

--派工单状态名称 select dictid,dictname from one_make_dwd.eos_dict_entry where dicttypeid = 'BUSS_WORKORDER_STATUS';
--来电类型名称 select dictid,dictname from one_make_dwd.eos_dict_entry where dicttypeid = 'BUSS_CALL_TYPE';

报错明天问老师??
查询没有问题,插入数据表就报这个错误,,
查看hive中数据表,输入密码,还是一直弹出这个窗口,查看不了dwd里面的数据,

边栏推荐
猜你喜欢

【Unity】Unity开发进阶(六)UnityEvent使用与源码解析

HCIP(16)

无代码开发平台表单样式设置步骤入门课程

The latest real software test interview questions are shared. Are you afraid that you will not be able to enter the big factory after collecting them?

第十章 时序与延迟

Technology Sharing | How to do assertion verification for xml format in interface automation testing?

Towards a General Purpose CNN for Long Range Dependencies in ND

MySQL 与InnoDB 下的锁做朋友 (四)行锁/记录锁

万物智联时代,悄然走入生活

CodeTON Round 2 A - D
随机推荐
JS 包装类 Math对象 round max() min() random
创建型模式 - 单例模式Singleton
Matplotlib drawing core principles explain (more detailed)
同样月薪6K,为什么同事跳槽月薪翻倍,而你只涨了1000?
Shunted Self-Attention via Multi-Scale Token Aggregation
H.265视频流媒体播放器EasyPlayer.js集成时出现“SourceBuffer ”报错,该如何解决?
执子手,到永恒
函数:计算组合数
No code development platform data ID introductory tutorial
Jmeter二次开发实现rsa加密
Ruoyi integrates minio to realize distributed file storage
反弹shell原理与实现
如何通过 IDEA 数据库管理工具连接 TDengine?
Tanabata is here - the romance of programmers
在迁移测试中,源表、中间表、目标表的迁移规则
Jmeter secondary development to realize rsa encryption
B站回应HR称用户是Loser:涉事面试官去年底已被劝退
HCIP(17)
刚安装完win10专业工作站版,系统变量中Path默认值有哪些?重新建一个“PATH”变量名,会覆盖掉原先的“Path”。
【使用pyside2遇到的问题】This application failed to start because no Qt platform plugin could be initialized.