【笔记】用户行为数仓业务
1 数仓分几层每层做什么的1ODS层原始数据层存储原始数据直接加载原始日志、数据数据保持原貌不做处理。2DWD层明细层对ODS层数据进行清洗去除空值、脏数据超过极限范围的数据3DWS层服务数据层以DWD层为基础进行轻度汇总。比如用户当日、设备当日、商品当日。4ADS层数据应用层2 Tez引擎优点Tez可以将多个有依赖的作业转换为一个作业这样只需写一次HDFS且中间节点较少从而大大提升作业的计算性能。3 在项目中是否自定义过UDF、UDTF函数以及用他们处理了什么问题自定义过。用UDF函数解析公共字段用UDTF函数解析事件字段。4 如何分析用户活跃在启动日志中统计不同设备id 出现次数。5 如何分析用户新增用活跃用户表 left join 用户新增表用户新增表中mid为空的即为用户新增。6 如何分析用户1天留存留存用户前一天新增 join 今天活跃用户留存率留存用户/前一天新增7 如何分析沉默用户按照设备id对日活表分组登录次数为1且是在一周前登录。8 如何分析本周回流用户本周活跃left join本周新增 left join上周活跃且本周新增id和上周活跃id都为null9 如何分析流失用户按照设备id对日活表分组且七天内没有登录过。10 如何分析最近连续3周活跃用户数按照设备id对周活进行分组统计次数等于3次。11 如何分析最近七天内连续三天活跃用户数1查询出最近7天的活跃用户并对用户活跃日期进行排名2计算用户活跃日期及排名之间的差值3对同用户及差值分组统计差值个数4将差值相同个数大于等于3的数据取出然后去重即为连续3天及以上活跃的用户12 整个文档中涉及的所有层级及表