虾皮 大数据开发工程师面试题精选:10道高频考题+答案解析(附PDF)
虾皮简介虾皮(Shopee)是东南亚领航电商平台,覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西等十余个市场。作为Sea集团旗下核心业务,虾皮在深圳、北京、上海等地设有研发中心,技术栈以Java、Go、Python为主,大数据平台基于Hadoop、Spark、Flink等开源技术构建。虾皮大数据团队负责电商全链路数据体系建设,包括用户行为分析、商品推荐、供应链优化、风控系统等核心业务。面试风格注重工程实践与业务场景结合,常考数据倾斜优化、实时计算架构、数仓建模等实际问题。题目1:请介绍你实习中负责的数仓数据流向及核心业务场景题目描述:面试官想了解你对大数据项目整体架构的理解,以及如何将技术应用于实际业务。答案要点:数仓数据流向通常遵循分层架构:ODS层(原始数据层)→ DWD层(明细数据层)→ DWS层(汇总数据层)→ ADS层(应用数据层)。ODS层负责采集原始日志和业务数据,DWD层进行数据清洗和维度退化,DWS层按主题域聚合,ADS层直接支撑业务报表和API服务。核心业务场景包括用户行为分析(点击、浏览、购买路径)、商品推荐(协同过滤、实时排序)、供应链优化(库存预测、物流调度)、风控系统(异常交易检测)。以电商场景为例,需要处理日均数亿条用户行为日志,通过Flink实时计算用户兴趣标签,支撑秒级商品推荐。扩展提示:回答时要突出业务价值,比如"通过实时数仓优化,将用户行为分析延迟从小时级降到分钟级,支撑了大促期间的实时营销决策"。题目2:详细说明一个具体业务模块,包括所用技术栈与上下游用户题目描述:考察你对具体项目的深入理解和系统设计能力。答案要点:以"用户画像系统"为例,技术栈包括:数据采集层(Kafka+Flume)、存储层(HDFS+HBase)、计算层(Spark+Flink)、查询层(ClickHouse+Redis)。上游是用户行为埋点系统和订单系统,下游是推荐系统和营销平台。具体实现:通过Kafka接收用户行为事件,Flink实时计算用户标签(如"高