SDCC 2016大数据技术&架构实战峰会(杭州站)是由CSDN主办的顶级技术盛会,大会目的是促进更加深入的业内同行技术交流,传播先进技术理念。SDCC 2016·杭州站为期两天,主要面向对大数据/架构技术感兴趣的中高端技术人员,将秉承干货实料(案例)的内容原则,聚焦技术实践,结合业务,邀请业内顶尖的架构师和技术专家,共同探讨海量数据下的应用监控系统建设、异常检测的算法和实现、大数据基础架构实践、敏捷型数据平台的构建及应用、音频分析的机器学习算法应用,以及高可用/高并发/高性能系统架构设计、电商架构、分布式架构/微服务等话题与技术。
有赞是一家移动零售服务商,致力于为企业和个人提供全套的移动电商产品服务方案。大会前夕,有幸邀请到有赞大数据团队负责人洪斌接受CSDN记者专访。
有赞大数据团队负责人 洪斌
洪斌,有赞大数据团队负责人。在数据仓库,搜索引擎,机器学习方面有较丰富的经验。2015年加入有赞,负责有赞大数据平台和搜索引擎的搭建及应用。之前担任汽车之家广告平台架构师。
以下为采访正文
CSDN:请介绍下自己和目前从事的工作,以及关注哪些技术领域?
洪斌:热爱coding,热爱大数据。主要从事搜索引擎,数据挖掘以及大数据领域的技术研发和管理工作。2015年4月加入有赞,负责有赞搜索/推荐,数据仓库的搭建和实施。本人也有幸经历了有赞发展成为服务百万零售商过程中,面临的一系列挑战和机遇。
CSDN:微电商是区别于传统电子商务的电商模式,有赞作为一个移动零售服务商,它的大数据平台架构是怎样的?有什么不同?
洪斌:有赞的主要特点之一是服务于各行各业的零售服务商,他们有不同的场景和产品要求,这使得我们的业务类型多样且变化较快;其次我们持续保持一个小的高效的企业,要求每个产品运营人员了解行业,了解客户,这样,我们对数据的要求也越来越“精细化”。
基于如上特点,我们的大数据平台在设计上尽可能保持简洁。具体的体现在如下几点。第一,数据仓库不再像传统的数仓模型这么的层级;第二,我们期望数仓模型随着产品的更新逐步迭代,而不是一开始设计完备的数据模型;第三,我们提供数据仓库周边设施,比如数据字典,数据地图等来帮助使用者理解数据仓库的数据结构和血缘关系,降低数据仓库的学习门槛。
“精细化”的要求我们的数据可以在一定的程度可以被一线人员理解和使用。而不仅仅是数据分析师才能使用的数据工具。我们在数据仓库基础上搭建了OLAP多维分析系统,让使用者可以方便的进行数据挖掘;而为了达到灵活的查询和筛选,我们把数据仓库按照实体搭建搜索引擎,供使用者查询和研究。
从上也可以看出,技术为业务服务,在移动互联网的背景下,影响数据平台价值的最关键因素还是数据人才的质量。首先要懂业务,了解细分行业的需求和痛点才能有目的的挖掘数据的价值;其次才是有手艺。这样的人才也是我们最缺少的。
CSDN:在应用数据仓库技术时您遇到过哪些挑战?能否分享您的解决思路,以及最新的成果?
洪斌:最重要的挑战还是我们的效率问题。我们在做数据仓库的规划时候,我们的假设是每个产品线的生命周期不超过半年。除了上述的几点外,我们建立一套自动化ETL的工具可以方便的将mysql和日志实时导入大数据平台中。为了让数据仓库更好的服务于使用方,我们技术人员需要参与数据产品的设计和后期的迭代。
数据挖掘是另外一个挑战,商户画像,商品池归类以及反作弊都是数据分析的基础。而这些技术需要时间的积累,同时也非常容易发生变化。我们数据挖掘的成果沉淀成数据仓库的一部分,并通过统一的口径发布出去。这样可以让每个使用者都可以享受数据挖掘的便利。比如我们通过反作弊技术标记每个交易的作弊类型,写入相应的分析表中。这样每个分析师都能够在实践过程中避免作弊数据带来的偏差。
页面埋点的问题也很头疼。实际上我们到现在都没有解决这方面的问题。
CSDN:在时下这个业务变更频繁的背景下,可否为我们分享下互联网做数据仓库的经验?
洪斌:“拥抱变化,可以溯源,接口多样”是我们总结出来的经验。拥抱变化是指数据仓库尽可能保持简单,我们提供最多的数据模型层是近源数据层,它仅仅是业务数据的物理结构的反映;往上一层是数据宽表,它提供基本的数据质量和数据整合的服务;最后才是数据指标表,提供数据分析基本的基础指标。只有非常稳定的业务才会达到这一层;
可以溯源,强调的是数据质量问题。我想数据从业者都经历过对账问题,非常耗时也非常的痛苦。我们在设计上保证数据指标可以溯源,通过血缘分析来尽可能避免数据质量的问题。
在实践过程中,我们越来越明显的感觉到大数据时代,不存在一个通用的工具可以解决所有问题。不同的问题有不同的解决方案。在数据处理上面统计类的需求我们使用hive,算法型的需求我们需要使用spark的迭代计算优势。在BI层面上,我们提供即席查询,OLAP系统,搜索引擎以及报表系统来满足不同场景和不同角色的数据需求。
CSDN:您怎么看待大数据这个领域以及未来的发展方向?
洪斌:这个问题我不好说,我对大数据的理解还比较肤浅。就我来看,大数据有平台化的趋势,越来越像一个通用的基础平台。它是一个企业数据的入口,同时也是数据的出口。企业的战略,产品的更新和技术的演进都依赖大数据平台的发展。
CSDN:在本次SDCC 2016(杭州)大数据峰会上,您分享的话题是?
洪斌:我分享的主题是有赞大数据实践:敏捷型数据平台的构建和应用。分享一下这一年来我们走过的路程。我们尽可能讲述我们最真实的经历和感受,同时由于我们的能力有限,也请各位朋友指正。谢谢!