信息通信 - 活动家资讯 //m.catawbaoil.com 传递会议价值_深度行业分析 Wed, 21 Jun 2017 08:04:11 +0000 zh-Hans hourly 1 https://wordpress.org/?v=6.6.2 //m.catawbaoil.com/wp-content/uploads/2021/11/cropped-logo-2-32x32.jpg 信息通信 - 活动家资讯 //m.catawbaoil.com 32 32 IBM房树新:开源软件为大数据带来更大的商业价值 //m.catawbaoil.com/62113.html Wed, 21 Jun 2017 08:04:11 +0000 //m.catawbaoil.com/?p=62113 Read More “IBM房树新:开源软件为大数据带来更大的商业价值” »

]]>
2016年4月20日,“中国信息通信大数据大会”于北京召开。在本次大会上,工业和信息化部通信发展司司长闻库、中国通信信息化部副总经理兼CTO范济安、中国电信云计算中心主任赵慧玲等嘉宾出席了本次大会。

IBM系统硬件部电信行业技术总监 房树新

以下是IBM系统硬件部电信行业技术总监房树新演讲实录:

从电信运营商角度我们看到了几大地域,有B域、M域、O域,IBM过去很多时候都是在B域里面,在CRM这一块做的很多,另外在数据仓库这一块,不管是服务器的提供和软件的提供。随着大数据这几年如火如荼的发展,我们的工作也主线是在精分这一块,还有在B域这一块展开比较多一点。

我给大家展现大数据给我们带来什么?我们看到过去只是喊有技术了,怎么可以和实践结合呢?怎么利用大数据技术,能够给我们的企业带来价值,实际上过去我们也是在不同领域展开这样一个探索。现在来看,确实是随着大数据的建设,真的是带来了一种商业的价值。谈大数据都是X86、互联网发展来的,都用的是开源软件,是不是这些开源软件是在IBM平台上跑不起来呢?过去三大运营商里面很多应用服务器都是用的小机,小机上面可以跑AS系统,可以跑很多系统。现在我们在企业级用的各种各样的小机,完全可以把它装成一个操作系统可以使。

谈到大数据,大家说X86是廉价的,是成本比较低。从IBM在转型,它也推出了一系列的低端的服务器,用于在X86这样一个价格的档次,同时它又用到了一些小型机的处理能力、可靠性、稳定性,还有上面一些广大的运维支持的IBM的这些能力,这些能力不能光用IBM的商用软件,一定要用开放的软件去整合在一起。

这张图整合了,现在不管是O域、B域、M域常常用到的开源软件,这些开源软件在IBM的芯片上都能跑起来。过去我们做了很多实践,也是基于开源软件来的。我们是企业级的客户,除了用到开源数据,还要有KPI的要求,开源有可能不稳定,出现问题往往得不到及时的解决。现在有回归的看法,并不是追时髦,今天你出了某个版本,马上就使用。我要解决企业问题的,不是一个学术单位,不是一个研究单位,我一定要用有服务,有保障的解决方案,所以就冒出来了大数据有自己的模块,同时有服务支持能力的。IBM也是其中之一,第一部分是开源,你有我有,第二部分,你有,我没有,第三部分是各家公司在开源这上面加入的有价值的那一部分,这一部分是要收费的。同时如果这些东西用到企业级里面,还有一个运维的保障,这是给大家汇报一下解决方案。

我现在结合两个案例,给大家汇报一下我们在大数据领域里面做的众多案例里面选了两个,一个是纯开源的,一个是用的半商业的加开源的方案。第一个案例跟汤总介绍的有点类似,这个省份的运营商要把它的B域、O域、M域和第三方的数据做一个采集,有一个接口,数据抽取出来保存下来,在上面导入Hadoop,去做分析加工,然后再转到它的主体库里面。在这里面用到了X86一部分机器,用到了IBMpower芯片,构成了一个完整的大数据场景。

在最上面就是它的业务,跟上午各位领导专家讲的一样,客户的画像,精准营销,还有长漫游包的处理等等,都是基于整个大数据平台构建的一个业务层面的展现。到今天来讲,这个是做到了第二期了,第一期用了60台机器,上面构建了ETL等等,在接口层面透过IBM四台V7000,把各种数据抽取到这上面来,建立了一个全省统一的一份数据,能够被多个业务进行分析加工处理,这是一个IT的配置。

下面可以看到全是用的开源的东西,比如Hadoop的2.0、3.0。随着逐渐的建设,它引入了南大通用通用的数据库,用了28台机器,构建了高节点的数据库,跟原来的几十台的廉价的X86曙光浪潮的机器,构建了一个贮备库。随着业务量的突飞猛进,原来构建的库显得不够用了,到今天它扩到了102台机器的架构。这是一个架构演变的图,可以看到它的主库是DBT库,分布式数据库有主的,有备的,Hadoop也有一个全量的备份库,还有流处理的。这些库建设干什么呢?通过不同的库做不同的事情,比如DBT保存6+1月的地域的数据和备份数据,Hadoop是B域和O域的全量数据,通过6+1、12+1、3+1,根据业务保存不同的需要,用不同的X86技术和Power芯片技术,达到了一个混合的架构,一个是为了性能,一个是为了业务区分它的重要性和投资的考虑。

另外一个案例就是另外一个省的,这个省的案例原来是X86的案例,是用的纯开源的。纯开源碰到问题以后,得不到解决,用户吃了不少苦头。在后面建设的时候,他说我要在软件和架构层面有一个服务保障的解决方案,这里面就用到了30台Power系统,它认为是一个小机的架构技术,又是一个X86的价格,性能和稳定性是有保障的。另外原来用的全是CDH的解决方案,现在他用到了IBM的大数据文件系统,再结合开源的东西,来处理它的上网数据。这些每天的量达到50个TB,基于这样一个架构,各开发商在上面用SV来做各种各样的应用。

随着建设的发展,现在到了第二期,第二期主要是性能和容量,要补充第一期的不足。同时第二期还要再建一个跟第一期进行互补,或者是做一个互相备份的功能。在第二期里面就引入了更高版本的对Hadoop2.0的支持,构建了第二期的平台。前面通过处理,导向大数据平台。这基本上是第二期增加的部分,用了16核的机器,38台,用了IBM的大数据平台,建设了第二期,把数据和应用做隔离,做到两个系统同时运行,做到一个相互呼应。

另外一个就是用大数据来解决企业的问题,发现在性能方面还是不够。从Hadoop到SPARK,在内存迭代分析,觉得性能还不够,现在还得探讨引入SAPHANA这样的技术,我们能不能把它用在精分里呢?比如我把精分的数据和前面生产的数据,通过一个SAP工具导入HANA里面,我在上面进行分析加工,这也是现在展现的一个思路。其实这个是在国外HANA用的非常广泛,并且用的HANA都是支持十几个T、几十个T的一个场景。一种情况是用高端机器,我就用大内存、大数据能力来进行处理。

另外一个解决方案,我用受节点,构建多节点的东西去处理,这些东西对我们电信领域来讲都可以用。这个就举一个例子,在实时营销和实时报表方面,我就借用HANA快速内存计算的能力来引入这个技术进行处理。在这里我们探讨的是,我把数据仓库的数据导到HANA内存库里面,分析的时候基于HANA里面的数据进行分析加工,能不能在4G时代能够实时做到用户对通话,对流量使用的情况,快速作出决策。如果原来在数据仓库里面这个时间还是满足不了实时这块分析,引入HANA以后就是一个很好的思路。这些我们是在一些省份也在落地,在进行各种测试和验证工作。

另外用户提到在大数据里面,我买X86的机器,X86的机器可能在它的带宽上和CPU上和IO上有一些短板的地方,在Power芯片的机器能不能和X86机器搭一个混合架构,这边是给大家一个功能的验证。在一个Hadoop里面,我用Power芯片来做,用X86来做,构建一个混合的Hadoop没问题。如果是一个X86做主节点,其他的混合结构是做从节点,来发起对任务的调度和处理,也是没问题的。反之也是一样,通过这样一个验证,能解决有些省份的需求。我机器可能不被一家来绑架,我要根据我的集采,买了不同处理能力的机器,能不能放在统一大数据平台里面,构建一个多租户,统一共享的能力,甚至把Hadoop和SPARK在混合架构上来部署,这些是给大家一个信心,是可以的。

另外一个就是Docker,现在有了Docker以后,能不能把web服务器节点放在Docker里管理呢?Docker以及Docker之上的管理就摆在大家面前了,这是我们现在跟很多省份在谈,怎么把一些传统的架构改成一个微服务的结构,改成微服务的结构,就会带来什么问题呢?Docker那么多,怎么部署Docker?怎么监控Docker?怎么用多租户的方式,这个就带来了一个问题,IBM是在操作系统方面,在核心的调度管理方面是IBM有很多软件的积淀和积累。上午我的同事李永辉谈了很多多租户管理,我们把那个技术拿过来,绿的那一层,就可以和K8S对接,下面有Docker,同时加入了多租户的调度和管理,加入了监控和管理,加入了我上面的作业是实时应用的也好,我可以放在一起,构成一个统一的资源池,用Docker管理。这是IBM在开源的基础上,整合IBM有价值的能力,为我们不同的需要来提供解决方案。

另外从硬件上,这些加速方面,因为芯片的设计和带宽的设计,体系结构的设计,相对X86,我们就是有4倍或几倍的理论带宽和实际的处理能力。从实际处理能力来讲,给大家举一个例子,一台十核的机器和24核的E52090V3比,如果跑,我们一个核能跑到4.6个核的E52090V3的处理能力。简单总结一下,我们过去做了很多大数据的实践,为什么得到一些认可?一个是用户对小机的处理能力还是有一个继承性,另外它稳定、可靠性方面,他觉得比X86稳定。尽管X86可以说我用软件技术来屏蔽单点问题,但是现实很多软件还没有做到微服务,还没有像互联网那样,改造成容忍某个节点死掉,对整个系统的业务连续性还能保持很好,我们业务还没做到那一步。单节点的稳定性可能在现阶段还是一个强调的重点,另外在操作系统方面,可能买了一个订阅,有可能开了扣了以后解决不了,如果用IBM,IBM投入了巨大力量在参与社区,贡献核心的开发。我们看到很多实际的跟IBM结合的,IBM会有一个很强的队伍跳进来,分析这个内核的问题,也贡献了很多核心的功能。IBM我们是一块来解决问题,这也是一个售前、售后服务的保障和对核心业务的快速响应的保障。这些可能给大家有一个共识,在大数据方面,IBM还可以做一些事情。时间关系,我就介绍分享到这里。谢谢大家!

]]>
天云李从武:建设关系型数据库 //m.catawbaoil.com/62110.html Wed, 21 Jun 2017 08:02:11 +0000 //m.catawbaoil.com/?p=62110 Read More “天云李从武:建设关系型数据库” »

]]>
2016年4月20日,“中国信息通信大数据大会”于北京召开。在本次大会上,工业和信息化部通信发展司司长闻库、中国通信信息化部副总经理兼CTO范济安、中国电信云计算中心主任赵慧玲等嘉宾出席了本次大会。

天云大数据副总裁李从武

以下是李从武演讲实录:

感谢大会给我这个机会来介绍一下我们在大数据实践方面的一点体会。相对前面几个单位,我们还是一家小一点的公司,小的很多的公司,所以先简单介绍一下我们自己是谁。我们在IT里头是一家很年轻的公司,我们几年前才成立,所以我们不像很多其他做大数据的公司,他们可能以前是做其他的IT服务,我们是一家专门为大数据而构建的公司。但是我们从另一方面,我们也是一家很老的公司,因为我们是在2010年,我们公司的CEO雷涛他最先感觉到大数据Hadoop在这方面的一个发展潜力,所以我们从云基地孵化出来。在那个时代我们几乎是最早部署大规模的Hadoop,我们同时也是中关村大数据联盟的发起单位之一。也是像统计局等很多单位大数据合作企业,具体我不讲了。

我们讲三部曲,首先我们来谈一谈我们的品牌能力。从2012年开始和运营商合作,那时候我们首先要解决大规模部署,把一个开源的技术如何应用到企业级平台上。在那个时代,大家有不同的产品思路、产品策略,一部分人自己组建一支队伍,用开源的Hadoop技术一层层摞起来。另一部分公司在底层把一些开源的东西优化、封装,做成一个自己的产品。我们发现这两种方法都会面临着一个问题,就是开源技术蓬勃发展的势头和企业级应用的需求的矛盾,刚才汤总也在提,我们企业级用户如何使用一个开源的东西?我们当时就有一个新的思路,就是用一种大数据中间件的模式,在开源架构上来架构新的可靠的系统。

我们在金融系统已经部署了在金融系统里头的A类核心的大数据Hadoop集群,完全符合股份制银行对A类核心数据的要求。在平台方面我不详细介绍,简单讲一下,如果大家有兴趣,我们外头有一个展台,大家可以和我们的人员讨论。我们目前这个集群可以做异构集群的管理,包括底层用开源也好,过去有各种各样的Hadoop集群,我们可以用我们新的管理方式把它管理起来。我们不光是在集群管理,我们在应用层,往上甚至到模板层,我们都有我们自己的创新。特别是我们在大数据使用,我们叫模板层这个层面上,基本上已经和硅谷的公司在同步发展。

光有一个平台,大家有这个平台的处理能力,如何在使用平台上的数据,这是一个挑战。我们在和运营商合作过程中,直接面临着如何把数据用起来,在早期我们第一个项目只是看大规模的数源,一个用户用了手机,觉得数据不对,我们原来没法知道他流量用在哪了。后来通过我们对他系统的分析,可以知道他用了什么。但是这个数据大家都知道,这是一个金矿。刚才魏主任讲,如何去解析,如何知道他这个跑的是什么,内容是什么,如何知道他浏览了什么,这样我们做了一款叫数据魔方的产品。我们最开始解析了两千多个APP,现在已经发展到了六千多个主流的APP,这是滴滴打车的日志,如果我们仅仅看这堆日志的话,不知道它是什么,一大堆字符串。通过我们用机器学习的方法,我们发现每个字段的含义,有意义字段的含义,我们可以知道这个人他什么时候从哪到哪。包括大众点评,他去吃饭,我们知道他经常在哪几个饭馆活动,我们可以知道这些。这个就构成了一个类似叫黄页的东西,我们来把我们所看到的一大串看不懂的字符串翻译清楚。

这是我们已经做完的,但我们还会碰到一些新的问题。这些我们知道它是什么,它有它的标注好的地理位置,标注好的时间这些东西,还有一些东西我们不知道他在干什么,他读的是什么。我们经常讲,你在读一篇文章,那篇文章也在读你,所以我们为此就发展出一套自然语言处理的引擎。这套引擎就是我们讲的三部曲的第三部,我们从平台到数据的处理然后到人工智能的发展。人工智能可能大家都会想阿尔法狗,最早的人工智能,我自己以前小时候看的人工智能都是一个真正的机器人,一个真的跟我们一样的一个人。我们希望他长的跟我们一样的一个脑袋,里头跟我们一样的一个能思考东西的东西。

我们后来看到阿尔法狗,我们知道它可能是一堆机器,但是和我们在某一方面一样去想这个问题。但实际上从人工智能角度来说,它有不同的层次。我们不必一定要像人一样去读书,下围棋,或者和人一样去交谈,我们真正能去读懂他在读的什么东西,我们能用自然语言去处理。我们在用一些算法来做分析的时候,它本身也构成了一种智能。像早期我们坐飞机,所有人想飞机会有个翅膀扇一扇,但最后飞机是一个固定的东西。大家会说自然语言算法可能很早就有人在做,而且在各种各样的使用,我们有一个个别的。过去很多我见到的大部分都是我们讲的分磁,用磁频来处理,这个已经落后了,我们走在科技比较前列。因为我们自己有一个博士后流动站,我们可以知道一篇文章和另外一篇文章是相似的,比如这篇文章里头主要讲梅西,另外一篇文章在讲西甲的和他在竞争的一支球队,我们认为他也是在谈一个相似的事情,是语义空间的一个算法。这个我们可以做很多内容,我们可以做文本的分类,这个文本分类,我们现在外头有个演示系统,还是一个通用的分类,可以把文章分成是军事的、经济的、政治的,我们还可以做更专业的分类。我们给路透社做过,上市公司公告的分类,到底是IPO的公告还是重组的公告。这些东西原本是需要专业人士来看的,因为他不仅仅是看一两条规则,完全是需要专业知识来分析。而我们用机器学习的方法,就能够大致准确,大概我们做到接近90%的准确率,大致准确的一个分类。还有基于我个人的爱好,好比古文的断句,也是类似用机器学习的方法做分类。

还可以做主题的发现,新词的发现,新词的发现也很重要。我们要构建一个新的领域,好比是一个很专业的,类似我们做的金融领域的一个词语库。过去是用人手工去做,现在机器的方法做这种新词的发现。我们具体的应用,我们在实践当中,我们如何发现某一类人,我们给宜信做了一个项目,目标人群就是马农,我们要知道谁是马农,如何判断一个人是马农,不会贴一个标签我是马农,或者知道他职业是干什么的,我们通过他的阅读习惯,他浏览的内容,我们来判断他是不是马农。

我们再往下走,现在我们构建的数据库叫关系型数据库。我80年代末开始进入IT的时候,第一个工作就是讲关系型数据库。但是我们今天发现所谓的关系型数据库恰恰最不能反映关系,我们通常看到的一张张表,我们通常看到的习惯性的结构性的这些东西,真正你要表达出好比一个人群之间互相的联系,我给谁打过电话,构成所谓的关系,通过过去的关系型数据库是非常痛苦的。我们经常讲一个事情,就是所谓几度查询的问题。在前不久,浙江那边发生循环骗贷,几个人做一个循环担保,大家一起卷钱跑了。在过去的关系型数据库里头,我们很难发现这种循环的担保圈。今天我们用什么新的手段?就是复杂网络。复杂网络,这是我们一个新的产品,最大的应用就是给人行征信中心做关联关系的分析,企业间的借贷关系,企业间的担保关系,企业的股东、高管他们和其他公司的这些关系。我们不管他这个人,这个企业的大小,我们不管这些属性,我们只关心他们之间的关系。这个也用在一些互联网金融,我们刚刚做的另一个项目,是一个小额贷的公司。最热的一个词是征信,是建立在熟人关系基础之上的。你为什么有信用?熟人关系圈认为你有信用。如何构建一个整体的信用体系?用传统的数据库是完全做不到的,所以我们给他用了复杂网络这个拓扑关系。

另外就是一旦用了这种关系型数据库,大家会发现很多事情变得算起来很容易。这是另外一个关系案例,每个人网上有各种各样的身份,我们如何把人和人的联系,虚拟世界人和人的关系构建在一起,这是一个非常庞大的体系,一旦建立起来,你可以走一度二度三度四度。我们在一个很大的拓扑里,两千多个节点,我们查一个四度五度的关系图谱,我们只是秒亿级的运算,过去做两周三周,完全不可接受。

我们再往下走,就是我们叫数据挖掘平台,实际上就是一个真正的算法平台。这个平台的出现是我们长期的一个实践的结果,因为我们自己有不同的团队,有算法团队,有产品团队,有写代码的,有做科学研究的。我们发现这些人要打通在一起,是一个蛮挑战的事情。特别是算法平台的人作出一个算法,如何把它并行化,这些也都是挑战。我们做了一个平台,我们让希望做算法的人很容易一步一步去实现他所设想的这些东西。

这个算法目前在第一版包括了这些通常常用的东西,当然也包括现在比较时髦的机器学习。这个平台,今天时间短,没法展开去讲。这个平台有一个极大的优势,我们把很多我们最佳实践放在其中。当你对某一个算法不是很熟悉的时候,你可以选择一个很初级的内容。你可能只需要填几个参数,你就可以构建一个算法。当你有一个比较高级能力的时候,你可以有四十几个参数或者一百多个参数去选择,去填。再高级一点,你可以把它放到共享里面自己去编。我们同时支持多种语言,最流行的算法语言,你都可以自动产生这些代码。这个就是我们在整个大数据这一块,我们从平台到数据到算法暂时给大家汇报的一个结果。谢谢大家!

]]>
华院唐岳岚:提供基于场景的客户微营销策略 //m.catawbaoil.com/62107.html Wed, 21 Jun 2017 08:00:32 +0000 //m.catawbaoil.com/?p=62107 Read More “华院唐岳岚:提供基于场景的客户微营销策略” »

]]>
2016年4月20日,“中国信息通信大数据大会”于北京召开。在本次大会上,工业和信息化部通信发展司司长闻库、中国通信信息化部副总经理兼CTO范济安、中国电信云计算中心主任赵慧玲等嘉宾出席了本次大会。

华院分析技术(上海)有限公司总经理兼产品部经理唐岳岚

以下是唐岳岚演讲实录:

大家好!我是华院分析的唐岳岚,首先非常感谢受邀参加中国信息通信大数据的大会。说起华院和通信业之间有关数据分析和挖掘的合作历史,其实真的可谓是历史源远流长;早在02年的时候,华院就已经跟我们运营商当前面临的海量数据如何进一步分析客户内在的需求,客户的特征,进而去发现客户存在什么样进一步的行动,比如他的购买,消费等等,进行对应的数据分析挖掘,那个时候相应的合作已经开始了。走到现在,华院也算是跟随着通信业,跟随着整个信息产业风风雨雨,走过十来年了。华院本身是基于数据挖掘作为一个主营业务,走了十几年的公司,我相信国内只有这么一家公司仅做数据分析和挖掘作为主营业务,风风雨雨走了十几年的一个公司。

走到现在,华院也是在跟运营商之间进行更多的关于大数据的一些探索。在整个运营商过程中,目前大数据时代,大数据现在运营商已经有海量的数据,这个大数据给运营商能带来什么样的一些机遇呢?比如我的业务能怎么样进行一些发展,我的流量能怎么样更好的进行变现,包括我们对应的数据分析、开放怎么样进一步开放,举个很简单的例子,现在周三周四晚上,可能大家会发现很多客户的流量在对应海量的一些增长。包括淘宝对应的一些购买量也在大量的产生,为什么呢?原因仅仅最近大家都在追《太阳的后裔》,从而导致互联网端发生爆发性的增长。联通也谈到怎么样更好的将这些数据进行一些分析挖掘,对应一些标签,去输送给各行各业。这里面对运营商来说,我现在已经有海量的数据,打的标签已经是几千甚至上万个了,各行各业的,教育的、信用的、营销的或者房地产的等等各种各样的数据都有,对运营商来说,运营商也在不断反思。这些海量的数据目前对我,对各行各业,对整个社会究竟能怎么样去产生更好更大的价值呢?为什么很多时候我们打出来的,我储存的海量数据,我有各种各样的一些标签和对应的各种各样的分析,但是我们其实很清醒的看到,在现在号称大数据的时代,大数据真正产生对应的变现价值其实是很少的。

我们反过来也在洞察,到底大数据是什么?大数据的价值到底在哪里呢?华院我们认为所谓的大数据也就是全数据,它其实强调什么?它在不同的场景,不同的地点,不同的时刻,针对不同的客户和业务,将其业务和服务购买的可能性进行对应的洞察,进行很好的量化,并且探寻以最小的成本来满足客户个性化需求的方式,从而实现成功的营销、业务变化等一系列目标。这种能力的构建,是在对客户需求、业务不同维度,在不同场景下的一种信息的识别、捕获、运用乃至于扩展的能力,它不仅仅是指我对数据的一些收集、计算、分析,由此对整个大数据以及它应用变现的精髓,今天上午也提到的,基于场景的客户微营销的分析,去真正发现客户内在的需求,这种微分析,由同一需求匹配的客户群,匹配差异的营销策略,整个大数据的核心是基于业务场景的数据层次,去关联无限业务。我们完整客户信息的大数据架构应该具有次序,具有层次,具有关联的三大特点,去运用大数据的关联性,从属性行为角度,去洞察客户内在需求。既然大数据是全数据,全方位、全时段,首先给一个特定的用户群,你可以洞察其行为特征和需求偏好,可以指导他对应的一些业务。

假定说什么是80后?可能一谈到80后,就是能够去定位出他通常提到的是什么样的创业,通常去哪些网站,追的是什么样的剧,喜好的是什么样的一些衣服颜色,追求的是什么样的潮流等等,这是对客户群的定义。在谈到某些需求的时候,比如我要卖某一个服装或者卖某一场电影,它背后的人群到底是什么样的人群?这个电影与此关联的有什么样的行为?它会有什么样的一些行动,能够帮助我更好定位对应的目标人群。再去一些行为特征,比如我们刚才提到的,假定上网聊天,上网聊天背后假定说经常提到的欧巴,谁会经常提到欧巴?提到欧巴背后的人群是什么样的?提到欧巴,背后会采取什么样的一系列行为,都是我们需要去洞察大数据的一些核心。

大数据的特点,它是在于基于业务场景去聚焦客户的个体,一动一静,我们在谈时间维度上某一个点某一个点,动是基于不同的时间点,以及时间的序列,所产生的相关性,根据客户的规则的语境,来识别客户的动态。比如举个例子,来到西单,到西单购物的客户群,到西单的客户可能有很多,但是实际上每个客户背后是有不同属性,不同特征以及不同的其他点。有可能到西单商场,如果是一对年轻情侣,我们需要给他发送一个电影券的优惠,告诉你现在上面在放一个什么样的爱国大片,如果你现在去的话,甚至可以订到比较好的场次或者比较好的座位。也许是三口之家,给你发送小孩的优惠,商店附近有某些地方第几层楼是小孩学习的一些场景,或者一些游乐的场景,如果进入到西单的话,他是一个外地游客,附近有什么样的旅游点,长城的优惠券、故宫的优惠券等等,虽然同样来到西单商场这么一个点,但实际上他背后的客户属性以及背后可能对不同客户属性,可能会采取一系列的行为以及他受激发的诱引因素一系列的探索,从而去满足我们客户个性化需求的一些运营和营销。

我们看在通讯产业整个来说,我们大数据核心,其实今天上午就技术层面已经谈到了很多,我怎么样去整合各种数据源,怎么对数据进行一些聚合、分析、挖掘,去打上各种各样的标签。接下来可能整个通讯产业或者整个不同的运营商更多的需要去探索,我怎么样基于我的业务,基于我的场景,进行对应的一些服务的分发,进行对应的一些更好的数据价值的变现。这种变现可能是需要一系列的大数据产品,不管是之前的标签模型构建,或者我的业务场景的构建,或者对应的一些服务分发的通道,最终我们会形成基于通讯产业大数据运用的五项基本能力。首先是运营商数据整合的能力,其次是规模化数据管理的能力,再是多维标签的输出,各种各样标签的输出,包括垂直应用场景的运用,信用的运用,服务的运用等等,最终也会有一些精细化的微营销,最终会构成基于通讯产业运营商大数据的能力。跨数据的数据聚合能力,除了运营商自身的数据,它本身也会整合各种各样的数据,比如房地产的数据,银联的数据,电商的数据,车牌的数据,零售业的数据,以核心行业数据为核心,逐步构建自己核心体系,形成一个行业竞争的壁垒。

再去进行一个规模化数据管理能力,现在我们了解,各家运营商都已经在逐步打造自己的DMP对应的平台,不管是对应的标签,背后各种各样的模型,包括对应的展示的一些面板,以及与第三方与省级各层次对应的一些接口。他会构建各种多维的标签,我观察到现在各方面的运营商他的标签很多还是基于行业打造的比较多,金融行业或者营销行业或者服务行业,目前还没有基于产品定向、竞品定向、人群定向,基于更细维度应用层面的标签的构建。当然我相信这个进一步站在运营商,他会进一步进行一些优化,会实现对应的标签的构建,以及实现标签的超市。因为以后不断有各种各样的标签,通过机器学习也罢,或者更深层次的数据分析、挖掘、标签的打造,这些只是技术层面的问题。我们可能突出各种特定的标签,从而形成一个标签超市。

最终我们可能形成不同场景的不同运用,可能是关联到不同的行业,包括不同的产品,不同的形态,场景和营销推荐是相关联的,它也会最终触发我们对应的营销通道。这个营销通道不是我们通常指的通讯行业,原来我们指的短信等等传统的营销通道,更多的也会借助于一些新兴的社会化的媒体通道,比如微信、微博一些触点,包括广告,一些组合的通道。

这里也会提到目前运营商运用比较多的,比如竞争广告,华院本身在这边已经打造自己的对应的竞争广告,这是运营商构建的其中一个环节。RTB广告也是实现投放策略的一个优化。这里我们举过几个案例,一个是运营商,我们帮助运营商进行一个大数据流量运营的实时观察,流量运营我们已经不仅仅是给你一个优惠的流量包,更多去跟你谈,《太阳的后裔》在放,你要不要订购一个跟《太阳的后裔》相关的,这样就不愁相关的流量了。这是我们在一个省份的案例,我担心有数据敏感性,所以这边先不提供。

某省我们原来以往谈存量推荐,可能我们的客户推荐模型仅仅放在运营商现有的一些业务。未来我们可能更多会去探索运营商以外的一些业务。像现在我们跟某些省份在合作,帮助他去推一些健康产品或者理财产品,或者对应的一些服务产品,这都是可以去考虑的,我怎么样通过对客户的分析,以及对应的客户推荐。这是我们帮某家运营商进行营销广告投放的一个效率提升,华院刚才前面提到了,华院自始至终都在做数据分析和挖掘,我们一直致力于怎么样将大数据更好的产生价值,让它更有灵魂,更有价值。谢谢大家!

]]>
大数据让“舆情分析”进入量化阶段 //m.catawbaoil.com/62104.html Wed, 21 Jun 2017 07:58:36 +0000 //m.catawbaoil.com/?p=62104 Read More “大数据让“舆情分析”进入量化阶段” »

]]>
2016年4月20日,“中国信息通信大数据大会”于北京召开。在本次大会上,工业和信息化部通信发展司司长闻库等嘉宾出席了本次大会。据非公开的数据显示,纪委办案的线索有27%来自于网络。大家都知道,现在网络上有很多很多信息,良莠不分。有些是谣言,这些谣言在短时间内会产生蝴蝶效应,导致影响整个社会的稳定。所以,各级政府对舆情极为关注,成立了专门的机构,对舆情进行引导、监测和管控。

东软集团通信与企业互联事业部新业务拓展总监 樊建勋

以奶粉事件为例,众所周知,奶源可以控制,但没办法控制假冒。那怎么办呢?樊建勋认为,我们要想办法引导网络舆情,如果做不好很可能20年的奶粉品牌会倒掉,因为老百姓不知道哪个奶粉是假冒的。于是我们结合当地的工商部门,对已经上架所属品牌奶粉进行检验,同时第一时间把结果公布给大众。成功化解了舆情。

传统时代和大数据时代,舆情处理的区别

樊建勋以中国队时隔15年之后重新进入了12强为例,樊建勋说,“传统的足球论坛中的评论,当时分析结果是什么呢?中国队的进去机率是32.7%。同时,我们通过大数据的分析,我们发现这个机率是86.2%。”

大数据分析当中,我们不仅抓住了传统的专业数据,还包括了其它队的队员信息、天气情况,把所有的信息指标化、计量化,形成最后的数据。所以,在大数据时代,大数据分析的结果更为精准,或者说更为理性。

传统时代就有对数据的分析,特别是对舆情的管控指导,存在几个片面化、单一化、静态化等特点。而大数据时代,所有的舆情信息都是可量化的。以房价为例,去年12月份之前,网民对北京区域房价上涨报正向或积极态度的大概占43.7%,这中间大部分都是已经购房的人。但到4月18号最新数据显示,这个比例下降了11%。

一个大V转发一条信息能够影响7%的人

在互联网时代,我们都有这样一种“从众”心理。如果某人提出一个论点,他的粉丝很多,大家都会很信服他,那这个论点立马会成为一种压倒性的舆论。在传统的数据分析过程中,我们把所有人作为个体来看,或者作为平面来看。但是在大数据时代,它是用立体化的方式刻画这个人。樊建勋说,有责任感的意见领袖,发消息的时候还会斟酌一下,但有些人不怕事大,没有想过转发之后对社会影响有多大。经过我们分析,一个大V他转发一条信息,甚至能够影响全国7%的人口。

樊建勋认为,在大数据时代,样本数据向全量数据的转变。以前我们关注的都是个体、片面,以后我们要关注的是与这些个体相关的所有人、事、物。此外,舆情也开始向预测舆情的转变。现在很多事都是发生之后再去想应对措施,比如顺丰小哥事件。另一方面,舆情也由定性推算舆情信息向量化计算舆情信息转变。比如刚发生的房山2.7级地震。即使地震局出面澄清,但大部分网民不太相信政府。因此,我们需要把信息进行量化计算后传递给民众,用真实的数字说话。

]]>
联通范济安:打造开放的云与大数据结合平台 //m.catawbaoil.com/62101.html Wed, 21 Jun 2017 07:56:48 +0000 //m.catawbaoil.com/?p=62101 Read More “联通范济安:打造开放的云与大数据结合平台” »

]]>
2016年4月20日,“中国信息通信大数据大会”于北京召开。在本次大会上,工业和信息化部通信发展司司长闻库、中国通信信息化部副总经理兼CTO范济安、中国电信云计算中心主任赵慧玲等嘉宾出席了本次大会。闻库称,信息通信技术与经济技术交汇融合引发了大数据的迅猛发展。

中国联通信息化部总经理、CTO 范济安

中国联通中国通信信息化部副总经理兼CTO范济安在会上说,中国联通从2012年成立数据中心部门开始,通过三年的建设运行,打造了全集团的一体化运营销售体系及大数据产品开发体系。联通的目标是,保证大数据充分应用的同时,转化到更好的对外发展能力。

扩大数据采集 扩充生产平台规模

目前联通数据中心已经采集了包含31省移动用户位置数据、4GLTE数据、上网日志,以及10010客服电话录音数据等全国各类数据共20PB,2016年规模将提升到150PB。2016年,将继续完善数据存储的生命周期,将从现在的6个月扩展到12个月。大数据平台规模,也将从现在的2400个节点地扩充到4400个节点。

范济安说,从去年开始,联通在生产平台建设的基础上,开辟开放的对外平台。在这个平台上,汇聚联通自己及第三方合作伙伴的研发团队。与政企客户、合作伙伴,一同进行产品开发。开放的目的是为满足中国联通分公司、子公司、合资公司、总部各业务部门,及外部合作伙伴的数据挖掘、建模、运营开发及运行能力。在自愿合作的原则下,让更多的省份公司和合作伙伴,使用我们的集中统一平台。

在安全方面,中国联通将继续严格把控数据质量及数据安全,让数据只能在安全可控范围内得到使用。2016年,联通还将申请ISO27001国际数据安全标准。

结合云及大数据服务

大数据与云计算的结合也是联通想要达到的目的之一,最终实现打造一款面向第三方合作伙伴云及大数据服务。

联通不但提供计算能力、存储空间、网络连接,还将提供各类的数据成品或半成品,及工具,供使用者做数据挖掘、建模和开发应用,比如数据集市、标签库、目标客户群。此外,联通还提供典型的地理位置、地图服务、报表工具、搜索引擎、挖掘分析工具等。总的来说,即围绕中国联通的大数据平台,打造一个大数据的生态系统,开创平台运营模式。

两极架构的平台

范济安在会上表示,中国联通针对自身的特殊情况打造了两极的平台架构。既有总部的统一平台架构,基于全国性31省的数据,还有各省的二级大数据平台。总部是信息化处理中心,它将承担数据运营及技术支撑的工作。最具产品创新能力的是中国联通的产品创新部,各省分公司、子公司。

围绕着平台,尤其是平台开放的能力,联通的分公司、子公司,将在上面开发基于全国的大数据产品及应用。从数据变现的角度来看,最贴近客户需求,最具客户资源,最了解市场需求的,是联通的集团客户部、各省分公司、子公司、合资公司。通过这些部门,联通将对外进行大数据应用的变现。

范济安同时表示,“联通不会满足自有的数据,尽管运营商的数据很丰富、很全面、很实时。但是在互联网+时代,在我们要做跨行业应用的时代,我们必须要进行数据合作,跨域的数据合作会产生巨大的乘法效应。”

]]>
IBM李永辉:“认知系统时代”的大数据将不断改变 //m.catawbaoil.com/62098.html Wed, 21 Jun 2017 07:54:40 +0000 //m.catawbaoil.com/?p=62098 Read More “IBM李永辉:“认知系统时代”的大数据将不断改变” »

]]>
2016年4月20日,“中国信息通信大数据大会”于北京召开。在本次大会上,工业和信息化部通信发展司司长闻库等嘉宾出席了本次大会。IBM系统硬件部首席技术官李永辉表示,“大数据对传统产业各行各业都产生了影响。从原来的以服务的形式向企业提供数据,至今,已经有很多大数据作为基础,来预估、判断每个人的喜好。”

IBM系统硬件部首席技术官 李永辉

在全球范围内,移动互联设备已经超过了60亿。到2016年底,将有190亿个网络连接,其中可穿戴设备、车联网等都在飞速增长;Facebook、微信等社交媒体每天产生的数据量也非常庞大。未来,机器跟机器的沟通、机器跟人的沟通将是主流发展趋势。不难看出,大数据就像淘金一样,企业需要在海量的数据终抓取有用的信息,从而找到有用的智慧和技术。

大数据发展的两大难题

大数据分为周期、算法、建模、技术架构等几个方面。首先数据面临的一个难题是数据量的快速增长,数据的增长如今已超过PB级别。李永辉认为,传统的大数据处理方法一般会遇到几个难题,其中之一便是数据分析,这种技术现在已经非常成熟。IBM在去年收购了一家公司,该公司可以做到完善的处理数据的整理和存储,可实现节省一半存储容量。IBM也收购过一家风险管理平台领域最好的公司,可以把平台统一管理起来。

此外,不停改变的软件环境也是一项挑战,尤其是开源产品。李永辉说,IBM在大数据包领域已经投入很多资源,尤其是Spark领域,IBM为该领域投入最多的厂家。此外,IBM还有有近300名发明家参与Spark开发。同时,IBM致力于培养100万名数据科学家工作者。还贡献了SystemML机器学习架构。IBM也是人工智能领域AMPLab实验室的创办会员。总的来说,IBM在全球范围内建立了Spark技术中心,以满足客户的资源需求。

我们已进入认知系统时代

IBM认为,现在我们已经进入了认知系统时代,大数据将推动商业的发展。大数据在实施过程中将面临很多挑战。李永辉表示,“IBM在这个领域里面跟别的厂家不太一样的点在于,我们是从基础科学开始研究,到基础架构,中间件,包括Spark的支持等,我们都会有开源的参与。同时,在应用层面我们也加大了关注,IBM过去两年我们收购了大数据领域的很多公司。”

可以看到,当我们进入认知时代的后,IBM在该领域已作出很多努力,希望针对特定的场景提供深度整合的服务。IBM面对数据增长的挑战、管理的挑战、系统的要求和挑战,乃至最后的应用不停在改变,都可以提供支持和配合。Google AiphaGO发言人于Open POWER Summit上也表示,该系统采用了IBM的技术。

]]>
闻库:运营商数据资源是宝贵财富 打通行业“孤岛”很重要 //m.catawbaoil.com/62095.html Wed, 21 Jun 2017 07:53:12 +0000 //m.catawbaoil.com/?p=62095 Read More “闻库:运营商数据资源是宝贵财富 打通行业“孤岛”很重要” »

]]>
4月20日,2016年中国信息通信大数据大会今天召开,在本次大会上,工业和信息化部通信发展司司长闻库称,信息通信技术与经济技术交汇融合引发了大数据的迅猛发展。

目前,我国大数据产业已具备一定基础,技术创新不断进步,应用示范逐步扩展,对行业转型升级带动力度不断加大。大数据开发和应用对信息通信业的创新发展具有重要意义。工信部作为行业的主管部门,也在积极的推进大数据产业“十三五”规划的制定工作。

电信运营商数据资源是宝贵财富

闻库称,基础电信网络作为承载国民经济信息化的的重要平台,流通和汇聚着丰富的数据资源,是大数据资源的重要组成部分,也是全社会的宝贵财富。用户的通话情况、上网情况、位置移动等,都以数据形式发生,并存储在基础电信企业的管道里。

数据显示,截止到2016年2月,我国的移动宽带用户,经过这几年的大发展,已经达到了7.8亿户,这7.8亿户指的是3G和4G,现在每个月2G、2G往4G的迁移也非常迅速。数据及互联网业务的收入,占电信业务主营收入的比例,也达46.7%。用户平均上网流量,也有大幅度的增长。去年年底的时候,我们统计下来平均每个用户是389M,仅仅过了两个月就达到了546M,同比增长111%。数据业务的快速发展,已经成为行业收入增长的重要组成部分。

通过大数据的深度挖掘和应用,一方面,可以提升企业的管理研发能力,实现精细化运营,改进用户体验,提高产业服务水平。另一方面,以庞大的数据资源为支撑,可以盘活数据资产,挖掘数据价值,创新应用合作和商业模式,实现业务的快速发展。

大数据时代通信业的机遇和挑战

同时,数据的迅速增长,对信息通信业也提出了更高的要求和挑战。从实用角度来看,要降低运营成本、提升用户体验。从提供者的角度来看,要对政府公共服务、企业商业,提供差异化的大数据服务,实现合作共赢。从汇聚的角度看,要打通社会各方面各行业的数据孤岛,将各个领域的大数据连接汇聚起来,形成全社会的大数据集散交易平台。

闻库表示, 面对这些新的机遇和挑战,全行业要高度重视大数据的建设和应用,并与企业的运营效率、智能决策、业务转型,有机结合起来,统筹推进。

一是要加速建设和完善信息通信行业大数据能力平台,全面推进重点领域大数据的高效采集,有效地深化政府数据和社会数据的关联分析、融合利用。

二是要在依法加强安全保障和隐私保护的前提下,稳步推进通信行业公共数据资源开放。

三是推动大数据与云计算、互联网、移动互联网等信息通信技术融合发展,探索大数据与传统产业协同发展的新业态、新模式,加快完善大数据产业链,助力传统产业转型升级。

四是加大数据环境下的网络安全问题研究,落实信息安全等级保护、风险评估等网络安全机制,建立健全大数据安全保障体系。

]]>