您所在的位置:首页
>> 企业文化>> 企业内刊>> 2015年>> 2015年第1、2期合刊>> 技术阵线
  技术阵线  
构建有线运营商智能大数据平台

 

摘要:随着大数据时代的到来,大数据应用案例还鲜有广电有线运营商的身影,与互联网领域的诸多探索相比,略显平淡。大数据研究必然会给广电有线运营商带来新机遇,如何运筹帷幄、构建面向智慧运营的广电大数据体系平台是目前亟需探讨的一个问题,本文结合江苏有线实际发展情况和对大数据技术的研究,对有线运营商智能大数据平台的建设进行了探讨和规划,为后期具体实施起到参考作用,同时也给有线运营商对大数据技术的应用带来一些启发。

关键词:大数据,有线运营商,平台,智能推荐

     
      0. 引言

  自2012年开始,大数据[1]-[6]取代云计算成为业界最为热门的词汇大数据(big data),指的是所涉及的资料量规模巨大,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。随着互联网技术的发展、全媒体环境的全面爆发,“大数据”成为新的时代主题词。海量级的数据催生了海量数据的搜集、存储、管理、分析、挖掘与运用的全新技术体系,并利用这些技术服务于各行各业。

  大数据技术起初大多还只是应用在互联网、银行、电信等企业[7]-[9],鲜有广电运营商的身影。随着有线电视的普及、数字化改造等新型广电技术的推广以及国家“三网融合”战略的展开,传统广电运营商由原来的单一网络运营商向多媒体网络及信息服务运营商转变,广电业务也向着移动互联网等新媒体拓展。江苏有线按照广电总局提出的“科技、业态、服务”三个创新要求,遵循数字电视发展规律,顺应三网融合趋势,以实现“看电视”到“用电视”和“玩电视”的转变为目标,创新研发了第三代数字电视——云媒体电视[10]。云媒体电视上线数年来,业务发展极其迅猛,业务类型已经涵盖直播、VOD、银行支付、民生信息、电视视频通信、电视商城、电视阅读、云游戏、电视互联网等多个融合业务和领域,各项增值业务的推广使得企业数据更加多样化,从数量和形态上都达到了质的飞跃,累积了庞大的客户群和海量的数据,产生了信息大爆炸的现象。同时,江苏有线正在部署智能家居安防、可穿戴设备等物联网等新业态,加上未来几年将会大力发展宽带业务,用户产生的行为数据的量级将会变得极为庞大,这些数据中包含巨大的可挖掘价值。上述因素都使得用户信息、使用信息等海量数据的采集、处理和应用成为可能,使得江苏有线运营系统成为名符其实的大数据系统。

  江苏有线目前已有一套传统关系型数据库,只可存储结构化数据,而且一般都是离线数据,且数据量有限,对于大规模数据的处理效率低下。传统的关系型数据库并不能够很好地解决海量数据带来的例如可扩展性、实时性等种种问题,另外,单机的统计和可视化工具也变得力不从心。传统的手段已经不足以应对大数据的需求,新的数据分析要求运用新的技术。而Hadoop等大数据处理技术的出现可很好地解决海量数据和多样性的问题。对此,本文结合江苏有线的实际发展情况和基于对大数据技术的充分研究基础上探讨了有线运营商智能大数据平台的建设及应用规划。

      1. 有线运营商智能大数据平台的建设及应用规划

  基于大数据技术的智能大数据平台的建设目的主要是用于为有线运营商进一步开展融合业务的运营提供更加高效、持久、有序、稳定的支撑,利用对各类异构系统收集的海量数据,进行深度融合关联和分析,发掘其中的价值,并服务于各类业务应用、方案和决策的制定、新型业态的创新等方面,大力提升用户对有线运营商品牌服务的粘稠度和忠实度。

      1.1 智能大数据平台总体构架

  智能大数据平台的总体技术构架如图1所示。智能大数据平台通过聚合江苏有线云媒体统一业务平台、统一内容管理系统、业务运营支撑系统、网管系统、流推送系统、数据仓库等非实时数据和终端管理系统的实时数据,构建大数据系统,对数据进行采集、抽取、加工、处理、挖掘、建模等一系列处理,并依托智能分析引擎和智能搜索引擎,建设全业务智能推荐、全业务智能搜索、云转码、智能化网络等上层应用服务系统,为融合业务的智能化大数据应用提供强有力的支撑。

  由图1可以看出,该平台从层次架构上来总体可以分为三层:大数据源采集层、大数据处理层、大数据应用层。

  

  图1. 智能大数据平台总体构架图

      1.2 数据采集层

  江苏有线云媒体电视[10]目前已拥有70多万用户,并且随着全省网络整合工作的深入,用户数量将会越来越多,为了更好地运营云媒体电视丰富的内容,同时做好用户服务工作,江苏有线目前已建成多个管理系统与支撑系统,以及各类业务系统。

  智能大数据平台大数据采集分非实时数据采集和实时数据采集。采集数据来源主要包括云媒体电视统一业务平台、统一内容管理系统(CMS)、全业务运营支撑系统(BOSS)、终端管理系统、主动推送系统、数字电视系统、互动电视系统、多媒体通信系统(IMS)、业务系统、综合业务网络管理系统、呼叫中心系统、营销管理系统、运维支撑系统(OSS)、网络资源管理系统(GIS)、经营管理系统、经营分析系统、接入认证系统、DNS系统、DPI系统、回传频谱监控系统等20多个数据源系统的资源,集合了客户、产品、业务、服务、企业管理、市场营销、合作伙伴、资源等八大主题域的数据,可实现企业级的海量数据整合。

  对这些海量数据采集完之后,通过ETL总线对各类包括结构化、非结构化的异构数据进行预处理。存储在数据库中的数据必须进行必要的检查和净化,用以识别和纠正或消除冲突、不完整数据以及组合数据库所共有的不兼容性。数据预处理主要包括数据清理、数据集成、数据变换和数据归约。

      1.3 大数据处理层

  智能大数据平台的大数据处理层主要负责大数据的存储、计算分析、应用程序接口三部分。

  (1)大数据存储:在大数据采集层对基础源数据采集、转换和清洗处理后,通过基于Hadoop技术构架的分布式文件存储系统对数据进行存储,存储的类型主要包括数据存储、索引存储、元数据存储。对基础数据的处理,包括用户信息、地域信息、用户访问详单、账单消费信息、平台的服务、业务数据等,入库并进行海量数据处理和整合,按照约定的接口表、接口方式和周期进行加载,形成以客户为中心的统一客户视图,为大数据分析提供分析的数据基础。

  (2)大数据计算分析:根据不同的主题建立不同的数据模型(包括数据集市建模、用户行为建模等),为用户构建不同的标签库,采用多种分析方法(关联分析、聚类分析、偏差分析)进行深度数据挖掘。

  a. 数据集市建模:数据集市是针对分析应用而建立的,在此基础上开发出多维分析、报表、数据挖掘、专题分析等数据应用功能,最终通过统一的门户平台向企业中不同角色的人员提供数据支撑;

  b. 用户行为建模:进行深入的客户模型分析与建立,生成客户特征标签库,以标签的形式来反映每个客户不同维度的特征,并结合不同的业务应用方向生成客户-内容/客户-业务/客户-广告的匹配矩阵支撑业务应用;

  c. 关联分析:根据如果多个事物之间的关联关系,通过一个事物进行预测与之相关联的事物,深度挖掘隐藏在数据间的相互关系,从而找出同类用户之间的关联关系,从而建立用户关联数据库;

  d. 聚类分析:将不同对象的集合分组成为由类似的对象组成的多个类的分析过程,其目标就是在相似的基础上收集数据来分类,通过描述数据、衡量不同数据源间的相似性,把数据源分类到不同的簇中,从而建立用户聚类数据库;

  e. 偏差分析:通过探测数据现状、历史记录或标准之间的显著变化和偏离,如观测结果与期望的偏离、分类中的反常实例、模式的例外等,从而建立用户偏差数据库。

  对于大数据的存储和计算需要用到集群技术。存储和计算为整个智能大数据平台最核心的模块,最基本的文件系统为HDFS,一个专为大数据处理所设计的文件系统。结合MapReduce的并行计算框架,实现数据转换、处理、分析、汇总、索引的一系列不同的任务。在对智能大数据平台的规划之中,至少必须运行四种不同的任务,分别是:(1)索引任务:为存在HDFS上的各种文件建立索引,以便应用程序能通过搜索的引擎接口进行搜索;(2)推荐算法:利用内置的数据挖掘算法库Mahout,对用户行为日志进行分析,产生推荐商品清单,目标客户分群,商品组合清单等,提供精准营销之用。(3)网页爬虫:基于MapReduce的网页爬取任务,允许用户自定要爬取的网站URL及深度,定时抓取网页内容并建立索引,应用程序可通过搜索接口进行全文检索。(4)数据分析:通过集成Mahout数据分析和挖掘的算法库,同样基于MapReduce内建10余种常用的分群,分类,统计,机器学习等算法,可按业务需要对HDFS上的数据进行分析和挖掘。

  (3)应用程序接口:原始数据经过处理之后,最终必须提供接口以支撑各种上层不同应用开发。按照规划思路,数据服务总线通过调度可以提供三种接口,分别为搜索引擎接口:用来支撑搜索类应用;推荐引擎接口:支撑精准营销方面的应用,如分群,统计,推荐,广告投放等应用;最后是类SQL的Hive QL接口:主要提供连接第三方分析工具或是数据分析师进行ad-hoc查询及分析之用,运行HiveQL有两种方式,通过Hive转换成MapReduce适合数据量大的离线报表分析,而通过Impala则适合查询及轻汇总等在线应用。

      1.4 大数据应用层

  基于前述的总体方案架构,结合江苏有线目前的业务需求,规划出智能化推荐、全业务智能搜索、智能化网络、云转码四个应用方向,它们都是基于智能大数据平台的主要架构和功能模块上的,差别仅在于数据采集的方式和格式因业务不同而有差异,数据处理和计算都是基于MapReduce统一处理。数据一律保存在HDFS中,这几个应用可以共享同一个集群的HDFS与MapReduce资源,达到智能大数据平台的最大投资效益。

      1.4.1智能化推荐

  

  图2. 智能推荐系统构架图

  图2为智能推荐的系统架构图,用户的行为数据来自于机顶盒的点播日志,这部份的日志目前可从终端管理系统取得,也可将用户在电视商城内的浏览、购买日志、互联网上网日志、新闻的阅读日志等数据采集到HDFS之后,统一由智能大数据平台的智能推荐引擎根据用户相似度,产品关联性及热门商品的统计,产生基于人或基于商品的推荐。

  推荐结果集的运用只展现了一部份的行为数据价值,经由推荐算法提取出来的关键字段,可以做为后续根据使用者行为进行深度数据分析和挖掘的数据来源,亦即形成图1中所示的用户行为数据仓库,推荐算法解析过后的行为数据,会导出成为数张Hive的表格,数据分析师或营销人员可透过Hive QL进行分析,或是结合第三方报表分析工具,如Excel,QlikView,SAS,SPSS的统计分析软件来进行BI分析。

      1.4.2全业务智能搜索

  在智能大数据平台的总体架构中,当所有的数据采集到HDFS后,接下来只要对HDFS上的文件进行索引建立,就能够实现全文搜索。但根据传统非分布式的做法,当数据量过大时,往往在建立索引的阶段就非常耗时。这里结合Lucene开源搜索引擎与MapReduce并行计算框架,可实现如图3所示的分布式索引技术。所有存放在HDFS上的文件,都自动被HDFS切成不同的数据块,分别利用不同的reducer调用lucene来进行分布式索引,最后产生索引切片(shard),每个索引切片负责一部分数据的索引。

  

  图3. 分布式索引

  索引建立完成后,索引片将存放在HDFS上,智能大数据平台的工作节点上运行Solr的实例。Solr是基于lucene的搜索服务,为应用程序提供更容易使用的RESTful API,每一个工作节点上的Solr服务从HDFS上把索引片加载进服务客户端。不同节点上的Solr共同组成Solr的搜索集群,实现分布式搜索,如图4所示。Solr节点间的管理,统一通过Zookeep服务来协调。Solr的查询语句简单易学,而且功能强大,配合前台界面能够给使用者最好的搜索体验。

  

  图4. 搜索集群Solr cloud

      1.4.3智能化网络

  基于智能大数据平台,通过于网管系统数据、日志等接口进行对接,对实时的、历史的网络信令、综合网管数据进行综合分析和挖掘,从而可以掌握网络的利用率,自动优化网络资源,可方便、快捷的定位和解决网络故障,甚至预测可能发生的网络故障的发生,以确保网络质量,更好的为各类业务提供强有力的支撑保障,形成智能化运营网络。

  图5为基于智能大数据平台的智能化网络监控管系统架构,它基于采集的各类监测数据,对业务系统运行环境中的各种设备及软件进行有效的管理,监控目标包括:主机服务器(操作系统)、数据库、网络设备、磁盘阵列、中间件、WEB服务、业务应用系统、防火墙、负载均衡、机房环动等,针对大数据分析后可做到提前预警,在用户使用业务时可能出现故障事件前就将问题预先解决,极大提升了业务使用的体验度。智能化网络监控管系统将以图形、表格的人性化界面将设备和网络的实时运行情况一目了然的呈现在运维人员面前,便于监控和分析故障等问题。

  

  图5.智能化网络监控管理系统架构

      1.4.4云转码

  MapReduce是一个并行运算的框架,并且有本地运算的特性,HDFS文件系统是特别针对大文件(128MB)优化的文件系统,越大的文件,IO效率越高。传统的视频转码,主要瓶颈点一部份在于CPU的性能;另一个部份在于视频文件从存储系统读取的过程,即传统的集中存储形成性能的瓶颈。

  智能大数据平台的几个特性可以有效解决转码的性能问题,第一个是分布式文件系统,大的视频文件存入HDFS时,已经被切分成数据块并分布到不同节点,获取视频文件时,不会有单一节点的性能问题;第二,MapReduce具有本地运算的特性,因此转码的程序会被发送到本地运行,转完的文作又存回本地,网络带宽使用效率高。第三,并行计算,多核心多节点并行运算,性能可以线性扩展。图6是云转码方案的架构,根据总体架构,视频文件集中到HDFS之后,部署MapReduce任务进行转码,元数据提取,元数据利用搜索引擎建立索引后,提供元数据搜索功能。

  对于应用程序来说,如机顶盒或视频串流服务器,可直接利用常用的文件系统协议,如NFS将HDFS挂载成为存储,直接读取视频文件播放。

  

  图6. 云转码方案构架

  

  图7. 视频转码MapReduce任务原理

  图7为视频转码MapReduce任务的原理,在Map函数内利用JNI调用Ffmpeg进行视频转档,所有工作在Map端完成,可确保网络带宽消耗最少。Ffmpeg支持常用的视频格式转换,包括Mpeg-1 Video、Mpeg-2 Video、Mpeg-4 part 2、H.261、H.263、H.264、RealVideo 1.0,2.0、Windows MediaVideo 7,8等。

      2. 结语

  目前,大数据技术在互联网企业、电信企业已经开始逐步应用,并起到很好的成效。就广电有线运营商来说,还鲜有大数据应用案例的身影。本文通过结合江苏有线实际发展情况和基于对大数据技术的研究和思考,规划了有线运营商智能大数据平台建设方案,提出了包括大数据采集层、大数据处理层、大数据应用层的分层平台架构,并对基于智能大数据平台的大数据应用方向做了一定探讨。智能大数据平台的规划为广电有线运营商对大数据技术的应用提供了很好的借鉴和参考,有助于有线运营商借力大数据技术提升自身综合运营实力。

      (文/胡俊)

     

      参考文献

      [1] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛译,浙江人民出版社,2013.

      [2]Manyika J,McKinsey Global Institute,Chui M,et al. Big data: The next frontier for innovation,competition,and productivity[M]. McKinsey Global Institute,2011.

      [3]张心源,李白杨大数据的概念、技术及应用[J].创新科技,2013(9):43-44

      [4] 陈如民.大数据时代的挑战、价值与应对策略[J].信息通讯,2012(17):14-15.

      [5]王珊王会举覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报.2011(34):1741-1752.

      [6] 孟峰,慈祥. 大数据的基本概念、技术原理、目前所面临的挑战[J].广电信息通信网络,2013(3):95-111.

      [7]顾芳,刘旭峰,左超.大数据背景下运营商移动互联网发展策略研究[J].邮电设计技术,2012(8):21-24.

      [8] 于施洋杨道玲王璟璇,等.基于大数据的智慧政府门户:从理念到实践[J].电子政务,2013(5):65-74.

      [9]蔚赵春凌鸿.商业银行大数据应用的理论、实践与影响[J].上海金融,2013(9):28-32.

      [10] 薛留忠,王伟,占亿民.江苏有线云媒体电视平台研发建设与推广应用[J].广播与电视技术,2013(40):123-130.

 
刊首寄语
本期特稿
有线聚焦
有线传真
技术阵线
市场营销
有线风采
有线之友
光影●翰墨
有线文艺
无限天地
封二
封三