由中国有线、中广传播、南方传媒、东方有线、BIRTV组委会、DVB+OTT融合创新论坛主办,由中广互联、东方有线承办的第六届广电行业趋势年会暨第二届DVB+OTT融合创新论坛年会于12月12日在上海大华虹桥假日酒店召开。本届年会主题为“大电视 大数据 大生态下广电发展与转型之路”。
在第六届广电行业趋势年会专题论坛上,河南有线总工程师兼副总经理王道谊做了题为《有线网络大数据平台构建运营探索与思考》的演讲。王道谊指出,对于有线电视自身内部的需求,如内部平台的需求和商业需求,针对不同的需求有大数据的方法,从统计分析到大数据,从大数据的应用过程到日常的网络建设,运维,产品开发和用户研究各个方面的发现。
图为:河南有线总工程师兼副总经理王道谊
以下为演讲实录:
大家下午好!感谢主办方的邀请,我演讲的题目是有线网络大数据平台构建运营的探索与思考。我主要是想跟大家就大数据下的一些做法和想法给大家分享一下。
作为有线电视来讲,从它一开始做电视产业,我们看到过了十几、二、三十年到了通信业主流的时候,我们感觉到互联网业务上来了。我们作为传播视频的行业,都是以内容为中心,差不多开辟了一个新的视野,按道理我们这个产业在这方面我们一直没有做好。发现我们的行业领域比别人差距又更大了。今天这个会议稍微谈一点,会谈一些大数据,会把两者的结合在有些方面会进行探索性的思考。很多的东西我们也只是刚开始。
从现在ICT这个概念的提出,我记得早先我在一个会上的时候,其实从2003年开始,那时候叫消费鸿沟。应该说长期来讲我们视频通信网的发展,是以整个技术人员自己的一个舞台,运用自己的想法根据客户的需求一代两代去规划这个网络。互联网的诞生使整个互联网同时成为一个工具,同时成为社会的交流平台。它只是一个普遍参与,就不是一个专业人士,三教九流各行各业。所以促进力是非常大的。基于这种情况来看,虽然在系统上都是从应用层、网络、终端用户构成,但是着力点发生了更大的变化,在通信网里面,包括我们做的广播式的信息沟通网络,基于我们以前的数据,严谨的技术相对简单的东西,那么在应用层面来用这些因果关系,很多事情你就分析不清楚了,也只能是相关性的分析,这时候就发现了大数据的魅力。
对于有线电视网来讲,虽然我们在电视行业里面做了这么多年,我刚才一开始谈到了,无论是从数据的积累方面还是视频综合的处理能力,而且对视频的应用方面原本上我们的历史最长,但是现在处于不利的地位。把我们有线电视网络摆在了一个和社会整体的视频网络同一个舞台上去了,不管我们情愿与否,必须面对竞争。
刚才分程层次,中间是应用系统,再就是SP,无论是我们通信运营商,还是广电运营商都在这个上面。之后会有网格接入到用户,基本上是这样一个概念,在这里面无外乎分两大环境,一大环境是户内和热点。这个基本还可以算作是布网的天下。在布网的天下是光纤和同轴的。从带宽来讲应该是光纤和同轴。从同轴的角度讲,达到每秒2米以上。对于4G来讲,即使是针对热点的高速解决方面,30—15兆的下面,可以达到1G。如果和其运营商人恩稍微区别一点,也只有后面的100米同轴。大家会用同一个系统,虽然会有管制政策,但是同一个应用系统,是同样的IP网络,只是在接入上体现有点不同。作为应用系统,我们更多的是以运营商自己为中心,或者是以广电为中心。从互联网发展的角度上来讲,一旦突破它就会广泛,形成广泛的连接,全球上所有的人基于开放的机制,可以在同一时间内可以很快地访问到任何一个内容,实现了马太效应。在这个过程中,别人会跟进,在跟进的过程中谁能适应力量强就会发展。这里面很大的特点就是这样一个竞争非常惨烈,中国移动等几家运营商的日子还是过得比较舒服。再一个特点内容本身,除了内容制造同时现在在这种环境下内容的消费标准,使得内容体系下降。这些背景是不依赖于我们是通信网、还是有线电视网,我们从技术层面上、运营层面上都做了深刻的变化,从终端等方面也有很多的对大数据的需要,接下来我会讲讲他们之间的关系。
在讲之前我们还是要看看大数据的形成,除了数据量大了以外,另外一个意义,数据之间的关联。大家都知道70年代有互联网的时候,教授、军方机构专用的。这个可以看作是屋内人的区别。在90年代,大家可以看到门户成为主要的上网工具,内部变成互联的。在这种情况下,使它整个结构化的内容,这种观念的提供成了很好的方式。再从互联的内容,一个人我想要的内容相关的内容,按照这样的需求去组织服务器之间的关系形成了一个相当于中期的互联网行业。在当今时代引入了社交互联网,又加了一层,把访问互联网业务的人也看作是相互关联,相互关联的人和相互关联的内容就形成了范围间的连接。在一次通信中可以形成多种关系,可以同时和七、八个服务器,同时人在做这件事的时候,对你的朋友和周围会产生影响,这个影响有强观、弱观的,形成了泛关联的内容。在这种复杂情况下就很难做相互因果关联的分析。技术发展,尤其是大数据量的处理,使人们在处理当中把这些记录下来,用这些数据指导现实社会中的服务和物流。所以这些数据带有商业价值,数据本身不单是我拿来玩一玩开发业务,数据本身也会指导其他行业的应用,这就是为什么最近这一段时间,连续几年的诺贝尔经济学奖获得者都是经济学家。
在这种背景下,刚才也说到了从用户角度来讲它是放在社交网络用,这些用户由于情感和互为关系形成了一种结构。内容本身变成了泛内容,除了自己构建的这种还有相关的内容,同时还有社会上其他非信息内容,比如说物流的信息,比如现代服务业的信息,这些都是数据的普遍的来源。整个内容本身可以说有实体的内容还有虚拟的内容。从连接的方式角度来讲我们做广播网的,我们所构建的方式是一个人,我们一个运营商对N个用户。从通信商,移动互联基本上只有N的平方,如果把它换成社交网络的角度上看,这N个可以两个两个组成一组,一直到任意N个组成一组,这样就成2的N次方。这种连接关系,这样的连接关系体现出来的价值巨大。所以在这种情况下还有这样一个大数据积累的基础,对于数据处理的技术也在发生变化,简单地可以把它大概地概括一下,如果说硬板分析出来可以挤一挤,早期我们统计分析用得比较多,再过一些年评数据挖掘比较多。我这里要说一点技术本身,技术不应该说高端大气上档次就是好的东西,技术本身还要实用,有成本。而且新的技术在旧的基础之上发展起来。作为统计分析来讲,大家常常意识到平时做得非常多的就是各种各样的统计表。平均的订购多少,推广率多高还要看发展趋势。那么作为数据挖掘来讲,就是多元数据的处理,多个表,同一个表有一个简单的汇总,这多个表之间的关联,这两个之间有什么相关性这个就可以属于数据挖掘。作为大数据除了这张表以外还要把背景上各种各样的数据联系在一起,把不同领域的数据建立相关性,然后对它分类,分类完了以后可以做分类的销售和政策。把零散的市场整合成可以运营的相对比较归类完整的这样一个市场。同时要研究整个市场变化的过程中,或者是用户和我们的关系变化中,整个过程变化都可以分析。所以在大数据背景下,我们更关切系统外的数据,还要关切机器产生的大数据。
从使用过程当中还是要强调一下,在我们整个运营过程中,从技术角度讲只有实用性没有什么高端。从大概上来讲,大数据和现在的数据挖掘、统一分析之间这样一个大概的区别。
把它放在我们有线电视网络里面,我们可以就这张图看一下,这张图在未来的有线电视网络里面,从内容上区别几个地方,一个是内容汇集。就是外部的内容经过编码、格式变成我需要的内容,这些内容过来放在存储、推流这些服务器里面。这不是我们的目的,我们最终要把它给用户。把这些给用户,需要对这些数据的源数据进行统一的管理,这是内容管理系统。传统的内容管理系统只针对名称、存储位置,最多加一点更新、更热的。那么在真正的个性化或者是基于大数据的社交网络去做,除了把内容看作关联,还要把用户看成是不同的团体过程相互关联,根据不同的分类进行个性化的编排。这些数据除了静态数据以外,更多的是动态数据。如果用新的词去讲,整个系统的基础是知识放线数据库系统。用知识放线数据去制作适合客户的需求,还有是知识放线的管理系统,包括动态和架构决策的东西,还有强大的IT虚拟的东西,还有分发的网络。如果赶上了时代与需求发展变化,不管我们实力够不够,最终有线电视网络你是要具备这些能力的。
在这种情况下数据来源有6个重要的地方。在大数据背景下,我们强调外部的数据非常非常关键,基本上有三个系统。一个是外部的商业系统数据,一个是自己内有的内部系统,谁点了多少这个你有办法得到。还有一个是业务平台,业务平台里面的用户订购,访问的规则和行为你都可以掌握。另外还要从接口,最重要的是人机接口,就是所谓的摇控器接口,有些人抢占业务的时候,抢占摇控器。这个人机接口最能反映用户的操作规程,前两天我们把系统的数据推拟了一下,按200万用户来算,一个星期的曝光量8亿多次。在这里更有访问里面的细节的规则,用户在这儿访问这个,他们相互之间的关系,这种商业价值更有价值。有行为特征这些,还有一个是信号的接口,现在一个设备同时接多个网络是非常普遍,包括做互网移动融合的,一个设备接多个网络。那个网络很可能不属于我的,所以这个接口是用户和网络之间的访问接口,这个设备接了我们的网我们就在这个设备里面获得。还有一个是通过我的系统连接到第三方的应用,我们内部应用的数据只能通过数据包的分析权利做,这就是所谓的DVP,所以很多互联网公司贩卖数据是靠这些进行分析。所以如果说想把大数据的数据来源从群组的角度讲是三个接口,三个系统。在短短的5年初期,还是以用户访问的人机接口,还有自己应用的数据,比较重视。有了这些数据以后,我们把这些数据,因为从各个方面来的数据必然是非结构化的,就要用新的数据处理能力,但是基本的方法还是一样的,数据来源经过数据交换存储一下,存储的有原始数据还得有空间数据。你不能任何过程把海量数据算一算,这样你的实时性就差,得实时算出来,每次交易的时候取出来。中间的过程还有系统间的,这需要有很好的用户数据。本身从业务平台的数据达到应用和共享。我们做的时候是非结构化的数据但是还是面向主题的,在我们当前的节段,我们侧重哪些方面,或者是在每一个数据测算的过程中我们侧重哪些方面,集成性,随着时间的变化,随着整个系统的构建方法还是有非常高的要求,这是整个数据的一个存储IT的架构。
刚才一直在谈从三个系统、三个接口过来的数据,是可以有各种各样的数据,但是这些数据怎么样更加有效?我们从目前粗矿式的模式给我们提供适应用户的地理和时段等基本上都可以运行了。还有就是动态数据,访问的频次、变化等,这些访问虽然社会上发生的事件变化。发现这些规律之后,对于已有的规律发生的结果,如果对系统产生了不平衡的影响可以引导。再一个就是从简单的数据到详细数据,我们现在各个地方都在做视频讲座,对于视频来讲,大家对视频的理解非常粗糙。基本上什么演员演了什么片子,这些演员有什么特殊癖好,最多也就到这里。真正细致上的引用方法,还有原数据,还有视频内部的一些桢,文字特征等这些相关的,在存储当中的分布存储和你统一的域名之间的,在各个线上的应用效应。还有除了演员其他情节方面,能不能概念性地模糊搜索。精细化的在网络评价等方面对用户操作的影响,这些数据需要更加全面地规划。规划这些可以简单地用这些数据,有了这些数据以后就需要对这些数据的基本处理,下面讲讲简单的数据。我们系统里面可能的应用。一个最简单的基础就是对多元数据的分析,多元数据像刚才上午那样的,可以形成各种维度之间的关系,通过切片提取的特征,这是整个数据完成的基础。这个比如说我们两张图我们统计5个点,所有影片的流行度的分布,累积分布是这个特征,基于这个特征,我们发现这是干什么用的?我画出这条曲线这个事我知道了之后我要干什么。首先对这种程度,大家知道这是一个密集函数,它的程度是什么,这个程度最直接地反映我对存储的效应,便压存储和核心存储之间的带宽这些之间的投资比。还有一个是什么呢?我发现有些地方的人,它整个的利用度太高,我的系统来不及怎么办?我就更加集中炒作热点,使这些热点占的比重更大。有些效应根本没发挥出来,那我也要去炒作这个事件,人多使我们收入增加。基本上来讲在大数据领域的很多特点都类似于长远的曲线。在通用网的时候,我们去各个营业厅去办,它交换机是有限的,用户基本上都是中性网络。一旦这个服务能力被解放出来,无限的时候,就直接爆发消费者的需求是往这种常规曲线上去的。原来是均值网络,出现了不均值的网络,个性化的需求。
再一个方面的应用就是对数据的相关性,数据的相似性。基于相似性的变化去找,这里简单举一个例子。我们做业务规划的时候,每一个业务都要有一定的市场规模。如果我们规划几千种用户,每个里面只有两、三个这个是起不来。怎么样规划是对于用户的分类,要把不同用户的相关性找出来。下面还会找到通过社交网络的方法去找。那边是有数据了,我去看用户的访问习惯。能够算出来A和B相似,C和D相似。在分析的过程中,一旦A习惯往C上变了,就要关联看它发生了什么事。如果发生了他们家来了一个老太太爱看连续剧,或者是他们家出差了,或者是爱看体育的男主角不在了,整个行为发生了变化。在这个期间,我已经推出的业务他就接受不到,等他回到家我再补充一遍,客户感觉到贴心同时又增加机会。这是 同类数据的相关性和在发生变化之后的差异性。这种差异通过边缘数据去分析,这种差异是由什么引起的,根据引起去做相应的策略,这个在各个领域都适用。
再一个就是同一个用户在他不同行为之间的相关性,这个大家可能比较熟悉的是这种经典的案例,就是购物栏的分析。 用户到了超市以后,在买这个东西的时候会买另外一个东西。分析两种东西同时出现,或者是一种东西必然引起另外一种出现的概率,这是一个传统的数据。大数据背景下这是一个广义的,你可以把它这个工资比一般的高多少,和他购物的量放在一个点上分析。比如说A和B相关点,有了支持度和致信度。意思是这样的,不管你是狭义的购物还是广义的购物,来这里找到象极。在大数据的环境下基于多维的扩充模式,如果数据量过大,或者不能达到全集,或者是过短。有各种各样的分析方法找到近似的。然后把那个关键点找到之后主要是干什么呢?一般的用户来讲两类,一类是分类器,一类是预测器。一类是可以进行判断,用户来我这儿贷款是不是会欠钱,或者是用户过一段时间就不想用了。另外一个是预测器,这个客户这个月这样,下个月怎样,这是基于关联的发现才能做出预测,这些常规的方法都是学习的过程,通过数据建立这种分支的模型。这里面有基于关联的,有基于多关联规则的,有基于预测关联的。有些数据你是不可能拿到全集的。
在整个运营过程中,这些就可以针对我们在运营过程中遇到的时间序列和事件序列,这样综合运营,刚才说的分析里面的成果。比如说对时间序列分析,周期动向的关联。用一些用户的访问系统、访问规则等,基于这些预测在忙的时候插广告还是在闲时插广告,在什么时间做推荐。基于用户跟我交易的事件这样可以分析客户流失、流失发展趋势。包括推出一个方案了以后,我们现在普遍的有线电视网络推广方案强,你推了以后用户有没有收到。这是你可以这么两种。从各个方面来讲,可以更具体一点,比如说在设计领域建构方法上,在销售方面的趋势上,从客户的保有还有忠诚度分析,还有产品推荐等。再稍微具体一点,作为网络运营商关心的事件有5个方面,一个是用户本身,第二个是内容。我们的内容怎么分类,别人怎么访问你。再一个就是用户的操作,用户在访问你的过程中有各种各样操作。还有就是我们生活的社会领域的背景有四个方面。这四个方面都明白了,相当于我们熟悉了我们的市场,也熟悉了我们拥有的工具。你说业务编排、个性化服务也好,这才有谱。所以我们前面的数据没有搞定的时候,后面的都是假装排名一下,假装做一些,很多都是这样一个过程。跟进一部就是资源管理。还有服务这块,我们在周转期指标比较差。比如说27号开始我们拿出了9天的数据,比如说将近6000个主机,有时候数据2000个左右,购买1000个作用。我们终端和承诺的安全周期还是有相关的联系。但是真正的剔除噪音以后强烈的观点我们还没有时间来做。
还有一个谈到在业务开发过程中,整个基于数据会非常有效。现在作为移动互联网的人,做得非常非常集中。无论是社交的应用,还是移动互联网的应用,还有物流、电商这些用得非常非常多。我们还是积极加紧热点的这些工作,如果我们了解了这些,规划出来我们还没有意想到的应用。比如说现在多机位,还有一些家里就是对访客。我们有很多用户说孩子去了爷爷奶奶家,自己在自己家有,但是去到那边没有。我们是推出按天去预算,按次可以白天和晚上,价格不一样。比如说一个星期的电视剧就想周六、周日一天一块钱就不用一个月来付。包括付费频道的销售,就会根据这些数据来访问。还有我们现在来讲,双向用户可以访问服务系统。但是远不止这些,再做一些让平常的用户生活中的数据更依赖的于平台,尤其是保存的数据更依赖平台,整个平台的依赖性更强。我们是用心为客户服务,如果往坏的方面想我们是想办法缠住用户,在这个过程中还是一个买卖双方的事。
再一个就是我们最关键的方面,就是客户关系开发与社交网络。应该说现在在大数据领域里面,研究最多的就是社交网络。相关的书一般都叫复杂网络科学,信息物理系统类似的。基于大数据的观点,所有的人是互相联系的。人跟人之间可以直接联系也可以间接联系,一个人能够联系多少人,这个叫粘稠度。我看这两个人相似不相似,我可能不看这两个人,可能是看他们的朋友相似不想死。基于这种,客户就会讲根据这种分布,就与新用户连接在一起。把低度的 去掉我们就可以找到核心影响力。能够感受到哪些用户的输理性强的。就相当于你到一个小区去做营销,你一个人敲门很累,你把哪个老太太是意见领袖,在小区里面跳舞,打打麻将把她推销一下,整个这个小区整个的用户全都来了。这就是最典型的,找到输理性强的。社交网络还会再去研究这个网络形成的,从一个用户到多个用户形成的过程中,形成的过程中的变化,以及在中间输入一个因素之后变化的规律,这都是社交网络研究得比较多的。甚至是博弈论比较多的研究,基于这个还研究用户之间的模仿行为。研究这些归类去把人的类型挖掘出来,这是基于社交网络。人的影响力大约能延续到朋友的朋友的朋友,三个维度。当你在圈子里面看到微信的时候,如果是朋友的微信你可能看都不看完就转发,但是如果不是朋友的话你可能要看一下。
还有另外的大数据的非常重要的领域,就是对整个市场策略。因为在竞争的过程中我们可以从公开的渠道拿到我们对应的市场份额,这种是针对我们对手的用户。我们很多的时候你不完全知道。比如说我们看到现在移动是我们广电的合作,你去挖掘一下就会发现,在新增份额里面移动的份额在下降。对于移动网络来讲,只要达到一定的规模,新增的用户基本不增加成本。整个用户的减少都是利润的降低,这也是致命的。为了保住这些用户,另两个运营商会捆绑去做。从这里面发现了过往的价值,针对这个看到了其他运营商看到的是假装去做光纤、宽带,很多很多这种乌烟瘴气,仅仅是围绕着移动用户去做的。再有就是整个移动商的关系避免统一,因为只要统一就会价格战。通过这些分析去了解对手的策略,通过研究对手的策略来制订自己的策略,逻辑的思维就是所谓的博弈这块,这里需要大量的技术。这里也相近行为,按照博弈方式权利做,还有同时行动。基于策略的思维,就发现很多以前经营过程中的思考是有问题的,比如说突出优势。我们现在有线电视网大家唯一能说出的优势是什么?就是直播无卡顿,而且高清。但是你要是站在策略思维,站在博弈论的角度就很优势,就是别人进攻主要的防护,你的优势就相当于你的一道防线,别人最容易攻破。这个优势不会成为绝对的优势。还有习惯上来讲在这个市场上一旦做大了之后,为了保持这种领先,它冒险的精神会大。再一个就是很多做这种策略,一个是别人做策略让我进行控制,另外一个是有些我做一些策略让别人后行动根本就不行,比如说相当于电商的打仗,京东商城一举手我要降价,苏宁为了不打价格仗,来我这儿买大家退差价。这样最后价格战平起来。我们在很多做事情的时候,往往来讲只是看实行的一角,后面还有一个无限大东西你没有看到。还有我的曲线无限冗长,所以这样一点一点地然后逐渐转移到后面。类似于这样的一些策略思维也是在大数据的这种应用里面重要的方面。
今天简单聊一下,在融合的时代下有线网络大数据的探索和发展。对于这种需求要打出自身内部的需求,内部平台的需求和商业需求。针对不同的需求有大数据的方法,从统计分析到大数据,从大数据的应用过程中到日常的网络建设,运维,产品开发和用户研究各个方面的发现。
推荐阅读
经典栏目
精彩专题
关注我们
大视频行业颇具影响力的行业社群平台,重要新闻、热点观察、深度评论分析,推动电视行业与各行各业的连接。
集合电视台、网络视听、潮科技等各种好玩信息。
专注于报道广电行业新鲜5G资讯,致力于成为广电行业有权威、有深度的5G自媒体平台。
UHD、4K、8K的最新资讯和最深入的分析,都在这里。
视频产业的专业圈子,人脉、活动、社区,就等你来。
我们只沉淀有深度的信息和数据。
致力于卫星电视信息、卫星通信技术、天地一体网络应用案例、以及广电、通信等产业的市场动态、政策法规和技术资讯的传播。