互联网IDC圈1月4日报道:三年前,一部畅销书—《爆发》,点燃了公众对大数据的热情。《爆发》的作者巴拉巴西教授为大家打开了一扇从未见有过的窗户,让人们看到了另外一个世界,一个和谐、有序、美丽的世界。这个世界,是我们之前从未想过,也从不敢想的世界。
成都创新互联成立与2013年,先为扎囊等服务建站,扎囊等地企业,进行企业商务咨询服务。为扎囊企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。这个世界,就是掩藏在表象之下,被数据所揭示的世界!
在这个世界里,93%的未来事件是可以预知的;在这个世界里,所有的一切都是有序的,和谐的,按照自然规律运转的。
半年之后,就在人们逐渐淡忘了《爆发》的时候,舍恩伯格教授的《大数据时代》面世了。虽然只经历了短短半年,但大数据得到了飞速的发展。大数据(Big Data)一词越来越多地被提及。数据正在迅速膨胀变大,它决定着企业的未来发展,人们也越来越多的意识到数据对企业的重要性。
正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。
知乎有组数据,到2012年为止,人类生产的所有印刷材料的数据量是200PB(1024TB=1PB),全人类历史上说过的所有话的数据量大约是5EB(1024PB=1EB)。IBM的研究称,整个人类文明所获得的全部数据中,有90%是2012、2013两年产生的;而到了2020年,全世界所产生的数据规模将达到今天的44倍。
我们正处于一个大数据时代。
大数据真的有用吗
尽管今天到处都在谈着大数据的神奇之处;尽管现在不跟大数据扯上点关系的业务就仿佛不是好业务;但相信用不了多久,越来越多的人会质疑大数据的真正功效。一切幻象终要回归本质。
大数据是泡沫吗?这是个从2012年起至今资本圈一直争论不休的话题。一方面投出去的项目还在年复一年地烧钱,别说何时赚钱,就连个像样的商业模型都没有;另一方面又感觉这是个大机会,一旦踏空,将会犯系统性错误。资本市场就在纠结中度过了三年。
今年初,随着互联网金融的持续升温,各种金服让资本市场眼前一亮,终于在层层迷茫中看到了希望。于是各路神仙纷纷出手,造就了一个又一个的资本神话。身边的几个项目,最少的估值也在十亿以上!
为什么金服公司能够拥有如此高的估值?大数据真的能给金融业带来革命性的变化吗?
客观地讲,大数据的确会给金融行业带来一些很有意义的变化,如信用卡的低成本精准获客,贷前的决策支持和贷后的预警等等,但这些改变,还没有达到革命性的地步。
大数据的典型应用之一,营销白名单。通过对数据的处理,可以还原出用户的画像,并精准地筛选出合适的用户。并通过线上线下的互动,以很低成本的代价,快速获客。
而对于金融业更为关心的贷前的风控而言,还没有足够的证据表明基于大数据的信用模型,可以取代原有的经过近百年实践考验的信用模型。
传统的信用模型,是基于结构化数据设计的模型。尽管没有大数据那么大的规模,那么多的变量,但这个模型行之有效。几十年来,一直很好地工作着,被各大银行所使用。而相比于传统模型,以大数据为基础的信用模型,选用了数百倍,数千倍的变量来试图降低在原有信用模型中,对某一个变量准确度的要求。
如果说,传统模型是基于结构化数据,模型中虽然涉及的变量不多,但每一个变量都对数据的准确性有非常高的要求;那么,大数据信用模型,是基于结构化和非结构化混合数据,用大量的变量去替代少数强变量,从而试图降低对某一变量数据准确性的要求。
这一理念和想法是好的,但迄今为止,还没有取得足够令人信服的效果。
这里并没有贬低大数据信用模型的意思,相反,由于得到大数据的补充,以银行为代表的金融机构,可以很好地解决自身数据时效性和完整性的问题,从而可以将这些信息更好地补充到传统的信贷模型里去。只是不要过分夸大大数据在金融风控环节的作用。
在贷后的预警方面,大数据也可以发挥很好的作用。以前需要全部依靠人工的方式去做的事情,现在很多可以由数据的挖掘和分析来实现。在保证风险控制水准不降低的情况下,降低对人工的需求。而且有些时候,数据的挖掘与分析可以使银行更及时地发现企业的不良状况,提早预警。
所以说,大数据在金融业的作用已经得到了证实。
除了金融行业,其实大数据在更多的领域预测都有过很好的效果,长尾效应的改善,交通拥堵的预警,自然灾难的预测,等等。
早在80年代,翁文波老先生就预测到了91年华东、华中的那场特大洪水。这个预测发布在1984年出版的《预测论基础》一书的第125页,当时并没有引起人们的注意。七年后,一场特大洪涝灾害袭击了华东、华中广大地区,这才有人想起,一位石油科学家对这场洪水早有预料。
在天灾预测中,翁文波对天文学中的可公度性给予了特别关注。翁文波认为,可公度性并不是偶然的,它是自然界的一种秩序,因而是一种信息系。可公度性不仅存在于天体运动中,也存在于地球上的自然现象中。
大数据是有用的,只是很多价值还需要我们不断地去探索,开发。在很多应用场景里,不要只过于关心数据是否“大”,同样还要关心数据的挖掘,因为只有对数据的深加工,才能发现很多隐藏在表象下面的“真相”。
大数据能赚钱吗
近几年来不知是由于经济下滑,还是物极必反,人们已经很排斥纯粹烧钱的模式。能否“变现”,也成了衡量一个项目好坏的标准。
在一次演讲会上,美国大数据领域超人Nate Silver对台下众多企盼得到成功秘笈的听众们坦言,“我的成功你没法复制”。这也是整个行业的缩影。大数据项目虽然横跨了多个领域,但真正在一个行业或者一个领域内取得巨大成功的创业公司还是凤毛麟角;而且,这些为数不多的企业,之所以取得成功还夹杂着这样或那样的“偶然”因素,别人根本无法复制他们的成功模式。
既然成功模式还无法复制,那我们退一步,来看看产业链中都有哪些环节,你在整个产业链中可能会扮演什么角色?我们以北美目前最为成熟的数字广告业(目前被公认的为数不多的成熟大数据项目)为例,来说明大数据产业中可能的几种角色。
数字广告产业链看大数据格局
从这幅图中我们可以看出,整个大数据产业链,可以分成这样四种角色:数据提供商,算法提供商,数据优化提供商和应用提供商。
数据提供商
一般都是由于拥有某种入口资源,经过了数年,甚至十数年的积累,形成了在某一领域,某一行业独特的数据资源优势。数据提供商可以将数据提供给第三方使用,从而将资源优势转化,形成实际的收益。由于分工的细化,数据提供商未必自己去做产业链的其它角色。当然,随着数据成本的日益增高,数据将越来越汇聚到几家巨头手里,而形成几家数据寡头为中心,数家各领域,各行业垄断为补充的格局。
举个最简单的例子,按照身边几家数据公司最多的融资(注意是融资,不是估值!),4亿人民币,如果想打通某项数据,需要去外部购买,每条信息1元,买4亿个用户的数据,资金链就断了,又得融下一轮了;而现在1元钱,根本买不到足够数量和质量的数据。
所以说,数据提供商是讲出身的,你没有入口资源,还是不要去妄想成为这一角色了吧。
算法提供商
这一角色可以没有数据,但必须要拥有很强的算法能力和行业的背景。目前在各个行业都有一些独立的第三方算法服务提供商。这些企业虽然没有数据,但具有行业丰富的经验和背景,可以为客户提供很好的算法服务。
单纯有算法,没有行业的背景,没有对行业的了解是不够的。再好的模型,没有行业的最佳实践,没有对行业的深邃洞察力,没有经验的积累也只能是纸上谈兵。
数据优化提供商
这一角色一般也没有足够的数据源。属于整个产业链比较尴尬的角色,有点像生产线上的技术工人。它需要从数据提供方买来数据(或者由需求方提供数据),然后按照需求方的要求,将数据整理、优化,交付给甲方。至于甲方如何来使用,它并不介入。数据优化提供商既没有足够的数据资源,又没有算法提供商强大的算法和行业洞察能力,所以只能做些低附加值的技术劳务输出。
应用提供商
这一角色又叫解决方案提供商,是离客户最近的一个环节,也是最能体现价值的一个环节。
对客户而言,他并不关心大数据到底有多大,数据是否足够优化,算法是否足够科学;他关心的是,是否能给他解决实际的问题。
从这一点上,应用提供商颇似一个系统集成商。它需要根据用户的实际需求,去判断需要准备什么样的数据,需要采用什么样的算法,需要将数据如何优化,以便达到最优的效果,帮助客户解决什么样的实际问题。
以上,就是我归纳的目前大数据市场上的几种角色。要想在市场立足,必须要先明白自己属于哪个角色。定错了位,没有一个正确的起点,没有一个正确的方向,跑的再辛苦也不会达到终点。
清楚了自己的身份,接下来要做的就是积累,不断地积累、优化;不断地往上爬,争取做到各自领域的前三。只要你提供服务的价值是被市场认可的,赚钱是迟早的事儿。
数据有多重要
近来有个说法,得数据者得天下。在大数据时代,没有数据你怎么能够进入这一市场呢?相反,我有了数据,即使我不知道怎么来用,也比没数据,知道怎么用的公司强,估值高。数据是稀缺资源,待价而沽。
从某种程度来说,这个是有道理的。因为不同的数据质量,决定了不同的业务。业务的发展,从一定程度上会受到数据的质量、数量、维度三方面的限制。
数据的数量、维度比较容易理解。只有拥有了足够丰富的数据维度,足够的数据数量才可以尽可能地去描绘、还原事物的本来面目。经常被人忽略的是数据的质量。所谓数据的质量,其实就是跟被推断,被挖掘事物的关联程度。最好的数据是不需要挖掘的,数据等于“真相”。
举个例子,比方说你在微博上发了一条信息,“我的宝宝今天上午十一点出生了”。那么这条信息作为数据被存储起来,数据等于“真相”。这是不需要任何挖掘和推断的,直接可以被利用。比方说,基于某天“有了宝宝”这一事实,就需要奶粉、尿不湿,之后三年需要早教,等等,等等。
相反,如果信息匮乏,或者说不能直接采集到相关的数据,需要通过已知的信息去推断未知的事物,那么就属于挖掘的范畴。推断的结果自然可能是对的,也可能是错的,这就涉及到准确率的问题了。再好的模型,再丰富的数据维度和再大的数据量,也只能是无限逼近真相。
所以,离真相越近的数据,质量就越高,价值也就越大;相反,离真相越远的数据,质量就越低,价值就越小。这一点已经得到市场的充分认可。
由于数据质量的差别,客观上也造成了业务上的差异。
所幸,从各种迹象上表明,未来成熟的大数据格局,在朝着我所归纳的四种角色发展。数据将逐渐打破垄断,趋于开放。只是好的数据质量自然会贵些,差的数据质量自然会便宜些而已。
当然,这不是一个短期内可以实现的目标,需要一个演进的过程。在这个过程当中,势必会有一些巨头,利用数据资源上的差异,开发出比其他竞争对手更有优势的业务来。但我个人认为,这一优势没有那么大,也不会维系很久。
支撑我观点的原因有两点,一个是随着国家很多数据资源的开放,即便没有少数几个寡头垄断的数据,也可以找到其他替代的数据来达成目标,形成新业务;还有一个原因是可以采取借鸡生蛋的方法,只要想办法搞到初期启动的数据,做成产品,迅速形成商业闭环,用业务产生的数据,用机器学习的方法,不断地训练模型,不断地优化,最终实现目标。
所以,我虽然同意数据是一种战略资源,从某种程度上说,有了垄断的,高质量的数据,可以做出好的数据产品,可以领先别的竞争对手一段时间,提供差异化服务;但我真的不认为,得数据者得天下。
淘金大数据
上面将整个大数据产业链划分成了四种角色。什么角色挣什么钱;有多大本事挣多少钱。想在市场上谋有一席之地,靠的还是实力。
数据提供商
数据提供商领域,依旧属于市场初期。目前没有任何一家数据提供商可以提供所有维度的数据;每家都只拥有网民的部分数据(业界最高的识别率,一般不超过30%)。现在最时髦的各家的“用户画像”也只是盲人摸象。距离真相,还有一定的距离。
这就造成了客观上由于信息不对称,而给一些中小数据提供商的市场空间。中小数据提供商可以充分利用巨头们还在整合数据资源的阶段里,快速地变现(最简单地例子就是数据的粗加工出售,控制成本,做到哪天算哪天,争取利益大化);或者去寻找某一个行业,苦练内功,成为大数据的应用服务提供商。从而在数据提供商市场垄断到来的那天,能够华丽转身,蜕变成应用提供商,继续在市场中存活。
数据优化服务提供商
虽然数据优化服务提供商低端,但在整个的产业链里还不容易被取代。随着产业链的日益成熟,分工的日益细化,数据优化服务提供商可能作为一个环节独立存在,而不是作为数据提供商的一环。
这一角色,需要精通各种大数据的模型、算法,也需要了解不同数据的特点,从而可以根据用户的需求,为用户“优化”出符合他们需求的数据。
算法提供商
算法提供商将会随着行业应用的深化不断地强化自身在行业的优势,对后来者筑起壁垒;而且,随着在行业经验的积累,算法提供商是最容易成为应用服务提供商的。也势必会被应用服务提供商所取代,不会以单独的形式存在。起码会被应用服务提供商压缩至很小的空间。随着行业应用的深入,每个行业逐渐也会形成几家独大的格局。由算法提供商演变的应用提供商势必会给后来的单纯算法提供商造成很大的壁垒。所以,单纯的算法提供商在未来几年内,可能会逐渐淡出。
应用提供商
应用提供商应该具有乾坤大挪移的功夫,他不但要了解用户的需求,而且清楚地知道哪些是大数据能做到的,哪些是大数据做不到的。他需要懂得约束客户的需求和预期,大数据不是万能的。
应用提供商还需要了解什么样的应用,需要什么样的数据,什么样的算法模型。
应用提供商是未来成熟大数据市场最为关键的角色。数据终究是原材料,能否做出一桌好菜,还要看厨师的手艺。对行业的洞察力和经验,就是对火候的掌握,就是厨师的手艺。
大数据不但有用,而且确确实实可以赚钱。只是你需要搞清楚,自己是什么角色,能赚什么钱!数据作为未来企业的战略资源,的确有着毋庸置疑的重要性,但不至于没有数据,就寸步难行,还没到得数据者得天下的地步。
清晰了产业链的格局,就可以对号入座,清楚自己在产业链的位置。继而沿着自己既定的发展方向坚定不移地走下去。
大数据的决战已然拉开了帷幕,你准备好了吗?