四个月前,《网络安全法》以及最新刑事司法解释正式施行,信息安全尤其是个人隐私保护问题被上升到了一个新高度,当时写了《分水岭:6月1号起,大数据进入下半场!》。
几个月过去了,据媒体报道,有数十家做大数据的公司因涉嫌数据信息安全被约谈或者协助调查,很多数据查询访问接口关停,有人惊呼"大数据行业进入冰封时代"。
但更多的大数据从业人士认为,那些倒卖数据的企业是挂羊头卖狗肉,对大数据的名声和产业空间伤害非常大,对整顿拍手称快,认为唯有如此,才能让大数据产业走得更远。
喧闹过后,要冷静思考。
不做倒卖数据出售隐私信息,生意应该如何做呢?
这不是简单的问题,而是大数据产业的战略选择。
首先要想明白的,是去"赚大钱",还是"挣小钱"。
第二要弄清楚的,是去做"使能",还是说"我能"。
【大数据平台的本职,是为数据分析提供基础支撑能力】
"使能"是个舶来语。很多年前,写中国移动业务支撑工作会材料时,本想把Enable翻译成一个信达雅的中文名词,但马上就要开会了,实在来不及,就硬着头皮直译成为"使能者"。
没想到,这个词和"BOSS系统"一样,越来越火。
无论是大数据平台本身,还是基于平台提供的数据集市/沙盒、工具,都可以看成数据分析的基础设施,是大数据的"使能者"。
提供数据是大数据平台必不可少的功能。各种各样的数据信息散落在各个IT系统中,有的甚至源于客户的终端里,将这些数据归集在一起并非易事,不要说存储和处理数据所需要的成本,就是将不同系统的不同类型数据转换为统一的格式,就需要花费大量的时间和开发成本。
而另一方面,数据采集工作是非常有意义的。处理这些数据的成本非常高,如果每一家企业都去做这项基础工作,实在是代价太大,很多中小企业会因此玩不起。
由此来看,建立跨企业跨应用的综合数据平台,为不同的应用提供数据支撑和服务,是众望所归。
类似的逻辑,由大数据平台提供数据分析挖掘工具以及报表展现工具,也是降低应用开发门槛的有效办法——多用户多租户的方式可以摊薄成本,同样的工具,用得越多,价值越大。
如果没有这些平台类企业存在,那么围绕大数据的应用开发成本和运营成本就要高很多,再多巧妇也难为无米之炊。
【大数据的价值,要与企业的核心业务相关】
一大堆数据放在那儿没有价值,但从数据里提炼出来的信息有价值。说数据分析是点石成金,一点儿都不过分。
最基本的价值,就是为企业的经营管理者提供所需要的常规数据和基本信息,及时了解业务发展情况,而展现的形式就是各种维度的报表。
这种报表大部分是事先定义好的。但在实践中,除了常规的财务报表和业务报表之外,绝大多数预定义的报表并没人看,甚至很多报表连其设计者都没兴趣看;而让大家感兴趣的,往往是临时想出来的多维数据比对和突发性统计报表。
一位老领导和我说过一件发生在上个世纪的往事:某国总理访问中国,通知由邮电部领导陪同,于是邮电部领导希望了解下该国近几年与中国的长途通话业务量,以及其临近国家与中国通话的一些数据。为此,当时长途电话局用全部计算机资源跑了好几天,终于得出了领导所需要的数据;然而,来访的外宾此时已经离开中国。
这就是数据分析经常遇到的尴尬场景:平时花很多钱,持续运营,辛辛苦苦得到的数据和报表没人用、没人看;而真有了统计分析的需求,统计分析人员却又搞不定。连个报表都拿不出来,数据的价值如何体现?
为了避免这样的尴尬,从事数据分析的同事们先发制人,主动进行数据分析,不限于简单地汇总统计,还能进行交叉比对,甚至技术含量更高的数据挖掘也逐渐热了起来。
渐渐的,大家越来越认同一个道理:只有将应用分析和业务相结合,体现出大数据分析的商业价值,才能持续获得各方的支持,以及企业的持续投入。于是,如何围绕企业的核心业务体现数据分析的价值,成为大数据产业的核心。
【"使能"还是"我能"?】
建设基础设施是体力活,默默无闻却又非常花钱;而点石成金术能迅速直接地体现价值,更容易获得认同感。大数据企业会经常有意无意地迷失在"数据"和"应用"的棋局中。
那么,能不能鱼与熊掌兼得,大数据平台和应用相互促进共同成长呢?
这是一个美好的愿望,从专业角度看,无论是成本的约束和人才队伍的建设,都导致大数据企业只能选择其中一个作为发展方向。而从企业发展的角度看,同时做两件都很难搞的事情,成功概率更低,还是聚焦在一个方向上靠谱些。
从技术角度看,大数据平台等基础设施主要关注的是IT(包括数据的获取、清洗、转换等)和数据本身。比如要读懂数据源以及数据的定义,对业务的理解稍微差一些问题也不大。
而在应用方面,必须要和具体的业务相结合,即使用了再先进高明的算法模型,只要是和业务脱节了,就非常容易闹笑话。
从大数据产业的价值看,必须有人扮演大数据基础设施构建者的角色,如果没有底层的数据积累沉淀,再多再好的创意想法都不过是空中楼阁,甚至是"假数据,真分析"。
因此,在大数据起步阶段,往往会围绕数据开展工作,多以底层平台建设、通用工具组件为核心技术。
然而,当时间越来越长,如果没有应用来体现大数据的价值,又如何获得持续的投资和支持?这时候,技术就转向了分析模型、算法以及AI等应用。
此前,大数据产业链最直接赚钱的方法就是卖数据,把收集到的个人数据信息快速变现鼓励了数据的原始积累,其他都是"慢钱"。
在国家政策打击数据倒卖行为之后,数据和应用渐渐浮出水面。
当然,到底是做个提供基础设施的"使能者"(Enabler),还是自己上手开发应用,不同的企业基础不同,尤其是拥有的资源优势不一样,最终会选择不同的路径。
【智能化,也存在"使能"和"我能"的分歧】
相对于传统的静态报表,智能化是更加高阶的大数据应用。
虽然对智能化有很多炫酷的场景设计,但应用最多的,还是根据事先设定的程式,当某种场景出现时,就会触发这一系列动作的进行。原理上看,就是个"If……Then……"的运算逻辑,但与具体业务结合之后,就会产生各式各样的商业价值。
以前这种商业场景也存在,只不过触发条件过于简单化,比如去购物时出示会员卡,扫描会员卡时会给柜员显示顾客的姓名,上次购买了什么商品,有什么偏好,提示柜员采取什么方式进行营销。
而今,科技可以实现更加复杂的过程和逻辑,在改善客户体验的同时,提高了销售的成功率。
把大象关进冰箱需要三步,这种触发式智能化也是由三部分组成的。其一是模型的建立;其二是触发;其三是行动。
其中,第一步是数据分析以离线方式来完成的,然而第二和第三步就有了争议。
"我能"派的观点认为,"智能化应用"应该是端到端的,从设计到执行都由一套独立系统来完成,这样的方式最直接最有效率。常规的生产系统要做的事情太多,以独立小分队的方式推进智能化创新更合理。
"使能"派则比较保守,认为大数据应该是为智能化提供支撑,而触发和执行过程应与现有生产体系融为一体,否则就容易出现数据不一致,反而降低了整体效率和客户满意度,智能化的创新必须要在整体规划之下完成。
是作为支撑别人的使能者,还是赤膊上阵以端到端的方式实现价值,之所以说这是战略选择,是因为决策者必须明白,自己要放弃的是什么。