数据科学将成为新的商业引擎

2018-04-09 分类:前沿科技 阅读(25)

大数据时代,企业家都非常关心数据究竟如何帮助企业实现业务增长和商业模式进化,很少有企业管理者真正理解数据科学对未来时代商业模式的影响。大部分企业仍然将数据科学作为商业分析工具,辅助企业发现风险事件和挖掘营销机会。传统企业的商业活动中,数据科学很少参与到实际的商业运营之中,实时进行商业决策,帮助企业提升销售收入。

  互联网企业,数据科学正在作为商业引擎发挥着至关重要的作用。Google 2017年上千亿美元的营收中,84%来源于广告业务,其广告业务的CTR(点击率)在3%-4%之间,TOP位的广告点击率高达30%-40%。谷歌在全球的在线广告市场份额超过33%,搜索广告市场份额超过60%,是名副其实的广告霸主。2017年亚马逊1500亿美元的电商GMV中,40%的营收依靠其推荐引擎。Google的广告业务和亚马逊的电商业务,其背后进行实时商业决策的不是人而是数据科学。Google通过数据科学优化其广告业务,推送给客户愿意点击的广告,CTR每提高0.1%的百分点,给Google带来的业务收入会增加20-30亿美元。亚马逊利用推荐算法为客户提供其愿意购买的商品,推荐引擎每提升一个百分点,其GMV会提升40亿美金。

  数据科学俨然已经成为Google和亚马逊这些互联网巨头的商业引擎,帮助这些巨头实时进行商业决策,提升业务收入。中国的互联网企业BAT也是同样,数据科学在后台帮助其每天进行上万次商业决策。阿里的电商推荐引擎、腾讯的广告平台、百度的搜索引擎,都是通过数据科学在进行商业决策,将合适的商品、广告、信息推荐给客户,提升客户的转化率,获得更多的业务收入。在传统企业商业活动中,我们很少看到数据科学参与到实际商业运营之中,也很少像互联网企业一样,帮助企业进行实时商业决策。

  企业所有的商业行为最终体现为商业决策,每天都需要为业务发展做出成百上千的决策。这些商业决策体现在业务运营的方方面面,包括产品设计,市场营销,库存管理,客户经营,商品推荐,门店选址,成本控制,供应链管理等。企业大部分商业决策都是由人来进行的,很大一部分依赖于从业人员的行业经验和数据分析结果,这些商业决策具有一个典型特点就是决策周期过长,短的几天,长的需要几周甚至几个月。从风险角度来看,多次讨论和长时间决策可以降低决策风险。但是从商业机会角度分析,长时间的决策也可能错失商业机会,降低决策带来的预期潜收益,也会增加商业决策的失误风险。在市场不确定性增强,节奏变快的数字时代,有效风险控制和实时商业决策将会成为企业的核心竞争力,其背后的技术支撑就是企业数据科学的商业化应用能力。

  过去几年,一些传统企业在数据科学应用方面取得了突破,其商业运营正在依靠数据科学降低库存成本。宝洁公司有两个数字让管理层非常头痛,一个是38亿美元的库存数据,另一个是脱销量。在零售店或折扣店中最重要的2,000种商品中,任何时刻都有11%的商品脱销。系统中的大量库存库和客户无法及时买到宝洁的产品,成为一种矛盾在不断消耗着公司的成本。BiosGroup运用了被称为"基于供应链实体(agent)的建模"技术,在数字世界完全模拟了宝洁的供应链系统。小的软件模块代表了系统中各种实体组成部分,一个实体代表生产线,其他实体则代表货车、仓库、客户和消费者。模型是根据消费者行为的概率分布(比如他们何时购物、购买多少)以及货架的状态(即产品是否脱销)来建立,在这个理想世界中,每件事情都有条不紊地平稳发展着,供应链就像瑞士手表一般以精确和可预测的方式工作。

  利用数学模型和数据科学技术,宝洁公司比以前更准确地测量各种需求变化和分销决策的影响。模型经过计算发现强制装满一卡车订货量之后再发送,会产生涓滴效应,导致部分商品缺货和库存增加。对订单做5%调整,允许30%弹性发货则会降低库存,降低产品脱销概率。经过一系列的模型计算和商业决策调整,宝洁公司一年之内减少了30亿美元库存,降低了75%的商品脱销率。

  类似于宝洁公司利用数据科学来指导商业决策的案例还用很多,例如Air Liquide 公司利用蚁群算法实现货物运营路径优化,降低8%运营费用,每年单个工厂降低成本150万美元。宝马公司利用拉丁超立方体导出2000个点创建控制实验室,采用克里金插值(Kriging)、偏最小二乘模型(PLS)、径向基函数模型(RBF)实现交互设计从几小时响应到无延时交互设计。Paypal利用深度学习进行反欺诈和反洗钱,效率提升两倍,实现实时决策。

  数据科学的商业应用正在从后台数据挖掘工作走向前台,参与到实际的商业决策当中。传统企业需要转变对数据科学的定位,在成熟的商业环境中,不涉及重大风险的前提下,数据科学应该辅助业务人员进行商业决策。在某些环境下让数据科学独立进行实时商业决策,降低商业决策的时间,并有效控制商业决策风险。数学模型可以实时预测商品销量,从而指导企业库存管理和原料采购,缩短库存时间,提高周转率,降低企业运营成本,提高资金利用率。企业在面对市场激烈的商业竞争时,基于数据科学的实时商业决策也会降低企业决策失败的成本,一旦某个商业决策没有达到预期效果,被认为是一个失败决策时,实时商业决策会及时止损,降低其成本投入,有效控制风险。但是涉及到重大风险类商业决策时,考虑到决策的复杂程度,人的判断要占主流,数据科学为为其提供决策支持。

  数据科学成为传统企业的商业引擎需要一个漫长的试错过程,在发展的过程中,需要企业经历几个阶段。首先是数字化阶段,企业需要将业务经营相关的各流程进行数字化,产品生命周期和业务流程的生命周期产生的数据将被采集和整理,为数据科学应用提供必要的生产资料。第二个阶段是数据治理和业务需求分析,先进行数据治理,并依据业务需求来治理数据,标注数据,汇总数据。为实现数据科学应用提供标准化的输入和输出。第三个阶段是数据科学应用阶段,依据业务需求和数据来建立模型,通过数学模型和数据工程能力解决实际的商业问题,基于数据科学的结果实现实时商业决策。

  数据科学成为商业引擎的关键是企业的数据科学商业化能力。企业在实现数数据科学商业化应用能力上需要建关注三个方面建设。

  一、数据科学人才和组织建设

  数据科学应用能力和组织建设适合于大型企业,中小企业由于经营成本和人才储备的原因,数据科学的应用一般会依赖于外部的厂商和BAT巨头。

  对于大型企业,需要两组数据科学团队,一组位于科技部门,其主要职责是建立数据科学应用平台,为业务部门数据科学应用提供高效的计算环境和高质量数据,并协助业务部门的数据科学团队实现业务模型商业化应用,将数学模型变成生产系统,实时指导商业决策。这组数据科学团队更加关注数据科学计算技术的发展和数据科学的工程能力。另外一组数据科学团队的人属于业务部门,其比较了解业务数据和业务需求,数据科学的商业化能力比较强。具有丰富的数学模型应用能力,基于业务需求,选取特征值建模,并不断对模型进行调优,得到模型应用的最佳解。这组数据科学团队更加关注算法和模型,数学模型的商业应用能力较强,特别是开源算法的了解和应用方面。

  从企业角度来看,这两组数据科学团队缺一不可,一个是数学模型的商业应用能力,一个数据科学的技术和工程能力。在互联网企业这两组数据科学团队可能会属于一个团队,在传统企业,建议将此两组数据科学团队分开,各自承担其属于自己角色,也便于各自专业能力的发挥。

  二、数据管理工具和数据科学平台建设

  高质量的数据是数据科学商业化应用的前提,企业经历了长时间的信息化建设之后,常常会出现数据孤岛现象。数据科学应用之前,需要先解决数据孤岛这个问题。数据仓库、数据湖、DMP都是解决数据孤岛的工具和方式。企业需要建立数据管理工具和平台,实现对数据的汇总、调用和标注。企业如果要实现AI的商业应用,也需要大量经过标注的数据,这也是数据管理平台的关键功能之一。

  数据科学平台是数据科学商业应用能力个载体,互联网企业具有较高的数据科学能力,其往往建设自己到数据科学平台或者在开源平台上进行优化,常见的开源数据科学平台有Google的Tensorflow,Spark MLlib等。商业化的数据科学平台参考 Gartner公布的2017年数据科学平台报告有IBM,SAS,RapidMiner 等传统厂商,也有远见者DominoData Lab,Dataiku,H2O.ai等硅谷新贵。

  数据科学平台还处于发展完善阶段,地位现在比较尴尬,企业需要的不是一个工具平台而是数据科学的商业化能力。很多数据科学平台实施过程中需要配置十多位数据工程师和数据科学家来帮助企业实现数据的商业化能力。互联网企业和技术能力较强企业的数据科学家基本上不用第三方的数据科学平台,这些数据科学家直接在计算平台Spark上进行模型部署和调优,效率会更高。企业客户的数据挖掘团队是数据科学平台的主要用户,其对平台的主要需求是用户体验和计算便捷。

  数据管理工具和科学平台建设需要参考企业的实际数据应用的成熟度,对于数据质量好、成熟度高的企业,数据管理工具和科学平台可以同时建设。相反其他的企业先从数据管理工具DMP开始,打好数据管理的基础之后,再开展数据科学的商业化应用。

  三、数据科学工程能力的提升

  数据科学家和数据科学平台仅仅是数据科学商业化应用能力的基础,并不代表数据科学将会成为企业的商业引擎。无法辅助企业进行商业决策,帮助企业实现实时营销和反欺诈、实时商品库存管理等。

  数据科学的工程能力是数据科学成为商业引擎的核心能力。很多大型企业,在数字化发展的进程中,开发了很多业务模型,例如流失客户预测,门店销量预测等,但是这些业务模型大多是T+1天之后计算出结果,仅提供数据分析功能,不参与业务决策。业务人员参考这些业务模型的计算结果进行分析和讨论,经过一段时间之后,再由业务人员进行商业决策,指导业务操作。即使这些业务操作有明确的业务规则指导,可以被模型固化执行。业务模型在这种情况下,完全处于一种非实时,非决策状态,没有在实质上改进商业决策效率,仅为商业决策提供辅助的数据支撑。数据科学的商业价值在这种情况线被大大的忽视了,也体现不了数据科学家的真实商业价值。

  互联网企业则不同,其基于数据科学的商业应用正在实时的指导商业决策,成为其业务发展的商业引擎。在商品推送、广告曝光、搜索结果排列、驾驶导航、业务派单等方面数据科学正在实时进行商业决策,单位时间内提升客户体验,推动商业高速发展,创造更大的商业价值。

  数据科学的工程能力是企业数据科学商业化应用能力的一个核心能力,其包括数据计算平台的理论能力和应用能力、算法能力、编程能力、统计分析能力等。数据科学的工程能力体现为将业务模型从线下计算转向线上计算,从非实时计算转向实时计算,从非生产系统转向生产系统,从非决策系统转向决策系统的工程化能力。数据科学的工程能力是互联网企业数据科学团队的核心竞争力之一,也是传统企业数据科学家团队应该提升的能力。

  大数据时代,当面对海量数据和复杂商业环境时,企业的商业决策能力将非常重要,实时的商业决策可以帮助企业抓住商机,提升运营效率,降低商业成本,也会加速商业模式的迭代,顺应市场变化。数据科学是支撑企业实时商业决策的技术基础,也是企业未来发展的商业引擎。