学者见解 INSIGHT
    2018年6月1日—2018年6月2日
    地点:北京清华大学
    详细

    学者见解

    陈国青:大数据驱动的管理与决策

    返回列表

    sdsf

    2017年5月25日,由中国国际大数据产业博览会、人民邮电出版社、中国计算机学会大数据专家委员会主办,信通传媒·《大数据》承办的“第二届大数据科学与工程国际会议”在贵阳召开。清华大学经济管理学院教授陈国青出席“大数据管理与决策”分论坛并发表题为《大数据驱动的管理与决策研究》的演讲,以下为演讲实录。

    非常高兴今天用一点时间跟大家分享一下大数据驱动的管理与决策这个题目。这个题目实际上是讲两件事情。第一个背景非常简单,还是因为今天上午讲的报告偏应用方面的。今天说的是国家研究计划,有一些偏研究方面的,其中的一些挑战和自己的一些体会吧。

    谈到大的背景,再这个数字化生活下,实际上大家的数据都被物理人接着了。探头啊,手机啊,我们手机穿戴的其他设备也被感测了,我们在接受数据的同时也被感测了。上面有很多环节业务之间的联系,实际上这个是密不可分的。这个互动的演化使得我们数字化生活到了这么一个程度,也就是说数字世界现在能够比较好的反映物理世界,现代世界了,过去几个大区没有几个探头,看不清楚,现在到处都是这种感测。

    国家基金委启动了一个大的计划,也是一个国家唯一的一个重要的计划,联合的信息学部,医学部,管理学部牵头,这是一个项目集群,叫做大数据驱动的管理与决策研究。希望通过管理和决策的范式、应用产生一些影响或者是产生一些成果。

    这个里面的图是画一下整个研究计划的框架,在这个四个领域进行研究问题的背景,就是说金融、医疗、健康、公共管理、民生、社会管理、商务,这四个领域或者方向,实际上前两个是大领域,四个研究的问题或者是叫研究的内容,第一个就是说大数据驱动,大数据和没有大数据在管理决策上会不会不同?会不会产生不同的范式?另外大数据的资源、结构,他的共享、权属的问题。另外就是怎么样用大数据为企业、社会、国家创造价值。这就是大数据带来的,本身具有的问题。围绕管理和决策。

    第四块就是大数据本身是数据,同时又是资源。因此对数据的分析,资源的加工就非常的重要。第四块就是我们的信息技术,怎么对数据进行分析、理解、推断这样的一些方法技术。所以这四个内容,那么希望就是说能够通过做研究,能够汇集我们四个学部,大学科的学者和企业,那么我们也特别的鼓励学者和企业一起研究这个。

    目前,企业管理者会关心三个问题,第一是企业现在是什么状况,还有多少人还有多少物,股价是怎么样的,竞争对手是怎么样的,我今年绩效如何,我要知道企业的状态。这三个层次,首先是业务层面,回答业务状态是什么。数据的力度是不是足够细,通过数据感测到。如果我们没有办法感测到就没有办法回答业务状态。有了这个数据以后,我知道这个东西在全局的层面,决策的层面是怎么样的,就知道地图的缩放是怎么样的。这是在回答第一个问题。任何一个领导者都要问现在是怎么样的,我们的状态是什么,当我们知道有了状态以后就会问第二个问题,为什么会这样。为什么会发生?为什么我今年的企业绩效很好,为什么员工离开了,为什么我的客户去对手去了,为什么股价上不去。回答这三个问题以后,什么因素引起这个状态呢。我业务之间的联系就非常重要了。业务之间的联系,数据的路径就要有数据的连接。那么在管理的抉择层面上,就希望知道他是有因果,同时也希望知道他的关联,也希望知道因果。所以社会上的大数据只讲关联不讲因果我觉得是误导。

    第三个当我知道原因以后,我们要做决策了,为什么下一步做决策,那么就是说加法是什么,在业务层面上,就是说我的业务向哪一个方面发展,我的数据是动态变化的,不是一个静态的数据库的状态,而我是要动态的,我的决策是要有前瞻性趋势性的判断。所以在管理上,对应的业务、数据、决策层面是三个不同的关注。要完成这个问题,在管理上来讲,那么我们有一个能力的构建,就是大数据分析能力。这个能力的构建。那么这事我先说一下背景,我想说一下在这个里创新和应用做什么样的调整。特别是做应用和研究。首先实际上我们分析一个企业的问题,或者我们要做一个研究,他必然会关心我们所说的建模,实际上这个模型是一个比较宏观的概念,可以是定量的模型也可以是定性的模型。这个模型可以是一个理论的构架,也可以是一个商务的模式,也许是一个业务的逻辑,要素的关联,或者是一个因果的关系,或者是演化的路径都可以管它叫做模型,它的可以很微观、宏观的或者之抽象的。

    建模的过程,从管理学角度来讲,从常用的,基本上我构建一个假设,我构建一个模型,我们首先要数据验证一个假设。不管是计算机还是管理的都要用数据做模型。这是一个最常规的方法,那么在管理学研究里面有两个最重要的方法论。这个里面一个是行为模型。行为模型是通过用这样的图画这个模型。在行为、心理、管理里面用得比较多的,这个里面是一个变量,就是进行影响。这个通常的做法是问卷,问客户,这个就是自报告的形式,然后统一检验,结构方程。还有一类是经济性模型。这个主要是想说,他们X以外之间变量的外生内生的关系。这样的模型我们叫模型驱动。这个模型现在比较常见,他们也用面板数据进行统一验证,验证他们的有效性,虽然有效,但是有一些局限。如果这个避让组合比较多,就不可能建这么多的模型,特别是大数据多的情况下,变量一多,就是指数性的。像变量规则,是像这么一个的。还有一些新变量,是想不到的。还有一些浅变量是表达不出来的。统计检验方差会不会很小,因此统计的这个显著性,区别性会不会有问题。有没有觉得很重要,但是又不能测量,所以这些用传统的模型,用传统方式都有困难。这就是我们要熟悉的,需要用数据挖掘的方法来做。现在这个方法做完了以后,通常要和管理问题结合。所以现在一般的做法或者说我们在管理研究中是用这两个方法结合做比较多。

    实际上就是说,在传统的数据驱动的发展下,比如说关联,我可以先缩小我的变量空间,然后在一个小的变量空间下进行模型建模。现在比较主要的就是比较偏研究的这些的一些成果,都是采用这样的一些结合的方式。那么刚才说到了数据驱动,当这个数据变成四维特征,有很强的外部性,有很强跨动性的时候就是大数据驱动。那么大数据驱动用到了管理决策上就是要有关联又要因果。今天由于时间原因,就重点讲前两个,后面两个上午讲了一下。

    第一个是大数据研究中外部性问题。第二个是我们企业或者是研究者在大数据背景下要技术增强。要对技术敏感,要用技术,是这个。那么第一个外部视角的应用是什么意思呢?不管是搞计算机的,模拟,决策的,管理的都有一个模型,这个变量里面可以建一个函数FX,有一些变量以前没有在我的模型,比如说我用红色表示的专家的论坛,然后好友圈,社会的媒体,原来在模型里面没有考虑这个问题,因此以后希望引入到模型当中。原来说的是一个关系,现在我可以是Y2,Y3,Y4,他们之间有共同的变量交叉。我要考虑产品的评论,政策的法规,考虑社会媒体对我的形象,因此我有一个总体的产品的形象。因此我们用关系引入和要素引入。要素引入是要用的问题,怎么样引入呢?比如说这是我原来的变量集合,红的是我新的,不管是多宽,现在有可能引入新的变量,就用红色表示。比如说我们想引入好友圈的信息,既有打字又有语音,又有图象,又有视频。现在引入的时候,比如说文本,语音、有文本数据,可能说我们建文本,要引用一下。如果用语言图象视频,这个好,我是CNN,我深度学习,比如说我是一个很虚拟的世界或者是虚拟的动作我可能用RNN来做。如果我们进一步用意念控制就要智能了。用意念控制很多动作就是机器人。过去我不是做计算机的,我是搞管理的,或者别的领域的,但是我要引入这些变量,就要采用工具和方法,增强我原来模型的解释率。因为原来没有这个变量。这就是从用的角度,构建模型。原来他们都是传统的,现在又要把微信、微博图象弄明确,就要用工具,这个工具虽然不是专门定制的,但是总比不用强。这是一部分人,就是做用的人,我要用技术,还有一部分人就是搞计算机的人。我们要造技术。我们要在方法上引进。我们在黄色里面,重点是在黄色里面。现在如果是做计算机信息方面的,现在我们在信息系统口呢叫设计科学。做管理信息系统的。那么我们在计算机里面叫数据科学。

    做计算机行业的人,他们管这一块是叫做数据科学,除了这两个之外呢,还要引入感知技术,比如说脑电,比如说认知科学的技术,它是用感知的技术。结合我们的数据设计,和设计科学形成一些方法创新。

    最后呢,本来是有PPT想讲团队的工作,我自己的团队是二三十人,做两三个工作,一个是做行为,一个是做技术。做行为呢,除了一些算法之外。这是我们这一两年时间的一些成果,我们做了两块的工作,一块是偏行为,一块主要的成果是技术的。那么实际上我想说,大集合和小集合问题,第二个问题是组合关联问题,第三个是隐性传递关联问题。第四个是搜索估计。今天用下一页说第一个大集合小集合。就是我们大数据没有一个人去清理去看,我们也看不全。所以我们在网上看评论都是子集。因此变成了这么一个问题,我有一千个球,红的蓝的白的黄的黑的,我们要找四个球,最多的是黑的,搜索主要的方法是找出10个黑球,这是主要的方法,因为它的相关性。但是如果什么都想有代表,红色、蓝色都想有一点,就跟选举式的,跟每一个省、州都有代表,因此这个里面就出现了给你一个子集,怎么选这10个,我选这个小集合,怎么样代表大集合,所以我们也用了一些算法,给企业来用,然后他们来用。

    因为很多的应用场景,比如说领导要看一些文献、决策资料的时候也没有精力看这么多,我个人企业也没有关心这么多,关心的就是子集。最早在计算机里面就是,怎么样作为代表性,除了相关性以外还有什么别的问题,这个里面,动态啊,口碑啊,社会媒体,产品体验都有很多。这个问题呢,就变成了一系列的研究,做这个方法,把这个方法用到了企业里面去,首先先从方法上,我们这个方法刚才说到的有四五个文章的方法。这个里面有代表性的测度,有一般性,多样性,冗余性,有很多测度。有的情况下还需要排序,你要给出一个排序,这个问题更复杂,总体来讲就是先给出一个方法,这个方法要比现有的方法好,和企业结合,变成一个可用的方法,基本上是这样的一个思路,所以这个跟方法有关,一个是偏方法本身,一个是偏应用这一块。那么我觉得这个系就不说了吧。

    最后总结一下,目前技术和应用都是发展非常快的,不管是学者还是业界都要敏感,敏感的感测外面的变化,同时作出跟自己的训练跟自己的学科相关的一些响应,更适应我们时代的挑战,谢谢。