当前位置: 首页> 能源互联网> 深度阅读

大数据思维养成从认识大数据的本质开始

中国开云官网注册网址是什么 发布时间:2020-04-26 11:58:50
  践行数据的商业价值,理解大数据的本质,从哪里开始?应该从认识不确定性开始。

 什么是不确定性

  什么是不确定性?打个比方,老王、老李做一个游戏“猜花生米”。老王出一只拳头,让老李猜里面是空的还是抓了一粒花生米。这个事件对老王而言是确定性事件,因为老王自己有没有抓花生米,他心知肚明。这个事件对猜拳的老李来说就是不确定性事件,因为老李无法对老王的猜拳决策做出绝对准确的预测。

  在实际生活中,不确定性事件广泛存在。事实上,人生就是由一系列或大或小的不确定性事件构成的。婚姻选择有着极大的不确定性。一对相爱的男女是否应该接受对方成为自己的终身伴侣,这是一个重大选择。这个选择的后果是什么?是幸福的远航,还是痛苦的开始?这有很大的不确定性。为了极小化这种不确定性,青年男女往往需要一场死去活来的恋爱,以便充分暴露双方的优点和缺点,以减少未来婚姻中的不确定性。但是,无论你如何了解,这种不确定性仍然存在。

  世界到处都充满了不确定性,那我们对未来的世界认识是不是不可知的?答案是否定的。世界上很多事情是难以用确定的公式或者规则来表示,但是这种不确定性并不是无规律可循,这个时候就需要用到统计学中的概率模型来描述。在概率论的基础上,信息论鼻祖香农博士建立了一套完整的理论,将世界的不确定性和信息联系起来,这就是信息论,用来解释不确定性的世界。

 信息可消除不确定性

  什么是信息?在看《暗时间》时(推荐大家看看),里面讨论了一些信息论相关的内容,于是就尝试搜索信息论和不确定性的关系,结果发现香农说了这么一句话:“信息是用来消除不确定性的东西”。信息论的鼻祖果然是鼻祖,一句话解释了信息。

  信息是否可以被度量?如何度量信息?1948年,香农提出了“信息熵”这个概念,解决了信息度量的问题。他指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事情,或者我们一无所知的事情,就需要收集大量的信息。相反,如果我们对某件事已经有了较多的了解,那么不需要太多的信息就能把它搞清楚。从这个角度来看,信息量的度量就是不确定性的多少。

  举例说明,就拿互联网广告来说,在门户网站上投放展示类的品牌广告,点击率是非常低的。因为对于受众用户,广告投放时几乎是随机猜测用户的需求,很不准确。而搜索广告因为有用户输入的关键词,准确率会大幅度提高,至于提高多少,取决于关键词所提供的信息量。这就是搜索广告所赚到的广告费用要高出展示广告两个数量级。通过这个例子,也能说明,信息时代,谁掌握了更多的信息,谁就掌握了更多财富的可能性。

大数据与信息的关系

  了解大数据的人,都可能知道,大数据有5V特点,这是IBM提出来的:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。但从信息论的角度,大数据通常是具备三个主要特征,数据量大,多样性和完备性。

  1、大数据的体量足够大

  大数据最明显的特点就是体量大,这一点无论是内行还是外行都认可,没什么异议。我们国家仅仅北京的国家超级大数据中心,占地面积就8万平方米,包含9栋数据中心机房和1栋感知体验中心。

  但是,过去由于数据量不够,即使用了数据,依然不足以消除不确定性,因此数据的作用其实有限,很多人忽视它的重要性是必然的,数据的价值也就被严重低估。在那种情况下,哪个领域先积攒下足够的数据,它的研究进展就显得快一些。语音识别领域,就是因为早期积攒了大量的音频数据,才可以捷足先登,第一批尝到了数据驱动方法的甜头。

  2、大数据的多维度足够多

  众所周知,Google的人工智能已经走在了前沿,也是目前全球估值最高的公司。但是,无论是AlpahaGo、无人驾驶还是IT医疗公司Calico,都是建立在多维度的大数据基础之上的。例如关于“食物”这个问题,Google会利用用户输入的信息,收集所有相关的信息。不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等维度。

  大数据的多维度,统计学中称为相关性,信息论中称为互信息。互信息,它在信息论中,实现了对信息相关性的度量。比如“央行调整利率”和“股市短期波动”的互信息很大,这就证实了两者具备强相关性。第二个视角,交叉验证。举例说明,夏天的时候,“空气湿度高”和“24小时内要下雨”之间的互信息比较大。也就是说空气湿度高,24小时下雨的可能性比较大,但并不能说空气湿度高就一定会在24小时内下雨。还需要结合气压信息,云图信息等其他纬度的信息,来交叉验证“24小时内要下雨”这件事情,那么预测的准确性要高的多。

  3、大数据的完备性

  要理解它,需要介绍信息论中的一个重要概念—交叉熵。它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。当两个数据源完全一致的时候,其交叉熵为0,当它们相差很大时,它们的交叉熵也很大。因此,所有数据驱动的方法,建立模型使用的数据和使用模型的数据需要有一致性。

  抽样调查方式都是采用抽取有限的样本进行统计,从而得出整体的趋势。抽样的核心原则是随机性,不随机就不能真实地反应整体的趋势。但是要做到随机性是很难的。例如电视收视率调查,要从不同阶层随机找被调查的人,但高学历高收入的大忙人们普遍拒绝被调查,他们根本就不会因为几个蝇头小利而浪费时间,电视调查的结果就可想而知。

  所以,在过去,任何使用概率统计模型都会有很多小概率事件是覆盖不到的。大数据时代以前,这是数据驱动方法的死穴。

  在大数据时代,在某个领域获得数据的完备性还是有可能的,Google的机器翻译系统就能很好的要利用大数据的完备性。通过数据学到了不同语言之间很长句子成分的对应,然后直接把一种语言翻译成另一类,前提条件就是使用的数据必须是比较全面地覆盖中文、英文,以及其他各种语言的所有句子,也就是说具备两种语言之间翻译的完备性。

  当数据的完备性具备了以后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。这样的数据驱动方法才是有效的。

  由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。

  ——以上内容部分是源自于吴军老师《智能时代》的读书笔记。

评论

用户名: 匿名发表
密码:
验证码:
最新评论 0

相关阅读

李玮:手握大数据 驰骋物联网

在4月22日举办的2019年度业绩说明会上,佳华科技董事长李玮表示,2020年,公司将持续在数据采集、数据分析方面发力,实现数据的复用和增值,成为物联网数据的“托管地”,做实平台化建设,构建智慧城市云链大数据平台。“我们要成为物联网领域的推动者、领航者。这条路一定是对的!”

“工业互联网”条件下新一代控制系统的发展趋势

随着工业互联网的快速发展,使得我们的生产数据可以进行规模化集中存储,实现以前不可能实现的大数据,并利用云计算平台前所未有的计算能力对这些大数据进行分析、挖掘和优化生产效率。
电力物联网 2020-04-24

从工业软件转型工业互联网平台,“朗坤智慧”已接入35万台设备

随着物联网、大数据等技术的发展,国内传统工业信息化公司也开始了互联网转型。36氪近期采访了国内老牌工业软件厂商「朗坤智慧」副总裁、工业互联网子公司总经理毛旭初,探讨了公司从工业软件向工业互联网转型的历程以及目前其工业互联网发展现状。
典型应用案例 2020-04-24

新基建之数据中心2020

移动互联网时代,数据流量不断增加。去年,我国移动互联网用户每户平均月流量为7.82GB,是2018年的1.69倍,企业数据也呈现爆发式增长。
市场研究 2020-04-24
网络数据安全标准体系:让“新基建”更安全

网络数据安全标准体系:让“新基建”更安全

近年来,数据泄露事件频频发生,随着5G、物联网等“新基建”大规模推进,未来个人信息在网上应用将更加普遍,非法数据共享与交易带来的安全挑战愈加严峻。
市场研究 2020-04-22

2020年大数据开发行业就业趋势

随着科技的发展,人类社会拥有数据规模增长很快,每时每刻、从天到地都有大量数据被产生和存储下来。数据科学则通过对数据进行分析,帮助决策。
市场研究 2020-04-22

六大案例解析电力行业如何应用大数据

智能时代的发展,电力行业积累了实实在在的海量“大数据”。电力行业的数据源主要来源于电力生产和电能使用的发电、输电、变电、配电、用电和调度各个环节,可大致分为三类:一是电网运行和设备检测或监测数据;二是电力企业营销数据,如交易电价、售电量、用电客户等方面数据;三是电力企业管理数据。
典型应用案例 2020-04-21

曙光中标长江电力!打造强大处理能力数据中心

近日,曙光中标长江电力三峡数据中心IT基础设施及大数据资源集中管理项目,为长江电力提供安全可靠、稳定性高、可扩展的云计算大数据中心硬件平台及全方位的技术服务。
大数据 2020-04-21

万国数据董事长黄伟:数据中心要为新基建“打好底”

在当前新旧动能转换的关键时期,数字经济正在强势崛起,并改变着人类的生产、生活和消费行为,已成为我国经济增长的新引擎。

“电力声音”是大数据时代重要依据

最近,中共中央总书记、国家主席、中央军委主席习近平,在浙江省委书记车俊和省长袁家军陪同下,先后来到宁波、湖州、杭州等地,深入港口、企业、农村、生态湿地等,就统筹推进新冠肺炎疫情防控和经济社会发展工作进行调研,强调运用电力大数据,推进流动人口风险分析、企业复工、独居老人关爱等城市治理能力现代化。
言论观点 2020-04-20
Baidu
map