未解决
此帖子已超过 5 年
402 消息
0
710
大数据指的是更好的数据
大数据是什么?看看大数据专家如何向非专业人士解释大数据。
美国人最喜欢的派是什么?苹果派,超市的销售记录显示,苹果派在30厘米的派中销量总是第一。可是超市改卖11厘米派以后,苹果派却迅速跌落到第四或第五的位置。怎么回事?30厘米的派必须全家一起享用,苹果派其实不是每个人的最爱,但它是每个人的第二选择。而11厘米的派是每个人单独享用的,可以买你最喜欢的品种。这个故事告诉我们,数据量的增加可以揭示出更多的真相。
通过更多的数据,我们不只是可以得到更多同样的结果,我们可以得出新的结论,可以得到更好的结论,可以得到不同的结论。
你一定听说过大数据这个概念,你可能都听厌烦了,关于大数据有太多的宣传了,但它确实是推动社会进步的重要工具。我们现在可以获取的数据要比过去多得多,这使得我们可以完成很多以前不可能做到的事。大数据可以帮助我们解决很多全人类的挑战:养活更多的人,给他们提供好的医疗,给他们提供能源,保证人类不会因为地球变暖被烤成薯片。
古代的时候,信息的载体是龟甲,兽骨,陶板或竹简。现代的存储介质要先进得多,容量更大,更容易检索,复制,共享和加工(Searching it is easier. Copyingit easier. Sharing it is easier. Processingit iseasier.)我们可以通过新的手段重用这些信息,这些手段在当初收集信息时甚至是无法想象的。数据从存储物变成了流,从静态的事务变成了可流动的,动态变化的事务。(the data has gonefrom a stock to a flow,from something that is stationary and staticto something that is fluid anddynamic.)过去的存储介质很笨重,容量很小,而且存储的内容通常是不可改变的。相反,在一个指甲大小的优盘上就可以存放斯诺登从美国国安局拿走的全部文件,而且这些资料可以以光速进行分享。
现在之所以有这么多数据,一方面是不断积累的结果,另一方面是原来没有以数据形式存储的信息都被存储了下来。我们以位置信息为例,在孔子的时代,如果想记录他的行踪,就得派个学生拿着笔墨纸砚,不断地记录。但是现在,一个带有GPS功能的手机就可以自动将每个人的行踪记录到表格或数据库中。位置信息被数据化了。
当我们在椅子上就座时,每个人的坐姿都是不同的,这取决于腿和上身的长度,以及背部的轮廓等,如果我们预先在椅子里放入一些传感器,就可以采用到每个人独特的坐姿数据,这类似于你的指纹。可是这有什么用呢?东京的一家公司正将这项技术用于汽车防盗。未经授权的人坐到驾驶员位置时是无法启动车辆的,除非通过面板输入密码以取得授权。这些技术还可以用来减少因为疲劳驾驶所造成的交通事故,司机困倦时坐姿会发生变化,如果座椅上的传感器能够检查并判断出这一情况,就可以通过车内的喇叭大声提供司机注意行车安全。
大数据应用的另一个典型例子是机器学习,机器学习是人工智能的一个分支(
Machine learning is a branch of artificialintelligence)了解机器学习的源起有助于你理解它的意义。ArthurSamuel是IBM的一名计算机科学家,他喜欢玩西洋棋,于是他编写了一个西洋棋程序,这样他就可以和计算机下棋了,结果计算机总是输,因为计算机只知道规则却不懂策略。后来他改进了程序,通过历史记录来判断每一步棋走完之后输赢的概率,结果计算机仍然一直输棋。接下来它让计算机自己下棋,不断收集数据,数据量的增加提高了预测的精准性,于是Arthur成为不断输棋的一方。
机器学习的例子比比皆是,比如无人驾驶汽车,它之所以成为可能,不是因为我们找到了可以将所有交通规则输入计算机的方法,不是因为处理器更快,不是因为算法更好,也不是因为存储更便宜,而是我们改变了解决问题的办法,我们不再蓄意地教导计算机如何开车,而是让它通过大量的数据来自主学习,学会识别交通灯,当交通灯是红色时就应该停下来而不能再前进。
机器学习是很多事物的基础,如搜索引擎,亚马逊的个性化算法,计算机翻译,语音识别系统等。
大数据给我们的生活带来便利的同时,也存在着不好的影响,我们可能受到预测的惩罚,就像《少数派报告》中的情节,通过对各个地区犯罪率的统计,我们就知道应该往哪里多派巡逻队。应该加以分析的不只是位置信息,还包括一个人的高中成绩单,是否失业,信用卡记录,上网行为以及是否总是晚睡等。如果可穿戴设备能够检查一个人的生物信息,我们甚至可以知道他头脑里有侵犯他人的念头。
在“小数据”时代,隐私是最主要的挑战,在“大数据”时代,
挑战演变为守卫自由意志,道德选择,人类的意志和人的能动性(safeguarding free will,moral choice, human volition,humanagency. 这几个词不理解,真的很难翻译)
另一个问题是,大数据会让21世纪的白领失业,正如20世纪时自动化装配线让蓝领工人失业一样。一个读了很多年书,通过大量学习才掌握了工作技能的人,可能发现自己一直从事的工作完全改变甚至彻底消失了。技术的发展可以为人们创造更多的就业机会,也可能使一些人失业,工业革命对于马而言,就不是一件好事情。因此我们应该按照人类的需求合理地使用大数据,人类应该是技术的主人而不是仆人。目前我们并没有足够的能力来掌控那些收集到的数据,商人们收集到的数据可能被滥用,我们要努力做得更好,但这需要时间。现代人与大数据的关系正如原始人与火,如果使用得当,火就是一种很好的工具,如果使用不当,就会引火烧身。
大数据将改变人们生活、工作甚至思考的方式。它可以帮助我们管理职业发展,让人们的生活更幸福美满,信息技术简称IT,以前我们更多地专注于那个T,以后要更多专注那个I了,因为它更有价值,它可以让我们学到更多,更好地了解这个世界和我们在世界中所处的位置。一句话:大数据大有可为。
本文转自@EMC中国-云计算(微信公众号:EMC_China)的文章