名师授课
美国时间8月12日,晴
早晨八点,我们30多名师生准时从酒店出发,前往斯坦福医学院大楼,开始进行一天的学习。今天由斯坦福大学的研究员Shahrzad Mirkhani为我们讲授与大数据相关的课程。
Shahrzad来自斯坦福大学计算机科学与技术学院,专注于大数据与信号处理研究。她首先介绍了大数据的定义与发展状况。大数据,指的是所涉及的数据量大到无法通过人工或计算机在合理时间内处理、整理成为人类所能解读的形式的信息。通过PPT上的一组图表,我们看到近年来市场迅速扩张,市场估计值从2012年的51亿元增至2016年的534亿元,可见其发展势头之迅猛。与传统数据不同,它的数据的来源主要有对话、图片与视频影像、传感器以及物联网四个方面。
为了让同学们更好地了解大数据的性质,Shahrzad提出了大数据的四大特点:volume(量)、velocity(速度)、variety(种类)、veracity(精确性)。
图1 Shahrzad介绍大数据的特点
大数据,顾名思义,必定由海量数据组成;此外,数据生成与运动的速度很快,一条社交信息在几秒钟之内就能像病毒一样扩散;数据也可分为很多不同的种类,过去只有结构数据,而现在80%的数据都是非结构性的,包括短信、语音、照片和视频等类型;最后,大数据中的数据具有混乱性,缩略词的使用、排印错误和内容本身的错误使得大数据的可信度无法得到保证。
当我们拥有大量的数据,却无法投入运用,那有何价值呢?因此,Shahrzad反复强调,只有将数据转换为价值,大数据的存在才有其意义。她绘声绘色地向大家介绍了大数据的几种应用。在介绍目标客户的应用时,她站在公司的角度,讲述如何利用大数据预测产品销售。公司通过搜集大量的社交网络数据、浏览器数据和传感器数据来扩大它们的数据集,以便更好地了解客户的分布与需求,通过对数据进行处理与分析,预测出哪些产品能够更好地销售。大数据在健康上的应用也比较广泛:通过对海量数据的分析,来寻找新的疗法、了解和预测疾病的机理,并研究生活方式与疾病之间的关系,还可以应用于流行病及其他疾病的爆发的预测。此外,大数据在运动、安全等方面也有一些应用。
在了解到大数据的主要应用之后,同学们对大数据的兴趣更加浓厚了。Shahrzad开始讲起大数据应用背后的原理,内容较深、专业性也较强,但同学们都沉浸在对数据模型的思考中,没有丝毫疲惫。通过她的介绍,我们看到了数据模型的发展:过去的模型中,只有少数公司在生产数据,所有其他人都在消费数据;而随着大数据时代的到来,人人都在生产和消费数据。
在授课过程中,有同学对大数据与传统数据库的异同产生了疑问,Shahrzad给出了详细的解答。这二者在数据格式、数据质量、数据价值等方面有着显著的差异。传统数据库只能应用结构数据,而大数据可以应用各种格式;其次,传统数据库一般是中央处理数据,而大数据是分布式储存和处理;而且,传统的数据库处理得到的数据量少但质量高,大数据虽然处理得到的数据量多但存在瑕疵。分布式系统往往无法同时满足一致性、可用性和兼容性,这是它需要改进的地方。
图2 Shahrzad解答同学的问题
接着,Shahrzad向我们介绍了大数据分析工具的基本要素,分别是云服务、架构、数据储存和算法。云计算是一种新兴的共享基础架构的方法,包括公有云、私有云和混合云。它能带来诸多效益:如节约成本,降低调度时间,具有可信赖性与持久性等等。
在提问环节,同学们踊跃发言,其中有同学问到了云服务中的隐私泄露问题。比如现在国内较火的百度云盘,上面所存的信息可能有安全隐患。对此,Shahrzad表示,就目前而言,尚未出现云服务信息流出的问题。事实上,机密的信息使用任何共享式云服务都是有风险的。信息安全的确是云服务最亟待解决的问题。
随后,Shahrzad介绍了分布式系统。由于其良好的可信度、可用性和可扩充性,分布式系统在现代信息技术中愈加受欢迎。它既可以用来共享数据,又可以用来共享资源,在一定程度上比大型机更快、更强大。但是它在透明度、可扩展性以及获取共享资源的途径的安全性上还需要进一步加强。
图3 Shahrzad教授介绍分布式系统
有了上面的知识储备,Shahrzad开始给同学们讲解大数据架构,主要包括Hadoop(一种由Apache基金会所开发的分布式系统基础架构)、Spark(大数据计算平台)、Kafka(一种高吞吐量的分布式发布订阅消息系统)。MapReduce编程模型是一种用于大规模数据集的并行运算的编程模型,是Hadoop最著名的工作机理之一 ,具有并行排序、映射等功能。
最后,我们了解了大数据行业的发展趋势。大数据行业创造的价值目前已经超过1000亿元,并且在以每年10%的增长率不断上升。未来的信息社会,大数据行业将会更加蓬勃发展。
图4 师生深入探讨大数据架构问题
Shahrzad 8月9日为我们讲授过与物联网相关的课程,在之前的课堂上大家都有些拘谨,师生互动不是很多,但是今天的课堂气氛十分活跃,同学们积极发言,Shahrzad也在大家的带动下变得更加热情起来。课程结束后,师生在斯坦福医学院大楼门口合影留念。
图5 师生们与Shahrzad合影
下午,在斯坦福大学读传播学博士的邹胜学长(本科北外、硕士清华)应邀来到教室,对同学们就做如何做最终的课题展示进行了悉心讲解。邹胜学长认为,展示一般分为课题和研究两类,课题类应当注重对产品的介绍和应用前景的讲解;研究类要说明前人研究的过程以及研究的方法,并在结尾部分对自己构想的项目的应用类型和发展方向做出展望。紧接着,同学们着手开始准备各自小组的课题,大家讨论热烈,邹胜学长也分别对每个小组的准备工作做了详细指导。
图6 小组热烈讨论
图7 邹胜助教指导同学们的课题准备工作
晚上,部分同学与老师们前往斯坦福教堂聆听了一场音乐会,体验不同民族的艺术文化。其实,这次音乐会的信息,还是刘玉老师她们从斯坦福大学的官网上发现的呢!在该网站上有一个活动通知栏(event calendar),上面每天都会发布校园里各种不同的活动,包括音乐会、演讲等等,这种独特的信息发布方式,与学校高端的技术与学术研究水平相契合,也充分体现了学校对师生的人文关怀。我们学校也应该建立这样的学生活动网站,把各种活动及时推送给每位学生,还能杜绝路边的“牛皮癣”广告呢。
图8 斯坦福大学官网活动通知