omniture

重邮张清华:发展数据科学需要大数据试验场

2020-10-15 14:32 5992
近日,“浪潮云数智中国行-重庆站”现场,重庆邮电大学计算机学院/人工智能学院执行院长张清华做了题为《人工智能发展的内驱动力》的主题演讲。

北京2020年10月15日 /美通社/ -- 近日,“浪潮云数智中国行-重庆站”现场,重庆邮电大学计算机学院/人工智能学院执行院长张清华做了题为《人工智能发展的内驱动力》的主题演讲。张清华院长分享了人工智能时代下数据、算法和算力的发展,尤其对人工智能时代下的“数据科学”做了精彩的解读。

随着计算机、互联网、移动互联网与物联网的发展,我们已经进入了以数据为主体的数字化进程中,科学研究也已经走向“数据科学”第四范式。数据是数字世界的基本要素,也是人工智能的生产资料。然而,目前我们对数据的挖掘与探索仍然停留在表层,并未发现数据本身的新规律、新知识,并由此创造新的价值。面对数据的挑战,深化人工智能发展,重大的科学基础设施建设必不可少。

将重庆邮电大学建设为“重庆市大数据智能化的一个实验场所、人才高地、科技高地”,是重庆市的重要战略部署。目前,重庆邮电大学正加紧筹划建设“大数据试验场”,推动科学基础设施的建设,为重庆市以大数据智能化为引领的创新驱动发展战略提供强有力的基础设施支撑。2020年7月,重庆邮电大学与浪潮携手打造了计算性能达每秒千万亿次规模的人工智能创新平台,作为重邮的核心算力底座,支撑起重邮的大数据智能化研究,切实推动重庆市的智慧新基建发展与国家新一代人工智能创新发展试验区建设。

以下为张清华院长演讲实录(节选):

数字世界来临,数据成为生产资料

人工智能的三大要素是算法、算力和数据。其中,数据是人工智能时代的生产资料。那么我们为什么进入数字世界,被数据包围?首先要提到的是计算机的发展,计算机令一切数字化成为可能,也让高效计算成为可能,我们已经身处数字化进程中,是抵挡不住的潮流。第二,网络的发明让机器的互联互通成为可能,让信息高效汇聚成为可能。第三,移动互联网的发展使得我们的数据从固定终端转移到移动终端,变为我们的手机、iPad。第四,物联网通过传感器,使人与人之间、人与物之间、物与物之间构建起万物互联的数据世界,让现实世界精确映射到数字世界成为可能。实际上我们每个人都是数字世界的最基本要素和数据生产者,每个人都在数字世界上对自己进行画像,最后汇聚成一个数字海洋,也就是我们今天所说的“数字世界”。

在人类社会诞生前,世界上我只有一维空间,即物理空间。有人类社会后,我们说形成了包含社会空间在内的二维空间,现在我们给自己构造了一个第三空间,就叫数字空间。在三维空间里,除了物理空间、社会空间,还有虚拟的数字空间。数字世界现在正在逐渐形成,其基本要素就是数据,数字世界就是我们现实世界的基本映射,有人提出是孪生世界。我个人认为,这个映射空间目前还不是孪生,未来可能构建从物理世界到数字世界的双生,可能那时候提“数字人”会更为准确。


数据科学作为第四范式

2013年被称为大数据元年,后来国家每年都在制定计划推动大数据发展,我们如何治理数据世界,如何应用数据世界?对应的就需要处理数据的科学,因此,大数据战略推出后,“数据科学”应运而生。

什么是数据科学,我查了很多资料,但是没有很准确的定义。有人这样说过,要成为一门科学,背后一定要有基础理论支撑。我们的人工智能发展得非常繁荣,然而,繁荣主要是在应用端。可以说,治理数据的模型、方法都还在路上。现在,应用实践已经倒逼我们做理论研究、基础理论分析。

科学研究的第一范式是实验科学,第二范式是理论科学,第三范式是计算科学,第四范式就是数据密集型科学,也即“数据科学”,它以数据挖掘为依据,也就是数据世界形成后我们希望从数据当中获取其本身蕴含的规律和价值。然而,目前我们在数字世界中能还原现实世界的规律,但是还没有发现,数据世界本身的新规律。

“数据科学”的特征我主要说三个。第一是不在意数据的杂乱,而在意数据的量;第二是不要求数据精准,而强调数据面面俱到。面面俱到的含义不是涵盖所有数据,而是各个方面都要有代表性数据,这就离不开概率论支持。第三是不追求因果关系,但重视统计规律。这意味着不只追求因果关系,更多在于追求关联关系。

科学研究的前三种范式都属于知识范式,它们的重要特征就是从数据特征里面挖掘出能够被我们理解的知识。数据科学范式下,有一个不一样的思维方式:我们是否可以挖掘出客观存在但人类无法理解的知识呢?数据科学的内涵知识,是否可以通过数字世界的特殊方式直接解决问题?我认为数据科学范式下挖掘出来知识,可能我们理解不了,但是机器能理解,这种规律应该是数据范式下我们去探索和思考的。

建设大数据试验场驱动数据科学发展

要探索数据世界、治理数据世界,就必须发展“数据科学”,这是一个重要前提。每一个科学都需要探索,在探索过程中都需要做试验或者实验。试验是探索,实验是验证。我想,最重要的事情就是做“大数据试验场”。大数据试验场想做的就是驱动数据科学发展,探索数字世界的奥秘,换一个角度看世界。

为什么要建大数据试验场呢?因为数据孤岛的存在,我们现在的一些数据挖掘方法,只能挖到一些很低端的浅层次的数据,更深层次的怎样进行挖掘,需要新的挖掘方法和新的理论,就需要建设试验场。做一个比较浅显易懂的对比方式,试验场跟矿场是类似的。


目前,重邮正在建设“大数据试验场”,我们建设大数据试验场的目的是探索数据科学本身的内涵、探究数据科学本身规律,然后引导产业创新,引导行业的发展。我们在浪潮等一些知名企业的指导下,构建了千万元级的算力,但长期目标是打造示范性算力基础设施,构建大数据试验场基础设施,在高校中打造算力平台的典范,为重庆市实施大数据智能化发展作出贡献。

最后,欢迎大家到重邮来,也对本次2020浪潮云数智峰会的召开表示祝贺,谢谢大家!

消息来源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公众号“全球TMT”发布全球互联网、科技、媒体、通讯企业的经营动态、财报信息、企业并购消息。扫描二维码,立即订阅!
collection