北京2019年12月11日 /美通社/ -- 2019年12月5 日-12月7日,由中国计算机学会(CCF)主办,CCF 大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的中国大数据技术大会(BDTC 2019)在北京长城饭店圆满结束。
已经走过十余载的 BDTC,从当时仅60余人参加的技术沙龙到如今数千人的技术盛宴,俨然已成为国内规模空前、水平领先和影响力非凡的大数据技术盛会。大会整整持续三天,大数据和人工智能领域的顶尖专家齐聚一堂,星光熠熠,为1000+参会嘉宾带来精彩的技术分享和思想碰撞。
大会首日:大数据发展趋势十大预测报告发布
在数字经济时代,数据已经成为了发展的基石,趋势预测中出现的“新面孔”很多都是与数据发展的新阶段产生的特定问题对应,比如数据融合、数据质量管理、因果性分析等。一个事物发展到一个阶段,总会产生与这个阶段相对应的特定问题,这些问题的出现标志着数据应用发展的新阶段,虽然现在还没有特别深入的应用,但是这些问题的出现已经为突破新的应用带来了曙光。
在大会首日开幕式上,周涛先生代表CCF大数据专家委员会发布了《2020 年大数据发展趋势预测报告》,对大数据发展趋势做出十大预测。
周涛特别强调了今年重点关注趋势预测出现了3项首次出现的“新面孔”,包括关于数据融合治理和数据质量管理工具,这是扎实、深入做好大数据应用必须要克服的难题;对大数据做因果分析,基于数据做统计和观点性分析很容易,但是有观点性不代表有因果性,因果性比关联性更深入;边缘计算和云计算的结合,过去一提大数据就必然提云计算,但实际应用中发现终端智能化、终端计算能力越来越强的今天,并不是把所有数据都放到云端就是最好的模式,边缘计算和云计算结合才是应用中最常见的模式。
除了10大趋势预测之外,CCF 大数据专家委员会还公布了关于大数据发展的单项调研,包括最令人瞩目的应用领域、取得应用和技术突破的数据类型等。
Keynote主论坛:数十位技术大牛纵论大数据如何驱动智能+
大数据与人工智能相辅相成。胡郁提到,数据和人工智能的结合是科技创新型公司必不可少的一条路径。就像机械时代的航空发动机一样,人工智能是信息时代的航空发动机。
李明、叶杰平、陈继东和白硕的演讲则分别从医疗、交通、金融三大领域的应用案例出发阐述了大数据与AI的融合效果,它们能使行业的安全、体验和效率大大提高。
不过,就现阶段大数据本身面临的挑战来看,数据融合仍存在四大硬伤:数据维度缺失、标准缺乏、各自为政且存在安全风险。李光瑞认为,数据价值和数据维度的平方成正比,只有不同行业的数据相互融合才能丰富数据维度,从而高效发挥价值。
那么如何打通数据融合的障碍?从打通企业数据应用的最后一公里角度出发,刘相提出数据服务化的理念。关注回归数据应用价值本身,“服务化”已成为数字经济时代的主旋律;其次,如何实现面向服务共享的大数据应用平台。数据目录化、目录服务化、服务开放化三大阶段典型场景是关键;最后,需要建立闭环的一体化服务共享的大数据平台。
数据融合的一大关键点还在于效率。开源于2016 年的 ClickHouse 主要用来提高分析与聚合数据的效率,其应用效果极快,Alexey Milovidov 具体介绍了 ClickHouse 的设计思想。
AI技术的发展同样也有问题存在,在NLP领域,吴华指出由于数据缺乏,对话类似机器翻译的规则水平有待提高;此外模型认知能力有限,亟待从中加入注意力机制、推理机制等;更重要的一点,模型迁移能力需在小样本学习和迁移学习方面寻求突破。不过可喜的是,很多算法已经在更多领域得到实践应用,未来可期。
周伯文则认为,目前AI技术主要基于特征提取的自动学习与模式识别的联合优化,利用大数据解决小问题,但总体依然局限在记忆式学习范畴,面临灾难性遗忘等诸多挑战。例如人工智能深度神经网络学习。更多表现为人工设定算法,专家设定架构,不但不够灵活而且算力资源需求巨大,如何将孤立解决某个问题转化为可复用、重复解决系列性问题,逐渐成为未来AI亟待解决的事情。
而在上午的圆桌论坛上,以“数字经济发展的驱动力”为主题,在宋雨伦的主持下,李明、杜军平、陈扬帆、程志华、罗华霖等五位不同领域的专家就大数据与数字经济展开了讨论,论题涉及到数字经济时代下技术驱动与模式驱动相结合,驱动数字经济发展的前置条件和路径等,各位嘉宾分别给出了各自见解。
14个技术分论坛,技术人的多样“菜谱”
12月6日-7日的14场技术和行业论坛,包括新一代数据库转型、人工智能赋能金融科技、AutoML大数据自动化机器学习技术与系统、大数据时代的因果推断、大数据安全和治理、多模态知识图谱、大数据与AI中台、物流大数据、工业与制造业大数据、数据驱动与城市治理、智能驱动的大数据可视分析、IoT大数据技术、智能交通中的大数据技术、Top 10大数据应用最佳案例实践等主题多样化组合选择的空间,让参会者制定专属自己的参会攻略。
1、新一代数据库转型分论坛
本论坛主要讨论了分布式数据库特性,包括Key/Value,Schema-less等数据库(OLTP、HTAP等),重点介绍列关系型分析数据库、存储数据库、行存储数据库,文档型数据库以及图数据库,并具体介绍MySQL、OceanBase、Greenplum、TiDB、Neo4J、ThinkerPop等,来自百度、天云大数据、Pivotal Greenplum、阿里巴巴、腾讯、PingCAP、东方国信、星环科技、华为的技术专家深度分享了他们在各种行业领域的应用实践。
在中国信通院云大所业务主管马鹏玮看来,如今国内分布式数据库产业迎来春天,据统计相关产品超过30款。部分火热原因主要归功于Greenplum的开源让更多厂商能使用和研究分布式数据库,目前分布式数据库正在努力突破扩展性限制,其中基于MySQL改造最多,基于PG的厂商正在快速兴起,此外部分厂商已经开始考虑MySQL的开源风险。除了技术原因,我们应该从生态角度去思考国内数据库如何快速应用落地,例如标准、供应链、人才等。
2、人工智能赋能金融科技论坛
金融科技的快速兴起改变了整个金融业。我国银行业正面临巨大的外部不确定性和激烈竞争,银行正向客户长尾化、产品场景化、渠道全时化、风控智能化、数据资产化、平台开放化等新型模式转变,数字化转型迫在眉睫。
百融云创首席风险官季元的演讲围绕银行关注的业务方向,讲述消费金融、小微金融、资产管理等方面介绍数字化转型的技术和案例,帮助银行构建起技术、设施等基础环境及支撑,满足各方对金融服务效率和安全的要求,驱动行业转型升级,向技术进步要生产力。
来自中信证券、度小满、天云大数据、中泰证券、陆金所、光大银行的专家从客户识别、遥感影像分析、异常交易监测、量化交易、财富管理平台、智能风控等金融应用场景领域出发,诠释了AI在业务落地实践中的切实作用。
蚂蚁金服人工智能部技术总监、资深算法专家张家兴表示,从帮助人工到替代人工,人工智能提供了低成本、更高效、个性化的金融服务。
3、大数据安全和治理论坛
政府、行业、研究机构、企业等全面协力推进政务大数据发展,安全问题迫在眉急。公安部第三研究所网安中心副主任杨涛认为,构建以“安全、可信、合规”为目标的政务大数据安全架构,利用零信任、细粒度技术解决核心数据安全问题,加快政务大数据在社会管理、市场监管、宏观调控等领域的创新,提升政府社会治理能力。
随后,UCloud、京东数科、南方电网公司的技术专家从安全屋、数据资产管理等方面介绍了各自技术解决方案。北京锐安科技有限公司首席数据科学家曹文洁则从数据采集角度出发,指出智能化采集解析、全方位汇聚、全维度整合政府/行业的优质业务数据,对其进行有效的治理/处理,形成打破信息孤岛、强化内在关联的领域知识图谱,再服务于业务、为业务赋能,从而让数据驱动业务,使信息价值得到最大程度释放。
4、大数据时代的因果推断论坛
“知因知果,知可变之处,便可以最小代价,为有为之事。知来龙去脉,可分而治之,亦可融合信息。知万变之不变,以及变之规律,如定海神针,便可做可靠预测。”卡内基·梅隆大学哲学系和机器学习系副教授张坤表示,人如此,智能系统亦应如是。因果的信息,数据中必有痕迹,因果发现旨在由数据反推因果关系。因果信息和系统变化性质,让复杂环境下的机器学习,比如迁移性学习,如虎添翼。
因果关系已是近期学界探讨的热门研究方向。华为诺亚方舟实验室高级研究员董振华也指出我们要勇于应用因果推理、反事实技术学习未观测的世界。
传统因果结构学习作为一个组合优化问题,通常使用不同局部启发式算法求解,效率较为低下,无法解决大规模因果图学习任务。华为诺亚方舟实验室主任工程师陈志堂讲述了使用深度学习端到端可微分范式,为因果结构学习注入新的活力。
NEC中国研究院数据分析部部长指出因果分析技术致力于发现事物间的因果关系、量化因果作用,其适用于解决原因洞察、稳健预测、最优决策建议等系列问题,在市场营销、线上线下零售、制造业、医疗、金融、电信、教育等诸多领域有着丰富的应用场景和巨大的商业价值。
5、AutoML 大数据自动化机器学习技术与系统论坛
“AI赋能行业”的应用模式在未来将迎来高速成长。但人工智能的普及和应用面临技术门槛高、专业人才严重短缺、大量依赖专家经验、建模周期长等瓶颈和制约。为了解决上述问题和挑战,近年来国内外出现了自动化机器学习(AutoML)研究领域,即用机器去自动化地完成算法模型选择和参数调优,从而大量节省人力成本,降低人工智能使用门槛,大幅提高建模效率。
来自第四范式、平安科技、天云大数据的技术专家从自动特征工程、自动化机器学习平台建构、保险重疾率模型的自动化建模讲述了技术落地实践。
江苏鸿程大数据研究院副总经理朱光辉认为,要改变人工智能建模依赖专家的手工作坊式生产,就要打造人工智能建模的“数控机床”,利用机器替代人工实现AI模型的构建,大幅提升AI建模效率,降低AI技术门槛,加速AI应用落地。
6、大数据与AI中台论坛
在大数据已然成为IT技术发展驱动力的背景下,以中台建设为核心的技术体系逐渐受到业界关注。业务场景赋能,降本增效,寻求新的价值增长点,AI中台作为数据中台的功能延伸,是企业数据价值体现的重要技术手段。
明略科技副总裁卢亿雷道出了对AI中台的理解:AI中台是一套AI应用全生命周期的开发和管理平台。AI中台提供数据分析与处理,模型训练与评估,模型应用与监控三大模块;并提供相应的统一数据存储系统,基于容器的异构计算资源管理系统,机器学习库与模型训练实验管理系统,模型部署与运行监控系统。
百度、华为、东方国信、智领云、阿里云、滴滴、天云大数据、第四范式、中科天玑、科大讯飞基于所在公司的数据中台技术实践,从底层技术架构、工具、业务层等方面讲述了其数据中台在数据资产管理、大数据平台、云原生架构等领域的探索和应用。
星环科技 人工智能总监杨俊认为,AI平台的技术演化与架构变迁与AI应用场景的落地相辅相成。接下来的风口会在跨域计算,深度图谱,以及边缘计算。
7、多模态知识图谱论坛
正如哈尔滨工业大学计算机学院长聘教授、博士生导师所言,知识是人工智能不可或缺的要素。基于约束条件的知识图谱的描述体系,更准确刻画概念及概念之间的关系,事理图谱揭示了事件之间的演化规律。知识图谱和事理图谱的结合,多模态信息的融入,更有助于理解和推理。
在该论坛上,来自微软亚洲研究院、百度、中国科学技术大学、腾讯、美团点评、华为云的学界和业界专家介绍了他们在推荐系统、医疗等领域的技术应用,以及跨模态语义增强、知识计算等研究领域的进展。
复旦大学教授肖仰华认为,为大规模知识图谱实现符号接地,实现大规模知识图谱的跨模态语义增强,将是基于知识图谱下半场的关键技术。阿里巴巴业务平台资深算法专家张伟则表示,知识图谱的可解释性与商业场景的确定性碰撞带来无限的想象空间;知识图谱技术对信息的知识化与语义化,对我们生活的改变正在进行。
8、IoT大数据技术论坛
物联网与人工智能的火花只是在终端体验吗?是否有某种方法使物联网可以“类人化”发展?浙江网新数字技术有限公司产品总监吴皓天认为,感”知”只是物联网的单元基础能力,将人工智能语义理解能力与物联平台能力融合,可以使单元基础能力与平台快速互联,完成人与物、物与物的交互响应,真正实现知行万物。
而中国联通研究院大数据中心主任、教授级高工魏进武表示:“主路式”生产、“嵌入式”应用是大数据发挥商业价值的关键,只有让大数据完成“全旅程”作用,才能为行业数字化转型更好赋能。
来自星环科技和华为的研究嘉宾重点讲述了AIoT综合解决方案在电力行业的应用,以及面向IoT的大数据中台架构。
华东师范大学网络空间安全研究院副院何道敬强调了物联网时代嵌入式智能系统所面临的安全挑战,在他看来当今世界已迈向了万物互联的智能大数据时代,信息安全依然是重中之重。有价值的事物就存在信息安全风险。信息安全防护是个面临着无数挑战性问题的复杂宏伟的系统工程,需要大家一起携手确保空天地一体化信息安全。
9、智能交通中的大数据技术论坛
随着交通系统的智能化水平不断提高,智能交通作为一个具有多层次、多目标、复合型特点的综合复杂系统,对大数据的应用提出了迫切需求。
本论坛将结合近年来交通领域的大数据分析与安全的最新研究成果,探讨大数据技术在智能交通领域应用的关键研究问题及其未来发展方向。
来自中国铁道科学研究院、科大讯飞、滴滴出行、北京交通大学、富能通的技术专家围绕大数据技术,分别介绍了其在铁路客运、城市出行、民航领域的应用,以及图数据挖掘、交通超脑在交通出行领域的技术实践。
10、智能驱动的大数据可视分析论坛
“人们终将能轻而易举的生产和消费可视化内容。那时候,可视化作为信息的一种基本载体,就像文字图片一样,将彻底的融入普通人的生活中,变得无处不在又不可或缺。”微软亚洲研究院高级研究员崔为炜给大数据可视分析给出了一种未来设想。
不过,可视化在工业界经常被误解。华为云数据产品与可视化总监丁治宇指出,一方面人们不知道可视化该摆在互联网工业流水线的哪个环节才能发挥它最大的价值,甚至连思考过这个问题的人都极少;另一方面工业界却存在大量的需要可视化领域人才来解决的问题,这种矛盾在他看来是非常诡异的。他认为,需要在正确的位置做正确的事情,最大化数据价值,做出最好的数据可视化产品。
此外,数字冰雹、滴滴、中科天玑的技术专家讲述了大数据可视化领域的不同技术解决方案。
11、数据驱动与城市治理论坛
在数据大爆发和人工智能不断升级的时代,建设基于大数据的现代城市,提升城市治理能力和治理体系现代化水平,既迎来巨大的机遇,也面临着全新挑战。
旷视科技城市大脑BG高级产品总监那正平认为,目前城市精细化、数字化治理的态势为“一个世界,两个空间(物理空间和网络空间),多种IoT、海量大数据”,许多IoT设备采集的大数据已被较为充分地利用,但摄像头采集产生的视图大数据总体还是个沉睡的宝藏。在大家比较关注的视频大数据隐私安全保护方面,实际远比公众预期要好,大数据应用和安全隐私,两手都应抓,可以有兼顾。
本论坛中,还有来自国务院发展研究中心、科大讯飞、芜湖市大数据中心的专家将共同探讨城市数据治理体系,聚焦城市数据如何更加开放、更加安全、更加可用;探讨基于大数据的城市治理体系,聚焦柔性治理、精准服务、便捷高效,推动智慧城市从单点应用突破到城市整体治理能力和服务水平的全面提升。
12、工业与制造业大数据论坛
对比通用领域AI应用的火热景象,上海研究院工业人工智能产品总监祝晓旦认为,工业领域的AI应用还处于“刀耕火种”的阶段。能否迎头赶上国际行业巨头,工业大数据的积累,数据科学家和领域专家打破边界的合作是关键。
而在工业与制造业大数据处理方面,涛思数据创始人陶建辉表示,工业互联网产生的数据量很大,用通用的Hadoop系统来处理,效率不够,但如果充分利用工业互联网数据的自身特点,需要打造高速、高效、简单易用的大数据平台,从而大幅降低工业互联网平台的总拥有成本。
此外,中国电子技术标准化研究院软件工程与评估中心、浪潮的专家就工业企业上云以及打造工业互联网公共服务平台进行了介绍。
13、物流大数据论坛
近几年随着国内经济体量的增长,物流行业得到了蓬勃发展,也加剧了物流企业之间的竞争。如何利用创新科技推动物流业务跳出红海,是很多物流企业都在思考的问题。随着物流行业数字化转型的加速,无论是快递业务,航空、海上运输,仓储优化、还是共享出行等各种物流场景中,都产生了大量的供需数据、运营数据、客服数据等等。
以海洋运输为例,微软亚洲研究院高级研究员张佳指出,全球贸易的不对等导致了海洋运输中集装箱供需的严重不平衡。由于海洋运输中大量的不确定性,传统的优化方法很难得到好的空箱调度方案。不同于传统的方法,他们基于多智能体强化学习,利用市场机制得到了互相配合的智能体,能够显著降低空箱缺失以及运营成本。
杉数科技创始人/CTO王子卓认为,让大数据发挥最终的价值需要将数据应用在决策端,而在决策端的应用离不开运筹优化。在未来的社会中,数据好比燃料,而运筹优化好比引擎,只有好的燃料加上好的引擎才能更快的推动社会和企业的发展。
来自宁波诺丁汉大学、顺风科技的技术专家则从智能集装箱港口车辆调度优化、快件背后的大数据应用阐述了技术在智慧物流中的应用。
14、Top 10 大数据应用最佳实践案例论坛
本次大会上,黄宜华教授代表CCF大数据专家委员会公布了《2019 年度 Top 10 大数据应用最佳实践案例》评选结果(排名不分先后):