原文链接:https://mp.weixin.qq.com/s/dNn9mK1kU-Em4zB67oL79A
近日,中国工程院院士、之江实验室人工智能领域首席科学家潘云鹤在之江实验室南湖总部作题为“AI走向数据和知识双轮驱动”的学术报告。
视觉知识和多重知识表达是AI2.0的关键
近年来人工智能热潮形成的主动力之一,是深度学习技术推动图形识别水平的快速提升。图像识别技术的突破,不仅推动了人脸、指纹、医学图片等识别,还促进了智能汽车、安全监控、机器人、无人机、智能制造等广泛发展。作为AI知识表达的一种方式,深度神经网络(DNN)难以解释,不可推理,以及因需大量标识的数据训练网络参数而难以避免地会引入数据偏见等不足。由此,潘云鹤院士提出,我们需要一种全新的知识表达——视觉知识。
在认知心理学领域,人类的一些视觉记忆被称为视觉心象,被用来进行形象思维。从AI的角度,这些视觉心象便是视觉知识。“事实上,人类记忆中存储的视觉知识要远多于言语知识。比如,一个不到5岁的小孩,他看到一套杯具可以很自然地抓过杯子来喝水,而不会去拿那个杯垫,但是他很难用精准的语言去讲清楚这个行为规则。”潘云鹤院士进一步指出,视觉知识不同于言语知识的特征,在于视觉知识不仅能表达对象的大小、色彩、纹理、空间形状及关系,还能表达对象的动作、速度及时间关系,并进行对象的时空变换、操作与推理等。
相关研究表明,人类进行视觉识别的方法,与深度神经网络模型不尽相同。它不仅分析视网膜传入短期记忆的数据,而且动用了长期记忆中的心象,即视觉知识。正因为如此,人类的视觉识别往往只须少量数据,而且可以解释,也可以推理。潘云鹤院士认为,“在视觉识别中,不但使用数据,而且使用视觉知识,这是人工智能2.0取得突破的重要关键之处。”
“当下,视觉知识的发展面临5个基本问题,包括视觉知识表达、视觉识别、视觉理解和学习、视觉形象思维模拟及多重知识表达。”潘云鹤表示。
发展视觉知识,关键之一在于突破视觉理解,要在实现视觉识别分类的基础上,进行分析与模拟。视觉知识学习则要将目标从形状重建进入到视觉知识概念和命题的重建。潘云鹤院士指出,当今AI、计算机图形学和计算机视觉三个领域的研究者特别需要联手研究视觉理解和视觉知识的自动学习。
近年来,脑神经科学的最新发现也支持视觉知识和多重表达的理论。在潘云鹤看来,AI 2.0中的知识也应有多重表达,擅长语义记忆的知识图谱、擅长场景记忆的视觉知识以及擅长感觉记忆的深度神经网络。“AI 2.0要让多种知识表达相通使用,这将形成跨媒体智能和大数据智能的技术基础。”潘云鹤说。
大数据和跨媒体智能将引领AI第四次创新
回顾人工智能60余年的发展史,AI主流技术经历了三次创新,即规则和逻辑驱动的AI,知识和推理驱动的AI,数据和深度神经网络模型驱动的AI。其中,第三次人工智能浪潮始于2006年,很大程度上归功于以Geoffrey Hinton为代表的科学家提出的深度学习及其应用。数据和深度神经网络模型驱动的AI,其特色优势在于视觉听觉识别,但也存在不可解释、迁移使用,依赖标识、难以泛化等突出缺点。
潘云鹤认为,大数据和跨媒体智能将引导出AI第四次创新的方向,视觉知识、多重知识表达、视觉理解将扮演开路先锋。“人工智能将走向数据和知识双轮驱动。”潘云鹤说,“大数据、大模型固然重要,大知识同样重要。”
这一方向仍是一块荒芜而肥沃的“北大荒”,亦是一块充满希望、值得勇探的“无人区”。潘云鹤院士勉励讲座现场的之江实验室科研人员,“要想办法人工智能研究做到底,把基础研究和应用研究串起来。”
潘云鹤进一步指出,对本轮AI发展起核心引导作用的并非算力、算法、数据,而是深度神经网络理论与模型,以及AlphaGo、AlphaFold等突破性创新应用。比如DeepMind公司研发的人工智能程序AlphaFold2成功预测出98.5%的人类蛋白质结构,这一结构生物学领域的颠覆性突破,为药物设计以及合成生物学的发展打开了新窗口。
关于中国发展人工智能,潘云鹤提出了五个方面的关键领域与系统模型图,他建议既要研究突破人工智能新理论,筑牢数据、算力和算法平台等基础,又要实现突破性创新应用,构建知识和场景平台,还要促进产业发展和社会发展。“衡量一个国家人工智能发展的水平,最终还是要看人工智能在产业和社会的应用程度。无论是理论创新还是算法平台创新,最终都要走到产业和社会发展中去。”