位置:编程技术网 > 人工智能 > 正文 >

腾讯贾佳亚:人工智能的多模态发展丨CCF

2019年07月17日 11:55来源:未知手机版

七波辉童鞋,郑容和的老婆,好qq名字

7月12日-7月14日,2019第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7月14日下午,在「智慧城市·视觉智能」专场上,腾讯优图实验室联合负责人,腾讯杰出科学家,香港中文大学终身教授贾佳亚作为开场嘉宾,率先分享。

甫一亮相,他便提出了一个终极命题,“人工智能的终极应用距离我们到底还有多久?” 他给出的答案是:可能还需要50-100年的发展路径。

贾佳亚教授认为,人工智能学科发展与人类智能差距之一就是“多模态信息的智能化理解”,视觉、声音、符号语言、嗅觉和触觉等信息,具有无限多样性。

而多模态人工智能还存在不少技术难点:第一是数据模态多种多样,包括2D图像、3D模型、结构化信息、文本、声音及更多无法量化的数据;

第二是多模态数据的不对应,如从图像到文字,从文字到图像,都是“一对多”的过程,会有多种的描述和呈现;

第三是多模态数据的融合,一个软件或算法的进步较为容易,但多个算法叠加在一起,难度将几何级上升,如“告诉机器人拿桌子左边的瓶子”,会经过语言模型、三维建模、自动寻路、图像分析等步骤;

第四是多模态监督,“如何告诉机器人拿错了”“哪一个步骤拿错了”也是目前的难点。

而要解决这些多模态信息的难题,贾佳亚教授提出要更好研究嗅觉、味觉、触觉、心理学等难以量化的信号问题,通过多模态数据使得计算成为可能,进行协同学习、用一个资源丰富的模态信息辅助另一个资源贫瘠的模态。

多模态人工智能问题的解决,就会是人工智能更多落地的未来。

以下是贾佳亚教授大会现场全部演讲内容,雷锋网作了不改变原意的整理及编辑:

大家好,今天来到这里非常开心,因为近期工作繁忙,较少出席外部大会,现在恰逢暑假期间,可能各位同学或者科研爱好者希望外出学学东西,我也在想,CCF-GAIR可能会是一个比较好的机会。

今天我会向大家展示一些新方向的研究。首先给大家抛点砖以引玉,看看人工智能领域学科发展的现状。

CVPR在这四、五年时间中发生了巨大变化,上图显示的是它的投稿论文数量和被接收的论文数量,每年以超过50%的速度在增加。

每年如此多优秀论文的出现,也就意味着人工智能的发展还处于一个快速上升的阶段。

另外,ACL(自然语言处理领域的顶会)在过去五年中,它的投稿数量也有极大地提高,接近百分之百的递增。自然语言处理领域的发展是比较困难的,因为它需要大量的处理器、需要非常高端的算法。

这是它们的趋势,是比较表面的东西,我们来看更深层次的东西。

上图还有CVPR的关键词,包含Deep、Image等等,今天我给大家讲的不是这些很热门的方向,其中还有一个大家很容易忽视的模块:Language。

再往下,ACL最热门的是Deural、Learning等等,这里面也有一个非常小的领域:Visual。

这两个领域基本上是分割开的,通过对于这些关键词的分析,可以发现虽然都是AI的顶会,大家都做了很多有趣的工作,但是里面的内容基本没有交集,懂ACL的人并不懂CVPR,懂CVPR的人也很少在ACL里面工作。

本文地址:http://www.reviewcode.cn/rengongzhinen/57663.html 转载请注明出处!

今日热点资讯