Chinagraph 2018 论坛(Panel)问答整理

Chinagraph 2018  论坛(Panel )

深度学习在图形图像处理中的应用

论坛信息
论坛时间:2018年 11月 9日 14:20-16:20
论坛主持人:刘利刚,中国科学技术大学
论坛嘉宾:

  • 韩晓光,香港中文大学(深圳)
  • 刘 洋,微软亚洲研究院
  • 沈小勇,腾讯计算机视觉研发中心
  • 童 欣,微软亚洲研究院
  • 徐 凯,国防科技大学
  • 周晓巍,浙江大学

阶段一:嘉宾报告

  • 韩晓光:深度学习在图像、视频以及三维数据生成中的应用
  • 刘 洋:基于八叉树表达的三维学习与生成
  • 沈小勇:视觉 AI:就在你身边
  • 童 欣:View Volume Net for 3D Scene Gereration from Single RGBD Images
  • 徐 凯:Learning Deep Models for Structure-Aware 3D Shape Generation
  • 周晓巍:Learning to Estimate 3D Geometry from 2D Image with Diverse Supervision

阶段二:提问交流 

Q1: 这几年深度学习发展与应用很快,广泛用于各行各业,看起来似乎无所不能。深度学习适用于所有的计算机图形学的问题吗?计算机图形学有哪些问题是深度学习无法适用和解决的?

视频链接:

【ChinaGraph】几位大牛对深度学习能否解决图形学中所有问题的看法_哔哩哔哩

韩晓光:图形学中有很多东西最早是由物理模型来驱动,为了解释物理现象,你需要把它模拟仿真出来,这个看上去可能真的是深度学习解决不了的。不过我也看到过一些文章,他们做什么呢?就是说我去做仿真,我要去解决很多的优化,但是优化很耗时,那如果我能用优化得到结果,那就可以用深度学习去测,然后模拟这个过程,也就是用深度学习去逼近这个过程,好像从这个角度来讲也可以用深度学习做这个事情。
另外一个方向我觉得可能就是因为深度学习是从统计来的,图形学里面有很多几何推理,我觉得几何计算什么的应该是深度学习没法去解决的。
童欣:我个人观点是不知道。因为深度学习的原理都不清楚。它自己的内涵和外延都定义不清楚的时候,我觉得我们很难讲它能做什么,不能做什么,就算你问一个做深度学习的人自己,能做什么,不能做什么,他也回答不了。所以我觉得目前呢我们解决方案就是把它都试一试,能做的就能做,不能的就不能做。那么不能做的我们还可以继续研究,后面还可能能做。所以我的感觉就是试一试,能做就能做,不能做的咱就再想办法争取让它都能做。我是这样一个实际的态度。
沈小勇:视觉领域是深度学习使用的最早的,但是视觉的很多问题也不一定需要用深度学习来解决,而且可能传统方法能解决更加好,包括比如说像刚刚我给大家看那个自动驾驶 demo 的 tracking 就是非常经典的视觉的问题,实际上我们做的话并不是深度学习方来做的。就是说,我觉得目前在学术界上来看的话,随便是一个什么题目,都可能先用深度学习来试一下,但其实还有很多经典的问题,传统的方法的效果会远远超过深度学习的方法,比如说前几天我们在调研的 SLAM,就
是深度学习算法效果远远低于传统算法的一个领域。
周晓巍:我也同意童老师的观点,就是说这里没有一个明确的边界,目前一切传统方法解决的并不是那么好的问题,我们都可以尝试着用深度学习去解决它。深度学习相对于传统的方法有几个比较有优势的地方。第一个就是当输入和输出的关系,我们没法用现在已有的模型去描述的时候,比如图像识别,从像素到物体到底是什么关系,我们现在没有一个明确的模型能够去描述,这个时候我们就可以用多层的神经网络从大量的数据中直接拟合这个关系。另一方面,虽然深度神经网络训练需要大量的时间和大量的资源,但实际上在应用的时候深度学习求解往往是还是比较快的,它只要过一遍网络就能得到一个结果。这就给我们带来了另外一个好处,就是说把一些以前应用时候的大量计算搬到了这个训练的阶段,在应用的时候
只需要过一遍网络,能够得到非常快的一个结果。
刘洋:我个人的感觉就是很多需要确定性答案的问题可能不适合深度学习来解。目前很多基于数据驱动的方法,比如深度学习,很多方法的输出是概率,如果不准确的预测不会对相关应用导致严重后果,比如只是判断这个动物是否是猪,我觉得基于数据驱动的方法是可以采用的。但是如果应用对结果的精准性要求非常高,比如图形学里的一些网格生成对网格的拓扑有很强的要求,目前基于数据驱动的方法还是比较难以在这上面发挥作用。再比如 CAGD 里常见的多项式消元,传统方法如 Grobner 基方法早已有之,但是计算量巨大导致可能算很久也没出结果,深度学习在这上面也很难直接输出准确结果。但我们可以考虑用基于学习的方式来加速传统算法中的某些子模块。比如用学习的方式来快速找到一些好的初始解,再用一些传统算法快速收敛到最佳解。我觉得最好将基于学习的方法和已有算法结合起来,不用把它们对立,把他们当作算法模块联合使用。
徐凯:很多时候我们关注的不是能不能用深度学习,而是有没有必要用。一般很多问题看似没有必要用深度学习。比如某些问题,我们已经非常清晰地理解其物理机制了,似乎就没有使用深度学习的必要了。不过不要忘了,那些物理模型的背后,很多时候是有一定的假设和简化的。在实际情况中,可能某些假设条件不成立,或者某些简化不实际,这时候这些物理模型就不那么准确了。或者有些时候,某些观察量无法完整、确定的得到,这时可以用深度学习从数据中习得某种先验来推断结果。举个具体例子,在几何处理领域,网格去噪已经解决得很好了,似乎没必要用深度学习了。但是如果输入的几何模型有信息缺失,或者输入噪声非常大,信噪比很小,很难用一般方法来区分噪声和信号,深度学习就可以派上用场了,这方面童欣他们做过很好的工作。而且对于这类问题,深度学习所需要的大量数据往往几乎是“免费”,例如对于网格去噪,我们可以合成大量的有-无噪声的训练数据对。所以我认为没有哪些问题确定不需要深度学习,要看具体情况和条件。

Q2:深度学习是否可以用于渲染离线和实时渲染上?这方面有没有一些进展?
童欣:将机器学习用于渲染我们做了一点工作。这方面的工作刚刚开始。在全局光照里,一个最大的问题是采样,就是对从光源出发到达视点的所有光的路径的空间尽享采样。如果你把它想象成为一个高维空间的话,那么我们所做的所有的换渲染的事情实际上是希望在这个高维空间中用尽少的尽量少的采样,把这个高维空间重构出来。那么如果这个高维空间是一个随机的任意变化的空间,你是不可能做到稀疏采样的,如果它是个低维的空间,那么在这方面我相信深度学习是有很大用处的。实际上大家如果去看看 Arxiv 里面的论文,最近开始有一些这方面的探索工作。我相信后面会看到更多的工作。

Q3:我有个困扰,就是有一种观点说,你最好啥都不需要处理,就是扔一幅图像过去,出来一个结果。那对于同样输入的话,实际上用户的需求目标可能是不同的。如果换了一个需求,你这模型又得重新标注对吧?那么到底该如何学?
沈小勇:我们花了很大的精力去做一件事情,就是怎么样去识别图像上的标签的问题,首先有两个重大的问题要解决,第一个问题就是数据怎么样去积累,第二个就是标签体系怎么去定义以及怎么样训练好,关于第一个问题,我们团队建立了非常完备的数据管理体系,从标注到使用到维护都已经流程化,解决了很多数据孤岛,标签不统一,结构化不一致的问题。关于标签体系,我们一方面考虑了产品的需求,另一方面还考虑了视觉是否可以学习。建立了完善的知识图谱,知识图谱还能帮助我们怎么样去分解任务,让每一个任务都变得可以更好学习。
周晓巍:首先今年 CVPR的最佳论文就是说不同任务之间其实是有相关性的,一个网络学到的底层表达对其他相关任务都有帮助。迁移学习也实际上应用的这个想法,就是我在一个任务上训练得到网络,也可以用到其他的任务上而不需要从头开始训练。另外一方面,我们视觉或者图形里面很多问题,实际上就是希望把一个表达转换成另外一个表达,这就形成了一个巨大的网络,可以联合来学习。

Q4:现在三维大数据是一个瓶颈。如何解决构建三维大数据的问题?
韩晓光:那我先说一下我的个人感觉,国外反正已经有了 SunCG 和 ShapeNet,问题可能是说我们国内的同仁,如何去得到一个非常高质量的大数据,不过现在大数据可能还有一些问题,就是目前来说其实你们看那个模型其实离 manifold差的还很远。当然我觉得我们可以一步一步来,比如说我们一开始从获取 RGBD 图像开始。那么第二个想法其实我一直在想一件事情,就是我们图形学里面其实有一个东西是交互,它是我们很重要的一块,包括怎么从这个人机交互获取三维模型,这个是很长一段时间,包括童老师也在这里面做了很多事情。然后再回到视觉里面了解到的就是不管公司也好,他们第一件事情就是标注,标注就是一个交互工具。那么我们怎么从这个图像通过交互的手段来路来去获取这个三维数据。 如果我们图形学的可以设计出来一些比较相对方便的交互工具,比如三维建模的一些工具,那这个相对来说很容易了,你给个图像,我通过一些交互手段,获取干净的数据。
徐凯:个人认为现在三维大数据的时机还不成熟。为什么这么说呢,目前三维几何建模也好,三维数据获取重建也好,现在都不是那么容易,远不及二维图像的获取。真正的“大”,不是靠我们找一拨人,天天收集数据、标数据就能实现的。构建、标注数据集确实可以推动研究,也可以为自己带来很好的影响力,但是这样的方法得到的数据集大不到哪去。要想真正达到三维大数据的,还是要靠市场,那前提就是技术成熟到有完整的产业链来生产和消费三维数据,达到全民创造三维数据。就像大量手机端用户每天所产生的照片的规模,就是真正的大数据。所以我认为现在时机还不成熟,但时机不成熟怎么办?研究还是要做。而且现在消费级的RGBD 相机有了以后,三维数据正在逐渐增多,其实已经催生了很多相关研究。数据规模还不是很大的时候,做一些中等规模三维数据驱动的研究和应用,是非常有必要的。比如,三维数据到底应该怎么表示,怎么用深度神经网络来学习三维特征。
刘洋:我有几个不成熟的观点,第一个观点是说大数据和应用相关,到底需要多大的数据才够用?当然从广义上来讲,现在开源的三维数据的体量还是比较小,目前数据库中比较多的还是基本形状,比如家具之类的。但另一方面,我觉得三维数据库其实也不小,但是存在商业壁垒。大家其实可以在网上搜到很多的三维数据库,这些数据做得非常精细,比如家具、家居、汽车之类的数据,纹理细节质量很高,很多专门的公司做了几十年。但是确实因为三维数据难做,制作成本比较高,这些数据都是需要花大量费用购买,所以很难把这些资源东西整合起来。所有从这一方面讲三维大数据一定程度上是存在的,但很难整合。第二个观点就是说现在已有的开源数据库数据质量不高,需要大量的数据清洗工作。这些清洗工作也不简单的就是苦力工作,需要开动脑筋。比如说很多数据是非流形的网格,如果把它们修理好其实是一个很好的研究课题。所以在期望获得大数据的同时,我们先把已有的数据清洗好,就已经可以派上好的用场。以上就是我想分享的两个观点。
周晓巍:我想补充一下,现在数据应该是不少的,但有一个很大的问题,就是跟任务相关的标注,比如说 ShapeNet,它上面有很多物体的 part标注,但并没有对应关系,不能直接应用到某些问题上。所以这里值得研究的是如何利用这些比较弱的标注,或者说甚至没有标注的数据来训练我们模型。另外我觉得高质量的数据集也应该靠比较创新的问题或者方法作为支撑。所以我觉得要做一个有影响力的数据集,我们还是需要去探索一些新的问题或者新的方法。
沈小勇:我再补充一点点,我觉得三维大数据的话,要建立的话有两个挑战,第一个挑战就是要去找什么样场景,因为三维空间整个太大,我觉得两个场景可能是会比较先建立的。第一个场景其实就是无人驾驶点云数据,第二个是人脸人体三维数据。第二个挑战就是一个产业协同的问题,只有产业界有大需求或者发现有巨大商机在的时候,整个链条人才会去解决这样的问题。

Q5: 这几年 GAN 发展很快。但是我觉得很难说它非常好,比如一些图像生成的任务,我总觉得它很有缺陷。请问各位老师对 GAN 的进展有什么看法?有无什么建议?
徐凯:对于 GAN 的理解、对于它的训练难度的认识,我肯定没有在场大部分训练过 GAN 模型的同学理解更深。不过,在我们三维结构生成的工作 GRASS 里面,恰恰没有 GAN 在大部分图像生成任务中面临的模糊问题。因为我们生成的东西是 box,它的表示就是那几个参数,基于参数恢复 box,没有模糊的问题。至于GAN 未来的发展,我不太能给出什么预测。只是最近听说后来提出的若干种 GAN,比如 WGAN、DCGAN,被发现并不必原始的 GAN性能好。不知道是不是这样。
沈小勇:我觉得 GAN 它在图像当中应用的话,它其实碰到瓶颈了,就是说通过两三年的发展,然后实际上就 GAN 这个东西,发现在实际的落地上也并没有什么实际应用它是基于 GAN 做出来的。昨天下午我有一个课程,有例子说明其实图像里面很多问题他不一定需要靠GAN来解决,而且如果你不通过GAN的话,它可能能够解决更加好。因为就是我们常的模型来看,他本质上前面是一个回归的模型,然后后面是一个那个截图留存,那整个本质上是说我要求我回收回归出来,结果的分布跟我最后需要得到的分布是一样的,但仅仅有这个分布的限制的话,是非常难得到非常真实的结果的。最后我觉得,图像的生成依靠 example-based 的方法是一个非常值得探索的方向。

Q6:我们博士生也好硕士生也好,如何培养一个博士生,比如说你们觉得是不停的很快节奏以项目驱动,一个一个项目做呢,还是还是得还像以前传统一样的打好基础?

视频链接:

几位大牛对如何培养博士生的看法_哔哩哔哩
韩晓光:这个问题是我之前问的,所以我自己也很迷惑的。那我就再把它讲得具体一点,就是说我确实遇到了这个问题,就是我因为我刚带学生我也在迷惑,然后发现一个大二的学生过来,其实他很容易就能学会一个现成的深度学习框架,你给他一个任务,比如说我想做三维人体姿态估计,半年以后,他基本上能够基本上能够把所有的 paper 都能读懂,然后呢也能够把它复现出来,虽然他可能提出一个新的方法改进它,但这确实是一个现象。还有一个我的我的感觉就是说因为我今天也报告了,就是说其实我以前没有做那么多其他杂七杂八的东西,我以前是专注三维的,但是最近我做图像也可以,做视频也可以,我发现确实这个使得学科之间好像没有明显的 gap。所以这也是我的一个迷惑。所以我带带学生的时候我也在想,那但是如果对于博士生来说,如果这样培养,一个完整的五年之后我在想就是说其实你之前没有很多这种积累,其实整个领域的发展也不清楚那你未来怎么去自己做一个独立的研究人员,自己去做一些研究方向,所以这是我我也是我的困惑,所以我更希望听到后面几位老师的话。
童欣:之前有本书叫做世界是平的。是说信息化,运输业发达之后,全世界的工业可以一起竞争。那么深度学习出来之后,我觉得一个趋势就是研究是平的。就是说,由于这样一个泛化的方法存在,使得以前大家需要博士才能解决的问题,现在利用深度学习和数据,连高中生都有可能可以解决了。那么,会有很大一部分研究题目和方向会很快消失了,这部分普通的程序开发人员就可以解决了。那么,这样的话,大家可以想想,作为一个博士,根本的竞争力是什么?发表论文吗?我觉的很可能是你解决新问题的能力。还有你理解问题的深度。我有时候和学生说,第一你能不能做点别人做不出来的东西?第二,你做的东西好,为什么呢?别人的为什么不好?如果你能回答 Why,有一点点 Insight,那么博士就没白读,这是我的理解。
周晓巍:我觉得博士论文需要去解决一个 fundamental 的问题,而不是只看效果,比如从图像生成三维结构,并不是说在 ShapeNet 上分数高就可以了,而是说你有没有解决这个问题里面最本质的那些难点。比如说最好的表达方式是什么,是用 Voxels 还是 Primitives,如何用八叉树加速 inference 的过程。这些东西才能从根本上去解决这些问题,而想到这些方法并不易,没有一定的积累,肯定是做不出来的,需要长期的积累,不仅仅是训练一个网络或者调节参数就可以做到。
刘洋:首先我认为要鼓励学生去学习深度学习、机器学习、统计学习等知识,把这些作为必备的技能。其次从深度学习发展这方面来讲,大家也看到它对怎么做软件工程,怎样写高质量代码,怎样构建高质量的团队,都起到了非常好的促进作用。最后从研究的角度上说,作为导师,最重要一点是要告诉并带领学生理解所在学科里什么问题是重要问题,什么问题是真正值得做的,要围绕这些问题进行研究。至于用什么方法要根据问题本身来。
徐凯:首先,如果说现在这个门槛降低了的话,我首先是很开心的。前些年我们 graph 确实比不上 vision 火。在这里没有刻意比较的意思,在深度学习时代之前,vision 领域出一篇论文的周期相对要短一些,而 graphics 论文的时间周期就是长一些,做一篇 graphics 论文,动辄就是半年、一年。现在门槛降低了,以前学生不愿意来做 graphics,现在愿意来了,而且因为有了深度学习,人家不挑了,做图形也好做视觉也好,只要你做深度学习我就愿意。这个局面我是很欢迎的。不过,从培养学生角度,还是要因人而异。如果某个学生只想做一个硕士毕业,那我们快速培养深度学习能手没大问题,但如果他想做博士,特别是今后还想做科研、在学术界发展,我就会经常提醒他们说,不要太迷信深度学习的所谓端到端,从最原始的输入到最终的输出,这两者肯定是相关的,但是相关不一定等于因果,有相关联系的事物之间不一定有因果关系。有时候发现某个模型很难训练,如果你对所在领域有经验的话,理解其中的因果关系,你就会想到训练哪个子任务可以帮助你更好的学习最终的任务,这就要对这个领域有很多深耕和积累。要有对传统算法的深入理解,才能去更好地设计深度网络,而不是简单地把 ResNet 搬过来用。总之对不同学生应该有不同层次的要求。

【注:本文档只保留了论坛研讨中的共性问题。对于只针对某一位讲者报告中的提问,由于过于细节,因此没有保留在本文档中。】

【其中观点仅代表各人个人的观点。】


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部