中国图象图形学学会国际合作与交流工作委员会查看源代码讨论查看历史

来自搜狐网的图片

中国图象图形学学会国际合作与交流工作委员会与国际图像图形组织、区域性组织及各国相关机构和学会开展交流与合作；组织、参加相关的国际会议及双边与多边学术研讨会；为学会及其会员的国际学术合作交流、参观考察提供信息、渠道等方面的指导和服务。

相关资讯

“志存高远，追求卓越” ----访中国图象图形学学会副理事长、中国科学院自动化所研究员王亮

王亮研究员是中国图象图形学学会的副理事长、国际电子电气工程师学会会士（IEEE Fellow）、国际模式识别学会会士（IAPR Fellow）。曾主持国家杰出青年科学基金^[1]、国家重点研发计划项目等，入选国家第四批万人计划科技创新领军人才，获得第十四届中国青年科技奖。主要从事计算机视觉、模式识别、机器学习、数据挖掘等领域的研究，在远距离行人检测与识别、视觉-语言理解、时序数据建模等方面取得了一系列研究成果，突破了跨视角、小样本、低分辨率等核心技术难题，与华为、腾讯、京东、高德等知名企业进行技术研发或应用合作。已孵化银河水滴科技（北京）有限责任公司，创造了良好的社会和经济效益。

2022年8月30日，受中国图象图形学学会委托，学会成员黄岩副研究员线下采访了王亮研究员，以下为访谈的主要内容。

问题1：您团队的主要研究方向是什么？可以介绍下最具有代表性的研究成果吗？

我的团队隶属于智能感知与计算研究中心四大主要研究方向之一，即“多模态智能计算”，主要针对文本、图像、视频等多模态数据，开展模式识别、计算机视觉、机器学习、数据挖掘等方向的理论及应用研究，主要包括：（1）多模态智能监控：面向海量监控视频的智能分析需求，研究大范围复杂场景中的目标检测与跟踪、行人属性与身份识别、行为分析与事件识别等关键技术，解决国家公共安全中海量目标检索、异常检测等难点问题。（2）网络多模态数据挖掘：面向公共安全和企业应用的实际需求，研究多模态大数据的时序预测、情境建模、用户画像、事实验证等核心问题，服务国家网络信息安全和商业智能场景应用。（3）多模态学习及智能分析：面向复杂场景多模态语义理解现实需求，研究认知机理启发的多模态数据融合、对齐、生成等关键技术，突破语义表示弱、结构推理难、关联标注少等核心难题，服务于无人自主平台的多模态交互场景等应用。

团队最具有代表性的研究成果之一，是远距离行人检测与识别，即步态识别。大家或许很少听说步态识别这个概念，但是相信大家在生活中早已用过步态识别。例如，我们经常在远处还未来得及看清对方面孔时，就能通过走路姿态辨别出自己熟悉的亲朋好友。我们在2000年就开始步态识别研究，截止目前已经取得了多个 “第一”，包括：发表了国际上第一篇关于步态识别的国际顶级期刊TPAMI文章；创建国际上第一个多视角步态识别数据库（CASIA-A）；培养了中国第一位步态识别博士；第一次在模式识别国际大会（ICPR）上举办步态识别讲习班；创立了国际上第一家步态识别公司（银河水滴）等。

问题2：您提到了步态识别，相对于其它生物特征识别技术，它有哪些优势？在研究过程中遇到哪些难题？

步态识别目前是远距离复杂场景下几乎唯一可用于身份识别的生物特征识别技术。相比人脸、虹膜等生物特征，具有以下优点：（1）适用距离广，普通高清摄像机下可达50米；（2）全视角，无需配合，360度行人均可识别；（3）抗干扰，不受面部化妆与遮挡等影响，对光照变化相对鲁棒。

在研究过程中，我们遇到了很多现实难题。首先，最初国际上的步态识别研究工作很少，可以参考的资料几乎没有。其次，缺少一定规模的公开步态数据库，无法顺利开展实验。在这种情况下，想在步态识别方向做出成果，难度可想而知。我们凭着一股韧劲，选择自己构建步态数据库，从零开始钻研算法。在不懈的努力下，早期提出了一种基于人体剪影分析的步态识别方法，发表在了国际顶级期刊TPAMI上，这也是该期刊收录的第一篇步态识别研究论文。俗话说的好，万事开头难，当我们迈出了成功的第一步，很快我们又提出许多新的步态识别方法，相继发表在图像处理国际顶级期刊TIP及计算机视觉顶级会议ICCV、ECCV等。在深度学习技术刚刚兴起之时，团队的吴子丰博士便率先将深度学习引入到步态识别中，在跨视角步态识别方面取得突破，提高了30%的准确率，该项研究成果再次发表在TPAMI上，近期介绍我们创建的CASIA-E步态数据集及系统算法评估的论文再一次被TPAMI接收。一项研究成果从实验室走向实用需要历经很多阶段，我们用了超过17年的长期不懈努力才初步完成了步态识别技术的产业化落地。2016年，我们尝试将步态识别技术进行产业化，成立了银河水滴科技（北京）有限公司。目前步态识别技术已广泛部署到安防刑侦第一线，产生了良好的社会和经济价值。

问题3：您团队构建了很多各有特色且具有影响力的数据库，为什么数据库对于算法研究来说如此重要？您认为一个好的数据库需要具备哪些标准？

机器学习与深度学习的一个最大特点就是利用训练数据来拟合复杂模型的参数。所以对于一个特定的研究任务来说，没有合适的数据集，就很难开展相应的算法研究。仍以步态识别为例，我们在步态数据库建设方面起步很早，也一直走在国际前列。在2001年，为了解决多视角步态识别问题，我们建设了国际上第一个多视角步态数据库CASIA-A，为跨视角步态识别算法研究提供了数据基础。到了2005年，随着算力水平的不断提高，我们建设了一个规模更大、视角更多的步态数据库CASIA-B。为了解决夜间步态识别问题，我们建设了夜间红外步态数据库CASIA-C。为了探索人的步态与足印之间的关系，我们在2009年建设了足印步态数据库CASIA-D。考虑到深度学习对于数据的需求更大，在2016年，我们建设了一个超大规模的步态数据库CASIA-E，包含1014人在3种不同场景下、在26个不同视角下、变换3种着装共70余万段步态视频。

从CASIA-A到CASIA-E的建设过程可以看出，好的数据库可以直接加速研究的进程，而数据库自身也能在新的研究需求下不断完善。总体来说，好的数据库需要具备三个重要标准：数据规模大、内容多样性丰富、符合实际使用需求。例如，ImageNet数据库是一个用于视觉目标识别算法研究的大规模数据库，很多经典算法（例如AlexNet、VGGNet、ResNet、DenseNet等）都是在它的基础上发展而来，大大推动了相关算法的实用化发展。后来，由于目标识别的精度已经超越人类水平，一个比ImageNet标注规模更大、内容多样性更强的Visual Genome数据库出现了，有力支撑了相关算法向更有挑战的实际任务上进行拓展。

问题4：您曾在国外多所高校从事科研工作，在您看来，国内外科研方式和条件与国内相比有何不同？

2004年，我在中科院自动化所获得博士学位。2004～2009年，先后在英国帝国理工学院、澳大利亚莫纳什大学、澳大利亚墨尔本大学从事博士后研究工作。2009年开始在巴斯大学作为讲师工作，拿到终身教职。要玩就玩得痛快，要学就学得踏实。这是我所感受到的国外科研工作者对工作和生活态度的真实写照。他们通常将工作和生活划分得很清楚，例如国外导师在周末或度假的时候几乎是不会处理工作事情的。但是，我发现他们不管多忙，每周都会认真阅读学生的工作周报并给出意见和建议，同时每周也会留出固定时间与每位学生面对面交流，这是一种很好的科研交流方式。通过比较国内外的科研环境，我认为国内的硬件设施并不比国外差，但软实力可能还有待提升，比如科研基础和创新思维等。目前，虽然国内很多技术在国际上已经处于领先地位，但部分领域仍缺少原创性成果，存在卡脖子的问题。未来，我们希望能够潜心科研，做出更多具有国际影响力的、学术原创性的、应用潜力强的新工作。

问题5：在回国之前，您已经拿到了英国巴斯大学的终身教职，后来是什么原因让您放弃国外教职转而回到国内重新开始呢？

我是在国内读的博士，毕业后之所以选择出国主要是想出去体验国外的风土人情，以及了解国外的学习、科研、工作等方式。但是，在国外呆得久了之后，原本的好奇和新鲜感逐渐褪去，于是便动了回国效力的念头。如果自己所学能为自己的国家作点贡献，哪怕只是一点点，心里的满足感也将是不可言喻的。我忘不了当时辞职时系主任惊愕的表情，他说全球经济不太景气，能找到正式工作是多么不易，一再问我你确定辞职吗？在2010年，我还是坚定地辞退了巴斯大学的终身教职，以中科院百人计划回国工作。回国后，我全身心投入到计算机视觉与模式识别领域的研究工作中，并在2014年被授予“国际模式识别学会会士”荣誉称号，在2019年被授予“国际电气与电子工程师^[2]协会会士”荣誉称号。

参考文献

↑ 国家杰出青年科学基金项目，国家自然科学基金委员会
↑ 工程师分为哪几个等级？，搜狐，2022-05-16

[1] 国家杰出青年科学基金项目，国家自然科学基金委员会

[2] 工程师分为哪几个等级？，搜狐，2022-05-16

[1]

[2]

中国图象图形学学会国际合作与交流工作委员会查看源代码讨论查看历史

目录

相关资讯

“志存高远，追求卓越” ----访中国图象图形学学会副理事长、中国科学院自动化所研究员王亮

参考文献