报告题目:Vision and Language: Bridging Vision and Language with Deep Learning
报告人:梅涛 研究员
时间: 2016年12月13日 (星期二) 上午9:30
Abstract: Visual recognition has been a fundamental challenge in computer vision for decades. Thanks to the recent development of deep learning techniques, researchers are striving to bridge vision (image and video) and natural language, which has become an emerging research area. We will present a few recent advances bridging vision and language with deep learning techniques, including image and video captioning, image and video chatting, storytelling, vision and language grounding, datasets, grand challenges, and open issues. In particular, we will introduce our recently developed approaches which investigate semantic attributes for image and video captioning.
梅涛博士,微软亚洲研究院资深研究员,国际模式识别学会会士,国际计算机协会杰出科学家,中国科技大学和中山大学兼职教授博导。他分别于2001年和2006年在中国科技大学获学士和博士学位。主要研究兴趣为多媒体分析和计算机视觉,在国际顶级学术期刊和会议上发表论文100余篇,先后10次荣获最佳论文奖,拥有17项美国专利,其研究成果多次被转化到微软的产品和服务中。在微软亚洲研究院期间,先后指导了来自全球的80多名实习生,并培养了四位微软学者。他目前同时担任IEEE和ACM多媒体汇刊的编委(IEEE TMM和ACM TOMM),并且是多个国际多媒体会议的大会主席和程序委员会主席。