Publications

Conferences: ICCV (5), CVPR (5), ECCV (5), NeurIPS (4), AAAI (4), ICLR (1), IJCAI (1), ACMMM (3) -- Oral x2, Highlight x2, Spotlight x1

Journals: TPAMI (1), IJCV (1), TMM (1)

( Co-first Author, ^Corresponding Author)

Preprints:

FreeVA: Offline MLLM as Training-Free Video Assistant
Wenhao Wu
Technical Report, ArXiv:2405.07798 [ PDF ] [ Code ]
GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition?
Wenhao Wu, Huanjin Yao, Mengxi Zhang, Yuxin Song, Wanli Ouyang, Jingdong Wang
Technical Report, ArXiv:2311.15732 [ PDF ] [ Code ]
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning
Huanjin Yao*, Wenhao Wu*^*, Zhiheng Li
Technical Report, ArXiv:2311.15769 [ PDF ] [ Code ]
It Takes Two: Masked Appearance-Motion Modeling for Self-supervised Video Transformer Pre-training
Yuxin Song, Min Yang, Wenhao Wu, Dongliang He, Fu Li, Jingdong Wang
Technical Report, ArXiv:2210.05234 [ PDF ]
Discovering “Semantics” in Super-Resolution Networks
Yihao Liu, Anran Liu, Jinjin Gu, Zhipeng Zhang, Wenhao Wu, Yu Qiao, Chao Dong
Technical Report, ArXiv:2108.00406 [ PDF ] [ Code ]
Color2Style: Real-Time Exemplar-Based Image Colorization with Self-Reference Learning and Deep Feature Modulation
Henyuan Zhao*, Wenhao Wu*, Yihao Liu, Dongliang He
Technical Report, ArXiv:2106.08017 [ PDF ] [ Code ]
Temporal Action Proposal Generation with Transformers
Lining Wang*, Haosen Yang*, Wenhao Wu*, Hongxun Yao, Hujie Huang
Technical Report, ArXiv:2105.12043 [ PDF ]

Journal Papers:

Cap4Video++: Enhancing Video Understanding with Auxiliary Captions
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang
Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024. Impact factor: 23.6 [ PDF ] [ Code ]
Transferring Vision-Language Models for Visual Recognition: A Classifier Perspective
Wenhao Wu, Zhun Sun, Yuxin Song, Jingdong Wang, Wanli Ouyang
International Journal of Computer Vision (IJCV), 2023. Impact factor: 19.5 [ PDF ] [ Code ]
GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition
Guangzhao Dai, Xiangbo Shu, Wenhao Wu, Rui Yan, Jiachao Zhang
Transactions on Multimedia, 2024 [ PDF ]
Rethinking 3D cost aggregation in stereo matching
Wanshui Gan, Wenhao Wu, Shifeng Chen, Yuxiang Zhao, Pak Kin Wong
Pattern Recognition Letters, 2023 [ PDF ] [ Code ]

Conference Papers:

Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders
Bo Fang, Wenhao Wu, Qiangqiang Wu, Yuxin Song, Antoni B. Chan
ICLR 2026 [ PDF ]
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search
Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao
NeurIPS 2025 Spotlight, 3.1% acceptance rate [ PDF ] [ Code ]
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
NeurIPS 2025 [ PDF ] [ Code ]
MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI
Huanjin Yao, Jiaxing Huang, Yawen Qiu, Michael K. Chen, Wenzheng Liu, Wei Zhang, Wenjie Zeng, Xikun Zhang, Jingyi Zhang, Yuxin Song, Wenhao Wu, Dacheng Tao
ICCV 2025 [ PDF ] [ Code ]
DistinctAD: Distinctive Audio Description Generation in Contexts
Bo Fang, Wenhao Wu, Qiangqiang Wu, Yuxin Song, Antoni B. Chan
CVPR 2025 Highlight, 2.9% acceptance rate [ PDF ]
Dense Connector for MLLMs
Huanjin Yao*, Wenhao Wu*^*, Taojiannan Yang, Yuxin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang
NeurIPS 2024 [ PDF ] [ Code ]
Automated Multi-level Preference for MLLMs
Mengxi Zhang, Wenhao Wu, Yu Lu, Yuxin Song, Kang Rong, Huanjin Yao, Jianbo Zhang, Fanglong Liu, Yifan Sun, Haocheng Feng, Jingdong Wang
NeurIPS 2024 [ PDF ] [ Code ]
DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
Yixuan Wu, Yizhou Wang, Shixiang Tang, Wenhao Wu, Tong He, Wanli Ouyang, Jian Wu, Philip Torr
ECCV 2024 [ PDF ]
What Can Simple Arithmetic Operations Do for Temporal Modeling?
Wenhao Wu, Yuxin Song, Zhun Sun, Jingdong Wang, Chang Xu, Wanli Ouyang
ICCV 2023 [ PDF ] [ Code ]
UATVR: Uncertainty-Adaptive Text-Video Retrieval
Bo Fang*, Wenhao Wu*, Chang Liu*, Yu Zhou, Yuxin Song, Weiping Wang, Xiangbo Shu, Xiangyang Ji, Jingdong Wang
ICCV 2023 [ PDF ] [ Code ]
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?
Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang
CVPR 2023 Highlight, 2.5% acceptance rate [ PDF ] [ Code ]
Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models
Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang
CVPR 2023 [ PDF ] [ Code ]
Revisiting Classifier: Transferring Vision-Language Models for Video Recognition
Wenhao Wu, Zhun Sun, Wanli Ouyang
AAAI 2023 [ PDF ] [ Code ] [ Poster ] [ Slides ] [ Video ]
AdaCM: Adaptive ColorMLP for Real-Time Universal Photo-realistic Style Transfer
Tianwei Lin, Honglin Lin, Fu Li, Dongliang He, Wenhao Wu, Meiling Wang, Xin Li, Yong Liu
AAAI 2023 [ PDF ]
Effective Invertible Arbitrary Image Rescaling
Zhihong Pan, Baopu Li, Dongliang He, Wenhao Wu, Errui Ding
WACV 2023 [ PDF ] [ Code ]
NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition
Boyang Xia*, Wenhao Wu*^*, Haoran Wang, Rui Su, Dongliang He, Haosen Yang, Xiaoran Fan, Wanli Ouyang
ECCV 2022 [ PDF ] [ Project ]
Temporal Saliency Query Network for Efficient Video Recognition
Boyang Xia*, Zhihao Wang*, Wenhao Wu^*, Haoran Wang, Jungong Han
ECCV 2022 [ PDF ] [ Project ]
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval
Haoran Wang, Dongliang He, Wenhao Wu, Boyang Xia, Min Yang, Fu Li, Yunlong Yu, Zhong Ji, Errui Ding, Jingdong Wang
ECCV 2022 [ PDF ] [ Code ]
MaMiCo: Macro-to-Micro Semantic Correspondence for Self-supervised Video Representation Learning
Bo Fang*, Wenhao Wu*, Chang Liu*, Yu Zhou, Dongliang He, Weiping Wang
ACMMM 2022 Oral, 5.0% acceptance rate [ PDF ] [ Code ]
Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image Translation
Yanwu Xu, Shaoan Xie, Wenhao Wu, Kun Zhang, Mingming Gong, Kayhan Batmanghelich
CVPR 2022 [ PDF ] [ Code ]
Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and Cycle Idempotence
Zhihong Pan, Baopu Li, Dongliang He, Mingde Yao, Wenhao Wu, Tianwei Lin, Xin Li, Errui Ding
CVPR 2022 [ PDF ] [ Code ]
Temporal Action Proposal Generation with Background Constraint
Haosen Yang*, Wenhao Wu*, Lining Wang, Sheng Jin, Boyang Xia, Hongxun Yao, Hujie Huang
AAAI 2022 [ PDF ] [ Code ]
ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency
Deng Huang*, Wenhao Wu*, Weiwen Hu, Xu Liu, Dongliang He, Zhihua Wu, Xiangmiao Wu, Mingkui Tan, Errui Ding
ICCV 2021 [ PDF ] [ Poster ] [ Slides ] [ Video ] [ Code ]
DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning
Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi
ACMMM 2021 [ PDF ] [ Poster ] [ Slides ] [ Code]
Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring Network
Zhikang Zou, Xiaoye Qu, Pan Zhou, Shuangjie Xu, Xiaoqing Ye, Wenhao Wu, Jin Ye
ACMMM 2021 [ PDF ]
Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video
Jie Wu, Wei Zhang, Guanbin Li, Wenhao Wu, Xiao Tan, Yingying Li, Errui Ding, Liang Lin
IJCAI 2021 [ PDF ]
Good Practices and A Strong Baseline for Traffic Anomaly Detection
Yuxiang Zhao*, Wenhao Wu*, Yue He, Yingying Li, Xiao Tan, Shifeng Chen
CVPR 2021 Workshop on AICity Challenge Winner [ PDF ]
MVFNet: Multi-View Fusion Network for Efficient Video Recognition
Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan, Errui Ding
AAAI 2021 [ PDF ] [ Poster ] [ Slides ] [ Code ]
Attention-Driven Dynamic Graph Convolutional Network for Multi-Label Image Recognition
Jin Ye, Junjun He, Xiaojiang Peng, Wenhao Wu, Yu Qiao
ECCV 2020 [ PDF ] [ Code ]
Dynamic Inference: A New Approach Toward Efficient Video Action Recognition
Wenhao Wu, Dongliang He, Xiao Tan, Shifeng Chen, Yi Yang, Shilei Wen
CVPR 2020 Workshop on Efficient Deep Learning in Computer Vision Oral [ PDF ] [ Slides ]
Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition
Wenhao Wu, Dongliang He, Xiao Tan, Shifeng Chen, Shilei Wen
ICCV 2019 Oral, 4.3% acceptance rate [ PDF ] [ Poster ] [ Slides ]

Publications

Conferences: ICCV (5), CVPR (5), ECCV (5), NeurIPS (4), AAAI (4), ICLR (1), IJCAI (1), ACMMM (3) -- Oral x2, Highlight x2, Spotlight x1

Journals: TPAMI (1), IJCV (1), TMM (1)

( *Co-first Author, *Corresponding Author)

Preprints:

Journal Papers:

Conference Papers:

( Co-first Author, ^Corresponding Author)