Awesome Video Reasoning

This repository only includes works on reasoning with video models. In general, we do not list works on language models or multi-modal language models.

Papers

2025

Spatia: Video Generation with Updatable Spatial Memory | Dec 2025
Jinjing Zhao, Fangyun Wei, Zhening Liu, Hongyang Zhang, Chang Xu, Yan Lu
📄 Paper | 💻 Project

MMGR: Multi-Modal Generative Reasoning | Dec 2025
Zefan Cai, Haoyi Qiu, Tianyi Ma, Haozhe Zhao, Gengze Zhou, Kung-Hsiang Huang, Parisa Kordjamshidi, Minjia Zhang, Wen Xiao, Jiuxiang Gu, Nanyun Peng, Junjie Hu
📄 Paper

Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation | Dec 2025
Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Ning Yu, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
📄 Paper | 💻 Project

WorldPack: Compressed Memory Improves Spatial Consistency in Video World Modeling | Dec 2025
Yuta Oshima, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta
📄 Paper

Evaluating Gemini Robotics Policies in a Veo World Simulator | Dec 2025
Gemini Robotics Team, Coline Devin, Yilun Du, Debidatta Dwibedi, Ruiqi Gao, Abhishek Jindal, Thomas Kipf, Sean Kirmani, Fangchen Liu, Anirudha Majumdar, Andrew Marmon, Carolina Parada, Yulia Rubanova, Dhruv Shah, Vikas Sindhwani, Jie Tan, Fei Xia, Ted Xiao, Sherry Yang, Wenhao Yu, Allan Zhou
📄 Paper

RELIC: Interactive Video World Model with Long-Horizon Memory | Dec 2025
Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan
📄 Paper

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation | Dec 2025
Yunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang
📄 Paper | 💻 Project

Astra: General Interactive World Model with Autoregressive Denoising | Dec 2025
Yixuan Zhu, Jiaqi Feng, Wenzhao Zheng, Yuan Gao, Xin Tao, Pengfei Wan, Jie Zhou, Jiwen Lu
📄 Paper | 💻 Code

Saber: Scaling Zero-Shot Reference-to-Video Generation | Dec 2025
Zijian Zhou, Shikun Liu, Haozhe Liu, Haonan Qiu, Zhaochong An, Weiming Ren, Zhiheng Liu, Xiaoke Huang, Kam Woh Ng, Tian Xie, Xiao Han, Yuren Cong, Hang Li, Chuyan Zhu, Aditya Patel, Tao Xiang, Sen He
📄 Paper | 💻 Project

DDRL: Data-regularized Reinforcement Learning for Diffusion Models at Scale | Dec 2025
Haotian Ye, Kaiwen Zheng, Jiashu Xu, Puheng Li, Huayu Chen, Jiaqi Han, Sheng Liu, Qinsheng Zhang, Hanzi Mao, Zekun Hao, Prithvijit Chattopadhyay, Dinghao Yang, Liang Feng, Maosheng Liao, Junjie Bai, Ming-Yu Liu, James Zou, Stefano Ermon
📄 Paper

World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty | Dec 2025
Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar
📄 Paper

Stable Video Infinity: Infinite-Length Video Generation with Error Recycling | Oct 2025
Wuyang Li, Wentao Pan, Po-Chien Luan, Yang Gao, Alexandre Alahi
📄 Paper | 💻 Project

Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training | May 2025
Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mézard
📄 Paper

RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence | Dec 2025
Xuming He, Zehao Fan, Hengjia Li, Fan Zhuo, Hankun Xu, Senlin Cheng, Di Weng, Haifeng Liu, Can Ye, Boxi Wu
📄 Paper | 💻 Project

What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards | Nov 2025
Minh-Quan Le, Yuanzhi Zhu, Vicky Kalogeiton, Dimitris Samaras
📄 Paper | 💻 Project

In-Video Instructions: Visual Signals as Generative Control | Nov 2025
Gongfan Fang, Xinyin Ma, Xinchao Wang
📄 Paper | 💻 Project

Video Generation Models Are Good Latent Reward Models | Nov 2025
Xiaoyue Mi, Wenqing Yu, Jiesong Lian, Shibo Jie, Ruizhe Zhong, Zijun Liu, Guozhen Zhang, Zixiang Zhou, Zhiyong Xu, Yuan Zhou, Qinglin Lu, Fan Tang
📄 Paper

Video4Edit: Viewing Image Editing as a Degenerate Temporal Process | Nov 2025
Xiaofan Li, Yanpeng Sun, Chenming Wu, Fan Duan, YuAn Wang, Weihao Bo, Yumeng Zhang, Dingkang Liang
📄 Paper

VChain: Chain-of-Visual-Thought for Reasoning in Video Generation | Oct 2025
Ziqi Huang, Ning Yu, Gordon Chen, Haonan Qiu, Paul Debevec, Ziwei Liu
📄 Paper | 💻 Project

Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark | Nov 2025
Xinxin Liu, Zhaopan Xu, Kai Wang, Yong Jae Lee, Yuzhang Shang
📄 Paper | 💻 Code

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark | Oct 2025
Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
📄 Paper | 💻 Code

Video Models Start to Solve Chess, Maze, Sudoku, Mental Rotation, and Raven's Matrices
Hokin Deng
📄 Paper | 💻 Code

Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO | Nov 2025
Junhao Cheng, Liang Hou, Xin Tao, Jing Liao
📄 Paper | 💻 Code

Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks | Nov 2025
Cheng Yang, Haiyuan Wan, Yiran Peng, Xin Cheng, Zhaoyang Yu, Jiayi Zhang, Junchi Yu, Xinlei Yu, Xiawu Zheng, Dongzhan Zhou, Chenglin Wu
📄 Paper | 💻 Code

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm | Nov 2025
Jingqi Tong, Yurong Mou, Hangcheng Li, Mingzhe Li, Yongzhuo Yang, Ming Zhang, Qiguang Chen, Tianyi Liang, Xiaomeng Hu, Yining Zheng, Xinchi Chen, Jun Zhao, Xuanjing Huang, Xipeng Qiu
📄 Paper | 💻 Code

V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models | Nov 2025
Yang Luo, Xuanlei Zhao, Baijiong Lin, Lingting Zhu, Liyao Tang, Yuqi Liu, Ying-Cong Chen, Shengju Qian, Xin Wang, Yang You
📄 Paper | 💻 Code

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models | Nov 2025
Harold Haodong Chen, Disen Lan, Wen-Jie Shu, Qingyang Liu, Zihan Wang, Sirui Chen, Wenkai Cheng, Kanghao Chen, Hongfei Zhang, Zixin Zhang, Rongjin Guo, Yu Cheng, Ying-Cong Chen
📄 Paper | 💻 Code

Video models are zero-shot learners and reasoners | Sep 2025
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, Shixiang Shane Gu, Nick Matarese, Kevin Swersky, Been Kim, Priyank Jaini, Robert Geirhos
📄 Paper | 💻 Project

Contributing

Contributions are welcome! Please feel free to submit a pull request to add new papers or resources.

License

This project is licensed under the Apache-2.0 License - see the LICENSE file for details.

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
.github/workflows		.github/workflows
docs		docs
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Awesome Video Reasoning

Papers

2025

Contributing

License

About

Uh oh!

Releases

Packages

License

Video-Reason/Awesome-Video-Reasoning

Folders and files

Latest commit

History

Repository files navigation

Awesome Video Reasoning

Papers

2025

Contributing

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages