Ruiqi Zhang

I am a third-year Ph.D. in the Department of Statistics at the University of California, Berkeley, advised by Prof. Peter L. Bartlett and Prof. Song Mei Previously, I got my bachelor's degree in the School of Mathematical Science(SMS) at Peking University(PKU), majoring in Mathematics and Statistics.

My research mainly focuses on the theory and application of modern Machine Learning(ML), Deep Learning(DL), and Large Language Models(LLMs). More specifically, currently, I focus on

Scalable and Efficient Alignment for Large Language Models Reasoning.
The Theory for Transformers, In-Context Learning, and Scaling Laws.
Topics in Deep Learning Theory, such as Implicit Bias and Edge of Stability.
Sequential Decision Making in Bandits and Reinforcement Learning.

Email / Language: Chinese, English. / Coding: Python, R, Matlab, LaTeX, Prompting GPT.
Reviewer experience: ICML 2022,2024,2025, NIPS 2023,2024, NIPS 2023 R0-FoMo Workshop, NIPS 2023 Math+A Workshop, ICLR 2024, 2025, AISTATS 2024, 2025, TMLR, DMLR, JMLR.

Publication

SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning.
Ruiqi Zhang, Daman Arora, Song Mei, Andrea Zanette.
Submitted, 2025
Minimax Optimal Convergence of Gradient Descent in Logistic Regression via Large and Adaptive Stepsizes.
Ruiqi Zhang, Jingfeng Wu, Licong Lin, Peter L. Bartlett.
ICML, 2025 | Paper
How Do Transformers Perform Two-Hop Reasoning in Context?
Tianyu Guo*, Hanlin Zhu*, Ruiqi Zhang, Jiantao Jiao, Song Mei, Michael I. Jordan, Stuart Russell.
Submitted, 2025 | Paper
Fast Best-of-N Decoding via Speculative Rejection.
Hanshi Sun*, Momin Haider*, Ruiqi Zhang*, Huitao Yang, Ming Yin, Mengdi Wang, Peter L. Bartlett, Andrea Zanette* (* for core authors).
NIPS, 2024 | Paper
Choose Your Anchor Wisely: Effective Unlearning Diffusion Models via Concept Reconditioning.
Jingyu Zhu*, Ruiqi Zhang*, Licong Lin, Song Mei (* for co-first authors).
Submitted, 2024 | Paper
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning.
Chongyu Fan*, Jiancheng Liu*, Licong Lin*, Jinghan Jia, Ruiqi Zhang, Song Mei, Sijia Liu (* for co-first authors).
Submitted, 2024 | Paper
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning.
Ruiqi Zhang*, Licong Lin*, Yu Bai, Song Mei (* for co-first authors).
COLM, 2024 | Paper
In-Context Learning of a Linear Transformer Block: Benefits of the MLP Component and One-Step GD Initialization.
Ruiqi Zhang, Jingfeng Wu, Peter L. Bartlett.
NIPS, 2024 | Paper
Is Offline Decision Making Possible with Only Few Samples? Reliable Decisions in Data-Starved Bandits via Trust Region Enhancement.
Ruiqi Zhang, Yuexiang Zhai, Andrea Zanette.
Submitted, 2024 | Paper
AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition.
Zhaorun Chen, Zhuokai Zhao, Zhihong Zhu, Ruiqi Zhang, Xiang Li, Bhiksha Raj, Huaxiu Yao.
NAACL 2024 | Prior version at ICLR 2024 Workshop on Reliable and Responsible Foundation Models | Paper
Trained Transformers Learn Linear Model In-Context.
Ruiqi Zhang, Spencer Frei, Peter L. Bartlett.
Journal of Machine Learning Research (JMLR) 2024 25(49):1−55 | Prior version in NIPS 2023 Workshop on robustness of zero/few-shot learning in foundation models (R0-FoMo) | Paper (Arxiv) | Paper (JMLR) | Talk by Spencer Frei
Policy Finetuning in Reinforcement Learning via Design of Experiments using Offline Data.
Ruiqi Zhang, Andrea Zanette.
NIPS 2023 | Paper
Off-Policy Fitted Q-Evaluation with Differentiable Function Approximators: Z-Estimation and Inference Theory.
Ruiqi Zhang, Xuezhou Zhang, Chengzhuo Ni, Mengdi Wang.
ICML 2022 | RLDM 2022 | Paper | Talk
Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration.
Chengzhuo Ni, Ruiqi Zhang, Xiang Ji, Xuezhou Zhang, Mengdi Wang.
ICML 2022 | RLDM 2022 | Paper