「Paper Reading」 DeepSeek-GRM：Inferene-time Scaling a Generalist Reward Model

DeepSeek-GRM：Inferene-time Scaling 的 Generalist Reward Model(通用奖励模型) 1. 结论(take away) Training Scaling 和 Inference Scaling 在 Base-Model 都取得了巨大的成功。那么在强化学习（Reinforcement Learning, RL）过程中需要的 Reward-...

Aug 10, 2025 Paper Reading, RLHF

「Paper Reading」 Gemini 2.5 Pro 是怎么炼成的？-- gemini 2.5 技术报告阅读笔记与思考

Gemini 2.5 Pro 是怎么炼成的？– gemini 2.5 技术报告阅读笔记与思考 1. 收获（takeaway） Gemini 的技术报告透露的细节非常的少，但是从行文来看，Gemini 2.5 Pro 成功的点主要有三个多模态，其他的模型多模态能力或多或少都有所欠缺，只有 Gemini 2.5 这种模型才能有长视频的理解能力。 LongContext，我理解可...

Jul 27, 2025 Paper Reading, RLHF

「Paper Reading」 Generative Verifiers Reward Modeling as Next-Token Prediction

GenRW 一种新的奖励设计思路 Generative Verifiers: Reward Modeling as Next-Token Prediction 在大型语言模型（LLMs）的研究中，验证器或奖励模型常被用于提升其推理性能。传统的Best-of-N 方法是让 LLM 生成 N 个候选解，再由验证器进行排序选优。然而，基于 LLM 的验证器通常作为判别分类器训练，未充分利...

Jul 27, 2025 Paper Reading, RLHF

LLM Reasoning Models comparison

自适应快慢思考推理模型（Adaptive Reasoning Model）：Qwen3混合思考->字节AdaCoT->清华AdaThinking 1. 背景 OpenAI O 系列发布之后，Inference Time Scaling 的模型一直备受关注，这种具有长思考能力的模型倍称为：Large Reasoning Model（LRM）。所谓的长思考能力指得是 Long C...

Jul 1, 2025 Paper Reading, RLHF

「Paper Reading」 LLM RLHF 2024论文（三十九）FoT

LLM RLHF 2024论文（三十九）FoT 论文标题[Forest-of-Thought]: Scaling Test-Time Compute for Enhancing LLM Reasoning，原文，发表于ICML 2025。 LLM reasoning经常使用思维链（CoT）或思维树（ToT），来分解问题，增强推理，这种方法通常只进行一次推理过程，可能无法重新处理有缺陷的路...

Jun 17, 2025 Paper Reading, RLHF

Mysterious GPT O1

【o1猜想】LLM inference scaling：MCTS 1 .简介 [OpenAI] o1用了 [Chain-of-thought]做inference，去训练[self-play] RL o1提到要more [reinforcement learning] (train-time compute) 和with more time spent thinking (tes...

Mar 19, 2025 Generative AI, Artificial Intelligence

「Paper Reading」 LLM RLHF 2024论文（三十九）FoT

【论文解读】rStar-Math：无需蒸馏，小模型左脚踩右脚螺旋升天伪代码实现微软在[SLM]小模型领域真的有一手，刚看到MSRA公布的一篇新（2025年1月）论文，用MCTS + 步骤级别的[Reward Model]（也基于SLM）让小语言模型的推理性能大幅提升，而且这个过程还能顺便起到「数据增强」的效果，反过来再训练策略模型与奖励模型，实现自我进化（self-evolutio...

Jan 16, 2025 Paper Reading, RLHF

Qwen3 RL Secret

GSPO：Qwen3 的 RL 秘方，奖励宜粗不宜细？ Qwen 团队提出了一种名为「[组序列策略优化]（Group Sequence Policy Optimization, GSPO）的新型强化学习算法，尝试解决训练超大规模语言模型时遇到的不稳定和效率低下的问题。与以往算法（如 [GRPO]在单个 token 层面进行调整不同，GSPO 的核心思想是在整个句子或段落（sequ...

Jun 19, 2024 Generative AI, Artificial Intelligence

Search algorithm-related associations 「搜索算法相关联想」

Search algorithm-related associations「搜索引擎的难题」 Google早已成为全球最成功的互联网搜索引擎，但这个当前的搜索引擎巨无霸却不是最早的互联网搜索引擎，在Google出现之前，曾出现过许多通用或专业领域搜索引擎。Google最终能击败所有竞争对手，很大程度上是因为它解决了困扰前辈们的最大难题：对搜索结果按重要性排序。而解决这个问题的算法就是P...

Jun 19, 2024 Generative AI, Artificial Intelligence

AI Agent

什么是Agent？为什么是Agent？当我们将大型模型视为“核心调度器“时，它就变成了我们的Agent。借助任务规划、记忆及外部工具等能力，大型模型能够识别出应该执行的任务以及执行方式，从而实现自主决策。 Agent可被视为“具备自主智能的实体”，也被广泛地称作智能体。当前的Agent主要被分为三种类型：单体Agent、多Agent协作（Multi-Agent）、以及与人交互的A...

May 24, 2024 Generative AI, Artificial Intelligence

「Paper Reading」 DeepSeek-GRM：Inferene-time Scaling a Generalist Reward Model

「Paper Reading」 Gemini 2.5 Pro 是怎么炼成的？-- gemini 2.5 技术报告阅读笔记与思考

「Paper Reading」 Generative Verifiers Reward Modeling as Next-Token Prediction

LLM Reasoning Models comparison

「Paper Reading」 LLM RLHF 2024论文（三十九）FoT

Mysterious GPT O1

「Paper Reading」 LLM RLHF 2024论文（三十九）FoT

Qwen3 RL Secret

Search algorithm-related associations 「搜索算法相关联想」

AI Agent

Trending Tags