Li Fangzheng

「Paper Reading」 Gemini 2.5 Pro 是怎么炼成的?-- gemini 2.5 技术报告阅读笔记与思考

Gemini 2.5 Pro 是怎么炼成的?– gemini 2.5 技术报告阅读笔记与思考 1. 收获(takeaway) Gemini 的技术报告透露的细节非常的少,但是从行文来看,Gemini 2.5 Pro 成功的点主要有三个 多模态,其他的模型多模态能力或多或少都有所欠缺,只有 Gemini 2.5 这种模型才能有长视频的理解能力。 LongContext,我理解可...

「Paper Reading」 Generative Verifiers Reward Modeling as Next-Token Prediction

GenRW 一种新的奖励设计思路 Generative Verifiers: Reward Modeling as Next-Token Prediction 在大型语言模型(LLMs)的研究中,验证器或奖励模型常被用于提升其推理性能。传统的Best-of-N 方法是让 LLM 生成 N 个候选解,再由验证器进行排序选优。然而,基于 LLM 的验证器通常作为判别分类器训练,未充分利...

「Paper Reading」 LLM RLHF 2024论文(三十九)FoT

【论文解读】rStar-Math:无需蒸馏,小模型左脚踩右脚螺旋升天 伪代码实现 微软在[SLM]小模型领域真的有一手,刚看到MSRA公布的一篇新(2025年1月)论文,用MCTS + 步骤级别的[Reward Model](也基于SLM) 让小语言模型的推理性能大幅提升,而且这个过程还能顺便起到「数据增强」的效果,反过来再训练策略模型与奖励模型,实现自我进化(self-evolutio...

Search algorithm-related associations 「搜索算法相关联想」

Search algorithm-related associations「搜索引擎的难题」 Google早已成为全球最成功的互联网搜索引擎,但这个当前的搜索引擎巨无霸却不是最早的互联网搜索引擎,在Google出现之前,曾出现过许多通用或专业领域搜索引擎。Google最终能击败所有竞争对手,很大程度上是因为它解决了困扰前辈们的最大难题:对搜索结果按重要性排序。而解决这个问题的算法就是P...

AI Agent

什么是Agent?为什么是Agent? 当我们将大型模型视为“核心调度器“时,它就变成了我们的Agent。借助任务规划、记忆及外部工具等能力,大型模型能够识别出应该执行的任务以及执行方式,从而实现自主决策。 Agent可被视为“具备自主智能的实体”,也被广泛地称作智能体。当前的Agent主要被分为三种类型:单体Agent、多Agent协作(Multi-Agent)、以及与人交互的A...