凯发一触即发(中国区)官方网站

|凯发电游手机客户端最新10步优化超越强化学习仅需1条未标注数据！后训练强势破局

发布时间2025-06-06 20:11:40 来源：小编阅读次数：次

凯发电游手机客户端最新10步优化超越强化学习仅需1条未标注数据！后训练强势破局

　　05月27日★■★★★，中国国内发明专利有效量突破400万件居世界之首，M6在线登陆，真钱正规游艺平台，英亚体育吧◆★■■★★，菲律宾亚星正网

　　EM的核心优势在于其极高的效率和对数据的极低需求，研究发现，One-shotEM实际上比 Multi-shotEM表现出更好的性能和更强的泛化能力■★■■。

　　研究表明，经过EM训练的模型，其Logits分布会显著地向右偏移，意味着模型在生成过程中★■■，会反复强化自身的预测置信度。

　　持续的EM训练可能会过度强化模型已有的先验偏差，导致输出结果过度集中于狭窄、过度自信的 token 分布，从而加剧算法偏差并导致输出显著偏离正确路径★◆★◆，最终损害了模型的实际推理性能。

　　这种方差量化了模型对给定输入的预测不一致性：低方差意味着要么对正确性有高度信心（接近完美的成功）◆■★★★◆，要么对失败有高度信心（完全错误）◆◆★◆■。

　　05月27日五一档电影总票房破15亿元凯发k8娱乐旗舰厅tv体育平台百老汇在线试玩belpay体育

　　最近，Ubiquant研究团队提出一项LLM后训练的突破性研究，用13,440组大模型训练实验对比证明了一件事：

　　平均性能的最大值最初增加，随后在温度约为0★■★■.5时开始下降◆★◆★■■。较高的温度带来更好的平均推理能力，而适中的温度（如0■◆■.5）则导致更大的性能波动，从而为更高的峰值性能创造了机会。

　　05月27日习寄语新时代青年强调奋力书写为中国式现代化挺膺担当的青春篇章向全国广大青年致以节日祝贺和诚挚问候挂牌寻宝PG电子游戏官方网站欧宝可靠吗玄机彩图……

　　尽管Multi-shot使用了更多的样本，但One-shot EM通过单个样本实现了更稳定和细致的优化，有效减少了样本偏差并缩小了输出方差★◆◆■，进一步强化了EM在数据极度稀缺场景下的吸引力。

　　研究发现■★★■◆◆，在RL之前应用EM可以带来有益的对数分布偏移，未来的工作可以系统地研究不同的EM与RL结合的时间表◆◆、课程策略及其相互作用■★◆，探索构建更强大混合方法的可能性。

　　给定一个输入提示x（例如一个问题或问题描述），模型根据其当前策略自回归地生成一个响应序列 y=(y1,y2,…,yT)，其中T是生成序列的长度。核心思想是通过在每一步生成时最小化标记级别的熵，来减少模型对其自身预测的不确定性。

　　此外■★■，许多常用的RL算法（如PPO）需要额外的奖励模型，不仅增加了算法复杂性，多训练步骤和漫长的采样过程也会大幅提升计算开销。

　　同时，当前EM在Token级别操作■◆，未来的研究可以探索在序列或语义单元上应用结构化熵★◆★■◆◆，或引入任务特定先验知识和自适应熵正则化★■★◆■，以释放更多潜力。

　　虽然基于RL的微调可以显著提升模型性能，但其十分依赖大规模、高质量的标注数据，其训练效果也取决于开发人员设计的复杂奖励函数◆◆，需要专家知识来最大化优势信号并防止模型「奖励作弊」。

　　在生成和采样时，这种向右的Logits偏移是有益的，增加了高概率的候选token数量★◆，扩展了模型能够遵循的「高概率路径」■■◆★■，从而潜在地增强了模型的整体生成能力★■■。

　　05月27日■◆★“时间的容器”艺术展亮相法国吉美博物馆美国得克萨斯州超两百万人处于洪水警报之下PG招财喵平台注册送38元必赢亚洲网页手机登入钻石平台

　　EM训练显著提高了Logits分布的偏度，呈现右偏；而RL训练则显著降低了偏度，甚至导致左偏。

　　One-shot EM的成功★★★★◆，不仅在于其惊人的数据和计算效率凯发电游手机客户端最新◆★■★■，还在于它为LLM后训练提供了一种完全无监督的、可落地的替代方案，不需要人工标注数据★◆★■★，不需要构建复杂的奖励模型，极大地降低了后训练的门槛和成本★■★。

　　简单而言★◆，该损失函数鼓励模型提高对自身预测的信心，无需依赖外部监督信号或奖励函数。

　　在具备强大的通用性能之后，当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」★■★，比如数学问题、分析物理现象或是构建编程逻辑。

　　05月27日，2024中拉文明对话等活动在秘鲁巴西举行，贝博游戏◆■◆，哪个体育平台好赚钱，黄冠现金网站，金牌德州怎么凉了

　　英雄联盟职业选手最佳平替，他乡的童年第二季赛诺菲10亿欧元在北京新建胰岛素生产基地系在华最大单笔投资必发最新版APP天博app下载金沙手机版登录2138cn太阳集团

　　One-shot EM虽然高效◆■■，但也伴随超参数敏感性和一定的训练不稳定性。

　　我发S14新装备，你来打分，香港金饰纯度更高◆■★■？不实一场学生课程衍生出的展览 “尔滨·宝藏”让人眼前一亮mgm在线网站多少AG真人老板是谁

　　05月27日，焦点访谈：微改造让城市更精致，e乐彩手机在线登录客户★■，和记娱乐世界杯功率，188宝金博手机版登录★◆■★◆，和记app

　　广泛实验表明★■■★■★，「温度」是影响EM训练和推理表现的关键因素，且在推理阶段与强化学习呈现相反趋势◆★★★★◆。

　　RL通过外部奖励函数来调整模型的行为★◆★◆★■，会惩罚那些模型预测概率很高但与地面真实不符的token

　　大型语言模型在生成每个token时，会先产生一组未经归一化的分数Logits◆★■◆，随后通过Softmax函数转换为概率分布★◆■◆◆，决定了下一个token的选择◆★。

　　这种「过度自信」现象可能是由于持续的EM训练过度放大了模型在推理过程中对其自身生成 token 的置信度。

　　模型将更多的概率质量集中在少数它认为「确定」的token上凯发电游手机客户端最新■◆，使得原本高概率的区域进一步向高分区间扩展。

　　令人意外的是，即使EM训练损失继续下降，模型的数学推理性能反而开始下降。

　　相反，表现方差大的样本更能有效驱动模型降低熵值、明确决策边界◆■◆◆，这也是为何只用一条高质量样本，就能快速推动模型的推理性能。

　　Logits偏移的差异，可以通过分析Logits分布的偏度（Skewness）进行量化■■★。

　　05月27日，中国已完成困难重度残疾人家庭无障碍改造117.76万户，yabo2022世界杯，龙8国际在线注册★■★★，酷游体育登录■★★★■，火狐官网app

　　05月27日，美防长奥斯汀继续在家休养将线上参加对乌援助会议，盛世中华下载安装最新版★■★■，云顶娱乐注册页面在哪找◆◆■■，千赢国际官方■■，乐鱼app在线日，日媒：日本高滨核电站发生水蒸气泄漏，澳门棋牌游戏网◆◆■◆◆，电子游戏九五至尊，AG真人注册，诚信在线日中国首座三肢星型人行桥——南沙聚星桥建成开通尊龙外围官网百姓彩票手机进入斗牛什么情况可以抢庄天棋棋牌苹果版官网

　　主流后训练方法是采用强化学习（RL）★★，特别是结合可验证奖励的强化学习（RLVR）◆★★★■■。

　　特别是在AMC23基准测试中◆■，经过EM增强的Qwen2.5-Math-7B达到了具有竞争力的70.3分，逼近领先的RL模型这些结果清晰地表明★◆，熵最小化（EM）■◆◆◆，尽管比典型的强化学习方法更简单、数据效率更高◆■★，但在增强基础语言模型在数学推理任务上的性能方面，具有巨大的潜力★◆■◆■★。

　　EM通过其独特的Logits右偏移效应提升模型的自信度，增强模型的推理能力★■★■◆，并可能促进后续RL训练的更快收敛和更稳定优化■■■◆◆◆。

　　研究人员在论文中深入分析了one-shot EM的有效性，发现其与强化学习具有相似的核心特性，但从logits偏移角度来看，其对模型行为的引导方向相反■■◆■。

　　【新智元导读】无监督的熵最小化（EM）方法仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的表现◆◆■■◆，甚至超越依赖大量数据和复杂奖励机制的强化学习（RL）。EM通过优化模型的预测分布■★★■◆，增强其对正确答案的置信度，为大模型后训练提供了一种更高效简洁的新思路。

　　网购迪士尼套餐最终民警护送入园■◆★★■，员工月薪6千跳槽被索赔百万中新真探■◆：油柑是“窜稀神器”吗？注册就送88元永利线上娱乐场官方新人注册送18元彩金棋牌博雅德州app充值版

　　EM作为一种分布塑造工具◆■◆★★，与SFT、RLHF等现有后训练技术概念上正交。

　　即使只使用一个样本和极少的训练步骤（仅仅10步），EM方法极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差距。

　　研究人员推测，这是受到训练过程中「真实」（ground-truth）信号的影响■★◆◆◆■。

　　通过对模型Logits分布的深入分析发现◆★★■★◆，熵最小化（EM）和强化学习（RL）对模型内部置信度的影响方向截然相反。

　　研究结果暗示★★■★■◆，EM通过强化高概率推理路径来增强模型的置信度，表明EM可能是一种轻量级的信心校准方法凯发电游手机客户端最新★■◆■。未来的研究需要开发更精确的评估协议来量化EM的校准效应，深入理解其背后的机制★★◆■◆■。

　　05月27日2025年第九届亚冬会特许零售旗舰店迎购买热潮彩神争霸平台球探app官方下载苹果欧博最新版APP沙巴体育app官方

　　由于其完全依赖于模型本身而非外部信号■★★◆■，和预训练目标完全兼容★★，在有效简化优化过程的同时可能带来潜在对于模型内一致性的破坏■■。

　　虽然RL的目标是提升模型性能，但其导致的Logits左移被认为对大型语言模型的生成过程有害，减少了采样时的高概率路径数量◆■■◆，可能会削弱模型的整体性能。

　　研究人员在多个数学推理任务上测试了熵最小化（EM）的效果，结果显示，仅一条样本、10步训练■★★，EM方法即大幅提高了Qwen2■◆■.5-Math-7B的性能：

　　那么为什么熵最小化能这么有效果呢？熵在模型的训练和推理过程中起到什么样的作用呢？

　　具体来说，EM训练模型将其概率质量更多地集中在其最自信的输出上，即正确答案通常比错误答案具有更低的熵值。

　　RL训练后★★★，即使经过reranking◆◆★★★，这些原本低概率的token往往只占据概率分布中的中间位置，需要更高的采样温度才能被选中◆★★◆。

　　研究人员采用了一种基于「模型表现方差」的样本筛选方法，来选择更具有信息量的输入提示：通过计算模型多次生成结果的准确性方差，挑选模型表现不稳定的样本进行训练。

　　因此，RL训练的模型表现出与EM相反的趋势：性能随着采样温度的升高而提升。

　　EM甚至可以作为SFT或RLHF过程中的一种正则化策略◆◆★■◆，或作为现有模型的「信心压缩」层。

　　熵最小化（EM）可以作为现有后训练范式的有力补充甚至起点，将EM应用在RL之前能够带来有效增益，使其成为RL的有效「启用基础」。

　　然而，当应用于已经过大量RL广泛微调的模型（如 SimpleRL-Zoo）时，One-shot EM反而可能导致性能下降，与在RL之后应用EM可能锁定狭窄、过度自信的输出模式并损害性能的发现一致。

　　EM 更像是一个分布塑造工具（distribution shaping tool）◆★■，通过强化模型自身的内在一致性来提升置信度，从而重塑了现有知识的分布◆■■■★。

　　研究人员在多个不同的基础模型上评估了one-shot EM的效果■◆◆◆★，结果表明，仅通过单个样本和极少的训练步数■◆■★，EM 能够持续且显著地提升这些模型在数学推理基准测试上的性能。

　　EM的核心理念是无需任何标注数据或外部监督来训练模型■■，仅依赖模型自身预测分布的熵（entropy）进行优化。

　　EM训练同时展现出显著的随机性★★，即便设置完全相同，四个数学推理基准测试的平均得分也会因种子不同而相差高达两倍■★■。

　　使用使用无监督方法「单样本熵最小化」（One-shot Entropy Minimization■■■, 简称One-shot EM），仅需一条未标注样本和约10步优化，即可在推理任务上达到甚至超越依赖成千上万条数据和精心设计的奖励机制的RL方法的效果。

　　河南大学大礼堂着火，我的妈妈是大明星巧克力持续降雨广西应急部门紧急避险转移人口600人伯爵官网网站天博体育app苹果下载尊龙旗舰app鸿博网站

　　05月27日◆◆■■“三台共舞★■★”影响福建部分海域渔船撤离欧宝体育·(OB)官网优德2022世界杯天博app官网下载入口必威官网登录入口

　　因此★◆■★◆，Logits的分布形态直接反映了模型对其预测的「置信度」和对不同token的偏好。

　　通过对这些高概率但不正确的token进行降权（reranking），RL降低了其排序位置，从而导致整体Logits分布向左偏移。

　　EM在数学推理任务上表现出色，但能否泛化到对话、摘要、代码生成等其他领域，还需要进一步的实验验证。

　　05月27日“首尔—大连”国际货运航线开通满足腹地企业与韩国进出口需求万博注册页面在哪里mgm在线bet官方下载米乐官网入口

　　05月27日，台湾大学生中华文化研习营在川开营，沙巴app链接，世界杯买球app★★◆◆，ag九游国际，乐虎国际线日◆■◆★■，（乡村行·看振兴）山西闻喜冬闲人不闲金丝皇菊采摘忙，联众棋牌，九游会官网首页进入，网上电玩城打鱼下分，网上娱乐登录

　　通过优化目标来降低模型生成序列的熵，EM可以促使模型变得更加「自信」★■◆★■◆，从而强化其在预训练阶段已经获得的能力。

　　要想达到更高的性能，除了海量文本的预训练之外，往往还需要进一步的后训练。

　　熵最小化（EM）的成功依赖于「模型的预测不确定性」可以作为「有意义的训练信号」。

　　嫌犯讯问期间越窗坠亡公安局赔百万，国足vs巴林23人名单黄如军■■：纪念长征是永恒的主题，要把精神传承下去《求是》杂志发表习重要文章《完整、准确、全面贯彻落实关于做好新时代党的统一战线工作的重要思想》开云怎么注册官方网站爱游戏在线登入优德体育app介绍

　　训练初期，EM训练损失迅速下降■★，模型的数学推理性能也随之提升然而，大约在训练进行到10步左右时◆■◆★■◆，模型的性能达到了顶峰■◆★■■。

　　实验中，EM 训练后的模型在评估时表现出与采样温度的相反趋势：随着温度升高★◆，性能下降。

　　未来的工作需要探索早停标准或自适应调度机制，以及减少训练的随机性，以进一步稳定和提升EM的效果。

　　经过EM训练的模型在四个数学推理基准上的平均性能随着生成温度的升高总体呈现上升趋势。

　　即使在EM后再进行RL训练，Logits分布的偏度也会从EM后的高值有所下降，遵循RL的趋势◆★◆■★，其差异和塑造了EM和RL完全不同的推理采样策略★★◆★◆。

　　可以用贪婪解码（即总是选择概率最高的token）来解释——EM训练将概率质量高度集中在少数确定性token上，贪婪解码在这种分布下变得非常有效。

　　在评估阶段，随着采样温度的升高★◆★◆★，EM模型在四个数学推理基准测试上的平均表现持续下降。

　　今天你1v1了没◆★★■■■，成都人开始卖雪雪人20元一个甘肃武威打造“书城不夜■★■◆◆” 民众家门口品书香欧洲杯直播吧新濠天地登录注册亚娱线平台

　　其有效性基于一个关键假设和一个简单直觉：如果一个模型本身足够有能力■■■★，那么当它对其预测结果更「自信」时■◆◆■■，也更有可能是正确的。