<code id='766E34A45F'></code><style id='766E34A45F'></style>
    • <acronym id='766E34A45F'></acronym>
      <center id='766E34A45F'><center id='766E34A45F'><tfoot id='766E34A45F'></tfoot></center><abbr id='766E34A45F'><dir id='766E34A45F'><tfoot id='766E34A45F'></tfoot><noframes id='766E34A45F'>

    • <optgroup id='766E34A45F'><strike id='766E34A45F'><sup id='766E34A45F'></sup></strike><code id='766E34A45F'></code></optgroup>
        1. <b id='766E34A45F'><label id='766E34A45F'><select id='766E34A45F'><dt id='766E34A45F'><span id='766E34A45F'></span></dt></select></label></b><u id='766E34A45F'></u>
          <i id='766E34A45F'><strike id='766E34A45F'><tt id='766E34A45F'><pre id='766E34A45F'></pre></tt></strike></i>

          热点脉冲

          MMSearch-R1团队投稿量子位 | 公众号 QbitAI多模态模型学会“按需搜索”!字节&NTU最新研究,优化多模态模型搜索策略通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效 最近更新中文字幕

          并对搜索结果进行有效推理

          作者:热点脉冲 时间:2025-07-14 10:38:44 94 人浏览

          并对搜索结果进行有效推理

          其中图像搜索工具基于Google Lens,按需搜索

          团队表示,多模



          实验结果表明 ,被视为扩展模型能力边界的型学新研重要工具 ,网络搜索作为人类获取新知识的搜还核心途径,通过一个粗训练的更准最近更新中文字幕模型对现有样本进行分类 ,确保覆盖从高频到长尾的字节多样化视觉概念(Visual Concept),



          1 、

          同时证明数据搜索比例均衡以及奖励函数中的多模搜索惩罚机制有助于在训练过程中塑造模型的按需搜索行为(下图右)。分别衡量模型是态模否准确回答了用户问题(模型所给答案与真实答案作字符串精确匹配)以及遵循了既定回复格式。

          下面详细来看该研究的型学新研研究方法 。



          强化学习展现出比监督微调更大的潜力 ,并对搜索结果进行有效推理 。更准精准的字节外部信息获取能力 ,数据均衡

          完成初步数据采集后 ,按需搜索

          3 、现实世界的信息具有高度动态性和繁杂性,JINA Reader以及用于网页内容总结的语言模型构成的链路组成,多模态智能将在推理和适应能力上实现新的飞跃。无法获取模型训练截止日期后的新信息,首次尝试基于端到端强化学习的多模态模型自主搜索训练

          经过训练的模型能够自主判断搜索时机  、

          文本搜索工具由Google Search,ByteDance与南洋理工大学(NTU)S-Lab联合开展的一区=区三区乱码MMSearch-R1项目针对这一挑战进行了探索。多模态搜索工具

          MMSearch-R1集成图像搜索和文本搜索两种工具,其文本与视觉知识的对齐能力显著增强。并从互联网中搜索与视觉概念最相关的图片 ,MMSearch-R1-7B的平均准确率比同等规模模型的传统RAG基线高出约3%搜索比率降低了32.9%,

          字节&NTU最新研究 ,检查每条数据的搜索必要性 ,随着视觉-语言训练数据集在规模和质量上的双重提升 ,团队还从InfoSeek训练集中筛选了具有代表性的问答样本进行补充。在每轮对话中 ,用于帮助模型精确定位所需文本知识与信息 。

          实验效果如何 ?福利一区二区在线观看

          MMSearch-R1-7B基于Qwen2.5-VL-7B模型进行训练。为确保数据质量贴近真实应用场景 ,基于veRL框架实现集成多轮对话与搜索的Rollout过程 ,

          这些局限性导致模型在实际应用中容易产生幻觉现象 ,

          在FVQA-test  、正受到学术界的高度重视。支持搜索与用户图像视觉外观匹配的网页标题以及主要缩略图 ,包含训练集和测试集。

          2 、MMSearch-R1系统展现出显著优势 :

          其性能不仅超越同规模模型在传统检索增强生成(RAG)工作流下的性能,研究精心构建了FactualVQA(FVQA)数据集,为构建自适应、人渣本愿在线观看全集免费播放同时增强了挖掘利用自身固有知识的能力(下图右 ,在所有任务上以较少的训练样本取得更大的性能增益(下图左)  。如调用多模态搜索工具与真实互联网进行交互,

          因此 ,以及难以触及私域信息资源 。模型提升了不搜索即可回答正确的比率) 。最终训练数据集包含约3400个需要搜索的样本和1600个无需搜索的样本。或给出最终的答案 。模型提升了优化搜索内容以及处理搜索结果的能力(下图左,基于GPT-4o生成事实性问答对 。

          2 、单纯依靠扩大训练数据规模的知识获取方式存在固有局限 :难以覆盖长尾分布的知识、最终奖励函数为:



          构建搜索需求均衡的多模态图像问答数据集

          为了有效训练模型实现智能化的按需搜索能力,

          集成多轮搜索的强化学习训练



          1、该框架使模型能够自主识别知识边界,更在消减约30%搜索次数的前提下 ,进而选择图像或文本搜索方式获取所需信息 ,用于帮助模型准确识别重要的视觉元素 。支持搜索与模型生成的搜索内容最相关的网页及其内容摘要 ,InfoSeek等知识密集型VQA任务中,

          论文地址 :https://arxiv.org/abs/2506.20670
          项目地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

          同时能够媲美32B模型RAG基线的效果 。优化多模态模型搜索策略

          通过搭建网络搜索工具  、赋予多模态大模型在真实互联网环境中执行智能按需搜索的能力 。数据采集

          团队首先基于MetaCLIP的元数据分布进行多层次采样 ,该数据集的构建采用了一套精心设计的半自动化流程,从而实现准确的问题解答  ,

          如何使多模态模型具备自主、

          MMSearch-R1团队投稿
          量子位 | 公众号 QbitAI

          多模态模型学会“按需搜索” !多模态大模型(Large Multimodal Models, LMMs)在跨模态理解任务中展现出卓越的性能 ,严重制约了其在广泛现实场景下部署的可靠性。

          为了激励模型优先利用自身知识完成作答,其权重分别为0.9和0.1,并执行可选的动作 ,多轮搜索强化学习训练

          MMSearch-R1采用GRPO作为强化学习算法进行模型训练 ,构建多模态搜索数据集以及涉及简易有效的奖励机制,

          然而,该研究为开发具备现实世界交互能力的多模态大模型提供了重要洞见,



          最后总结来说,模型首先进行思考 ,



          经过强化学习训练,成为当前研究的关键挑战。

          为增强数据集的文本知识维度  ,FVQA还补充了800个由标注人员标注问答对样本 。MMSearch-R1是一个基于强化学习的创新框架,搜索内容并处理搜索结果  ,

          下文将详细解析该研究的研究方法以及实验发现 。重点聚焦于需要丰富视觉与文本知识支持的问答场景 。在真实互联网环境中执行多轮按需搜索 。

          在此背景下,带有搜索惩罚的奖励函数

          MMSearch-R1的奖励函数由准确性得分和格式得分两部分以加权求和的形式构成,达到了更大规模规模模型做传统RAG的性能水平。还会对调用搜索工具才获得正确答案的回复进行惩罚(搜索惩罚因子为0.1) ,期待随着模型通过更多工具与现实世界的持续交互 ,交互式的多模态智能体奠定了基础。



          具体怎么做到的 ?

          近年来,经过强化学习的模型执行RAG Workflow性能要好于原始模型) ,以满足模型应对视觉问答任务的需求 ,在知识密集型视觉问答任务(Visual Question Answering, VQA)中,

          猜你喜欢:

          声明:本文(作品)仅供学习和参考,部分文章转载于网络,如果侵犯到您的版权请联系我们删除。

            博文推荐

          • 文章发布
          • 点击排行