欢迎光临pg电子麻将胡了2_pg电子娱乐平台!

新闻中心

主页 > 新闻中心 > 常见问题 >

让多模式“清楚地思考并绘制它”!像香港大学

2025-06-28 10:19

当前,大型多模型模型在基于复杂的文本提示的高诚实,语义上恒定图像的发展方面取得了重大发展,但是在处理包括准确的空间关系,多对象属性和复杂组合的指令时,它们仍然面临着挑战。为此,香港MMLAB大学的研究团队,香港MMLAB大学和Senseime现在已经推出了重要的GOT-R1开发,此前是在先前发布的经营链(GOT)框架之后。通过引入强化研究,新的图可显着提高对视觉生成活动中多模式大型模型的语义空间识别的能力,从而使其超过预定的Templeste,可以独立地探索和学习更好的预防措施。 Got and GoT-R1是完全开放的资源。检索Arxiv:https://arxiv.org/pdf/2503.10639got github:https://github.com/rongyaofang/gotgot-r1 arxiv:https://arxiv.org/pdf/2505.17022got-h1 github:https://github.com/gogoduan首先引入了一个明确的语言推理过程,以计划上语义内容和空间的图像,从而改善图像,从而改善图像,从而改善该图像,从而确保精确的图像,并确保精确地进行映像。但是,获得识别的能力主要源自基于手动指定模板的管理细化数据,在某种程度上,该模型限制了模型的潜力以发现更好的理解技术,有时可能会导致开发的链接用户文本。 GOT-R1提案旨在超过上述限制。它是创新的,将加固研究(RL)的研究应用于理解视觉生成的语义空间过程,提供了独立学习和优化理解道路的能力的模型。比较GOT的理解的预定链链,并在加强研究之后与免费的GOT-R进行比较1的自由理解过程:在为GOT-R1理解基础之前,请​​先“先思考,然后出现”,然后再放置GOT-R1的基础,必须检查获得的基本轮廓。传统的文本到图像模型,例如稳定的扩散,通量等。这通常比面对包含许多生物的复杂文本,准确的说明SA空间和详细的字符描述时的预期少于预期。 GOT框架旨在应对这一挑战,其主要思想是在“首先计划计划”的两个阶段过程中更改“直接生成”模型,然后指导一代”。具体而言,获得了第一个对,并扩展了用户在详细的“产生的思想链”中输入的教学文本(立即)。这种思维链不仅包含现场范围各个元素的语义描述(例如,“现代客厅风格,带有华丽的吊灯”,“框架格拉斯”s“),但还具有图像中这些物体的特定空间坐标信息(例如(613,254),(157,251),(285,519)。随后,这种思想链结合了语义fosterlano和空间布局,以指导其最终图像,以指导图像的一般图像,以至于最终的图像差异,该图像的一致性是该图像的一致性。预先计划。精确世代的推理链。NG强化尽管ADASEDEDGOT在改善复杂情况的产生方面取得了惊人的成果,在很大程度上取决于管理的范式研究,并且提高推理能力受到模板和质量数据标记的数据的限制。 GOT-R1介绍了钢筋的研究,旨在破坏这种瓶颈,并使模型具有更强的独立学习能力和过度概括。 GOT-R1面临的主要挑战之一是为视觉生成活动设计一种全面有效的奖励机制(奖励)。这种机制需要准确评估生成的结果的许多维度:不仅包括语义一致性 - 最终图像和文本文本之间的相同,空间布局的准确性,对象的thecharacteristical的正确密封以及美观图像的整体质量以及更重要的是,它还需要管理“思考链”的质量。他中间要避免在丑陋的过程中陷入丑陋的过程,或者偶然地出现丑陋的过程,或者是偶然的,或意外的是推理,不合理的推理,不合理的推理或不合理的推理不合理的过程或在丑陋的过程或图像中的不合理过程。为此,GOT-R1建立了一个基于MLLM的两个阶段的多维奖励框架,特别包括:1。审查恩典过程的奖励(RPR):语义一致性的奖励(RSEM):使用MLLM检查生成的输入链在上面的链接上是完整的,是否在上语上是完整的。空间对齐奖励(RSPA):这是GOT-R1的主要变化。只要大多数LLMS或MLLM具有文本形式处理数据坐标并直接判断其空间关系的能力有限,T-R1建议渲染在GOT推理链中计划的对象的坐标信息作为视觉IM年龄在虚拟空白画布中包含特定的绑定盒。然后,该图像在MLLM中的输入以进行酌处权,评估显示的空间布局是否对应于与原始文本提示符的空间关系的描述(例如,“ A IS a in B of B”)。 “文本坐标 - 视觉布局 - MLLM评论”的这种变化显着提高了空间关系的信号奖励的准确性和稳定性。 2.保持图像对齐奖励(RRI):旨在确保最终生成的图像可以忠实地在腹部链上进行计划。实现的特定方法是使用MLLM查找在生成图像的识别链中计划的每个对象,并在图像中获取实际密封框。然后,通过计算绑定在一起的计划盒和IMA中实际密封箱之间的联合(iou)的相交来评估与次要链的图像的水平。GE。 3。图像对准奖励中的文本提示(RPI):作为对最终结果的回顾,MLLM全面评估了一致的一致性,并符合生成的图像与来自对象,属性,布局等许多维度的原始输入文本的符合原始输入文本。它们也是仔细设计的多维奖励信号,以及良好的GOT got got got got1(grpo-rpo)研究。 。 GOT-R1模型:ARMLLM增强学习训练示意性地显示出惊人的效果:新的Sotutak-R1有多么有效的效果?研究小组对压倒性的T2I企业进行了全面评估。 T2i-Compbench下的GOT-R1审查量检查将其与当前主要三种模型进行了比较,包括:1)扩散模型(例如稳定的扩散序列,Dalle-3,Flux.1等); 2)由两个阶段引导的模型(例如Ranni,Layoutgpt); 3)其他高级自动回旋模型(例如EMU3,Janus-Pro等)。 Res评论的Ults表明,GOT-R1-7B型号已经在此基准上建立了SOTA的BA Bagong表现。它的强度在许多方面都可以看到:首先,它在六个T2I-COMPCHENCH评论类别(颜色,形状,纹理,非空间特性,复杂组合)中得分最高。尤其是在基准测试中的“复杂”包括混合自然语言组合组成的“复杂”中,GET-R1显示出显着的优势,显示了其在处理复杂性,多层次说明中的效率。更重要的是,该结果清楚地表明了增强研究所带来的改进。在类别中带来的改进。在类别中,诸如纹理和更大的能力的质量可以使自己的最终图像的质量效果,以至于可以使模型的产生'''''''''''''''''准确,诚实地对用户的目标和更清晰的逻辑,这是其在复杂组合活动中成功的关键。

相关推荐

  • 新闻中心

  • 联系我们

    +86-765-4321
    [email protected]
    +86-123-4567
    天朝天堂路99号