北大、腾讯推出ReVideo：通过动作和内容精确编_必发88游戏登录-bifa必发·唯一中国官方网站

必发88游戏登录

about Yunda technology

必发88游戏登录北大、腾讯推出ReVideo：通过动作和内容精确编

发布时间： 2024-06-01 09:09:20 来源：bifa必发唯一官网主页作者：bifa必发·唯一中国官方网站

　　或点击“阅读原文”，获取「2024 必读大模型论文」合集（包括日报、周报、月报，持续更新中～）。

　　最近的研究提出了线性表征假说：语言模型通过操作激活空间中概念（“特征”）的一维表征来执行计算。与此相反，来自麻省理工学院（MIT）的研究团队探讨了某些语言模型表征是否可能本质上是的。

　　他们首先为不可还原的特征下了一个严格的定义，该定义基于这些特征是否可以分解为独立或不共存的低维特征。受这些定义的启发，他们设计了一种可扩展的方法，利用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的特征。这些自动发现的特征包括可解释示例，例如代表星期和月份的 circular 特征。他们确定了一些任务，在这些任务中，这些精确的 circular 被用来解决涉及一周中的天数和一年中的月份的模块运算问题。最后，通过对 Mistral 7B 和 Llama 3 8B 的干预实验，他们证明这些 circular 特征确实是这些任务中的基本计算单元。

　　来自魏茨曼科学研究所、英特尔和麻省理工学院（MIT）的研究团队提出了一种新颖的分布式推理算法——分布式推测推理（DSI），与推测推理（SI）和传统的自回归推理（non-SI）相比，其推理速度更快。与其他自回归推理算法一样，DSI 在冻结的 LLM 上工作，不需要训练或架构修改，并能保留目标分布。

　　之前关于 SI 的研究表明，与 non-SI 相比，DSI 算法的经验速度有所提高，但这需要快速、准确的起草 LLM。在实践中，现成的 LLM 通常不具备足够快速和准确的匹配起草器。他们发现：当使用速度较慢或准确度较低的起草员时，SI 的速度会比非 SI 慢。他们通过证明 DSI 在使用任何起草器的情况下都比 SI 和 non-SI 更快，弥补了这一差距。通过协调目标和起草器的多个实例，DSI 不仅比 SI 更快，而且还支持 SI 无法加速的 LLM。仿真显示，在现实环境中，现成的 LLMs 的速度都有所提高：DSI 比 SI 快 1.29-1.92 倍。

　　尽管在利用扩散模型生成和编辑视频方面取得了重大进展，但实现精确的本地化视频编辑仍是一项巨大挑战。此外，现有的大多数视频编辑方法主要集中在改变视觉内容上，对动作编辑的研究十分有限。

　　在这项研究中，来自北京大学和腾讯的研究团队及其合作者，提出了一种新颖的“重塑视频”（ReVideo）尝试，通过指定内容和动作，在特定区域进行精确的视频编辑。内容编辑通过修改第一帧来实现，而基于轨迹的动作控制则提供了直观的用户交互体验。ReVideo 解决了内容和动作控制之间的耦合和训练不平衡问题。为了解决这个问题，他们开发了一种三阶段训练策略，从粗到细逐步解耦这两个方面。此外，他们还提出了一个时空自适应融合模块，以整合不同采样步骤和空间位置的内容和动作控制。

　　广泛的实验证明，ReVideo 在几种精确的视频编辑应用中具有良好的性能，即：1）局部改变视频内容，同时保持动作不变；2）保持内容不变，同时定制新的动作轨迹；3）同时修改内容和动作轨迹。该方法还可以无缝地将这些应用扩展到多区域编辑，而无需特定的训练，这证明了它的灵活性和鲁棒性。

　　GPT-4V 等预训练视觉语言模型（VLM）具有突出的场景理解和推理能力，因此在机器人任务规划中受到越来越多的关注。与传统的任务规划策略相比，视觉语言模型在多模态信息解析和代码生成方面具有很强的优势，并显示出显著的效率。虽然 VLM 在机器人任务规划中展现出巨大潜力，但它也面临着幻觉、语义复杂性和上下文有限等挑战。

　　为了解决这些问题，来自复旦大学的研究团队提出了一种多智能体框架——GameVLM，从而增强机器人任务规划中的决策过程。该研究提出了基于 VLM 的决策智能体和专家智能体来执行任务规划。具体来说，决策智能体用于规划任务，专家智能体用于评估这些任务计划。研究引入了零和博弈理论来解决不同智能体之间的不一致性，并确定最佳解决方案。在真实机器人上进行的实验结果表明，所提出的框架非常有效，平均成功率高达 83.3%。

　　多模态大型语言模型（MLLM）被广泛认为是探索通用人工智能（AGI）的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标，目前的 MLLM 通常采用两阶段训练模式：预训练阶段和指令微调阶段。

　　尽管这些模型取得了成功，但在对齐能力建模方面仍存在不足。首先，在预训练阶段，模型通常假定所有图像-文本对都是统一对齐的，但实际上不同图像-文本对之间的对齐程度并不一致。其次，目前用于微调的指令包含多种任务，不同任务的指令通常需要不同程度的对齐能力，但以往的 MLLM 忽视了这些差异化的对齐需求。

　　为了解决这些问题，来自学的研究团队提出了一种新的多模态大型语言模型——AlignGPT。在预训练阶段，他们并不是对所有图像-文本对一视同仁，而是为不同的图像-文本对分配不同级别的对齐能力。然后，在指令微调阶段，他们自适应地组合这些不同级别的对齐能力，以满足不同指令的动态对齐需求。广泛的实验结果表明，AlignGPT 在 12 个基准测试中取得了具有竞争力的性能。

　　近来，在视频中生成定制内容受到越来越多的关注。然而，现有工作主要集中在为单个主体生成定制的文本到视频，当视频预计包含多个主体时，就会出现主体缺失和属性绑定问题。此外，现有模型难以将所需的动作分配给相应的主体（动作绑定问题），因此无法实现令人满意的多主体生成性能。

　　为了解决这些问题，来自清华大学的研究团队提出了一个新颖的框架 DisenStudio，其可以在每个主体只有少量图像的情况下，为定制的多个主体生成文本引导视频。

　　具体来说，DisenStudio 利用空间分离交叉注意机制增强了基于扩散的预训练文本到视频模型，从而将每个主体与所需的动作联系起来。然后，利用运动保留分离微调技术为多个主体定制模型，其中包括三种微调策略：多主体共现微调、屏蔽单主体微调和多主体运动保留微调。前两种策略能保证主体出现并保留其视觉属性，第三种策略则能帮助模型在对静态图像进行微调时保持时间运动生成能力。

　　大量实验证明，DisenStudio 在各种指标上都明显优于现有方法，可用作各种可控生成应用的强大工具。

　　世界模型是一种很有前途的方法，可用于以安全、样本效率高的方式训练强化学习智能体。最新的世界模型主要通过离散潜变量序列来模拟环境动态。然而，这种压缩为紧凑的离散表示法可能会忽略对强化学习非常重要的视觉细节。与此同时，扩散模型已成为图像生成的主流方法，对离散潜变量建模的成熟方法提出了挑战。

　　在这一模式转变的推动下，来自日内瓦大学、爱丁堡大学和微软的研究团队推出了 DIAMOND（DIffusion As a Model Of eNvironment Dreams），这是一种在扩散世界模型中训练的强化学习智能体。

　　他们分析了使扩散适合世界建模所需的关键设计选择，并演示了改进视觉细节如何提高智能体性能。在竞争激烈的 Atari 100k 基准测试中，DIAMOND 获得了 1.46 的人类标准化平均分；这是完全在世界模型中训练的智能体的新最佳成绩。

　　键值（KV）缓存在加速基于 Transformer 的自回归大型语言模型（LLM）的解码过程中发挥着至关重要的作用。然而，在序列长度较长、批量较大的情况下，存储 KV 缓存所需的内存量可能会变得过大。

　　自 Transformer 被提出以来，为减少 KV 缓存大小而发现的两种最有效的干预措施是多查询注意力（MQA）和分组查询注意力（GQA）。MQA 和 GQA 都修改了注意力块的设计，使多个查询头可以共享一个键/值头，从而将不同键/值头的数量减少了一大截，同时只将准确性降低到最低程度。

　　在这项工作中，来自麻省理工学院（MIT）的研究团队展示了通过在相邻层之间共享键和值头，进一步推进 MQA 的可能性，从而产生一种新的注意力设计——跨层注意力（CLA）。通过 CLA，他们发现可以将 KV 缓存的大小再减少 2 倍，同时保持与未修改 MQA 几乎相同的准确性。在从头开始训练 1B 参数和 3B 参数模型的实验中，CLA 在传统 MQA 的内存/准确率权衡上提供了帕累托改进，使推理的序列长度更长、batch 规模更大，这在其他情况下是不可能实现的。

　　元认知知识是指人类对自身思维和推理过程的直观认识。当今的大型语言模型（LLMs）显然拥有一些推理过程。来自这篇论文的证据表明，LLMs 还拥有元认知知识，包括在给定任务中说出应用技能和程序的能力。

　　来自蒙特利尔大学、Google DeepMind、普林斯顿大学和剑桥大学的研究团队，主要从数学推理的角度探讨了这一问题，开发了一个 prompt 引导的交互程序，让强大的 LLM 为数学问题分配合理的技能标签，然后让它进行语义聚类，从而获得更粗略的技能标签系列。这些粗略的技能标签在人类看来是可以解释的。

　　为了验证这些技能标签是否有意义，是否与 LLM 的推理过程相关，他们进行了以下实验：1）要求 GPT-4 为数学数据集 GSM8K 和 MATH 中的训练题分配技能标签；2）在使用 LLM 解决测试题时，向它提供完整的技能标签列表，并要求它识别所需的技能，然后，他们会随机向它展示与该技能标签相关的示范解题。

　　这种方法提高了 GSM8k 和 MATH 上几种 LLM（包括代码辅助模型）的准确性。尽管本文将其应用于数学问题，但所介绍的方法与领域无关。

　　在各种机器人数据集上预先训练的大型策略有可能改变机器人的学习方式：这种通用型机器人策略无需从头开始训练新策略，只需少量域内数据即可进行微调，具有广泛的通用性。然而，为了广泛适用于各种机器人学习场景、环境和任务，这些策略需要处理不同的传感器和行动空间，适应各种常用的机器人平台，并根据新领域随时高效地进行微调。

　　在这项工作中，来自 UC 伯克利、斯坦福、卡内基梅隆大学和 Google DeepMind 的研究团队及其合作者旨在为开发开源、广泛适用的机器人操纵通用策略奠定基础。作为第一步，他们提出了一种基于 transformer 的大型策略——Octo，这是在迄今为止最大的机器人操纵数据集 Open X-Embodiment 数据集中的 800k 个轨迹上训练出来的。它可以通过语言命令或目标图像进行指导，并可在标准消费级 GPU 上进行有效微调，从而适应具有新的感官输入和动作空间的机器人设置。

　　在跨越 9 个机器人平台的实验中，Octo 被证明是一种多功能策略初始化工具，可根据新的观察和行动空间进行有效微调。他们还对 Octo 模型的设计决策（从架构到训练数据）进行了详细分析，从而指导未来建立通用机器人模型的研究。

　　随着大型语言模型（LLMs）通过 scaling laws 不断增长，基于人类反馈的强化学习（RLHF）因其出色的性能而备受关注。然而，与单个模型的预训练或微调不同，扩展 RLHF 来训练大型语言模型，对四种模型的协调提出了挑战。

　　来自 OpenLLMAI、字节跳动、网易、阿里的研究团队提出了是一个可实现 RLHF 高效扩展的开源框架——OpenRLHF。

　　现有的 RLHF 框架将四个模型放在同一个 GPU 上，与此不同，OpenRLHF 利用 Ray、vLLM 和 DeepSpeed 重新设计了超过 70B 参数的模型调度，提高了资源利用率并采用了多种训练方法。OpenRLHF 与 Hugging Face 无缝集。

必发88游戏登录
上一篇：直击现场！GOSIM Workshop 第二天精彩下一篇：浙大新推的这个“双学士学位项目”打造大数据时代紧缺