猫眼电影
猫眼电影记者 郭寿宝 报道P6F9A2Y5R3B1T0V4X8W
机器之心报道
编辑:杜伟、王佳琳
去年初,OpenAI 的视频生成模型 Sora 带火了扩散模型。
如今,扩散模型被广泛用于生成图像和视频,并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲,与自回归模型相比,扩散模型具有加速生成和提高模型输出可控性的潜力。
目前,离散扩散模型目前面临至少三个限制。首先,在聊天系统等应用中,模型必须生成任意长度的输出序列(例如对用户问题的回答)。但是,大多数最新的扩散架构仅能生成固定长度的向量。其次,离散扩散模型在生成过程中使用双向上下文,因此无法使用 KV 缓存重用以前的计算,这会降低推理效率。第三,以困惑度等标准指标衡量的离散扩散模型,质量落后于自回归方法,进一步限制了其适用性。
本文中,来自 Cornell Tech、斯坦福大学、Cohere 的研究者提出通过块离散去噪扩散语言模型(Block Discrete Denoising Diffusion Language Models,BD3-LMs)来解决以上限制,该模型在扩散和自回归模型之间进行插值。
具体来讲,块扩散模型(也是半自回归模型)定义了离散随机变量块的自回归概率分布,而给定先前块的条件概率由离散去噪扩散模型指定。
论文标题:Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models论文地址:https://arxiv.org/pdf/2503.09573项目主页:https://m-arriola.com/bd3lms/
下图为 Block Diffusion 与自回归、扩散模型的生成效果对比:
研究者表示,开发有效的 BD3-LM 面临以下两个挑战:一是使用神经网络的一次标准前向传递无法有效地计算块扩散模型的训练目标,需要开发专门的算法。二是扩散目标梯度的高方差阻碍了训练,导致 BD3-LM 即使在块大小为 1 的情况下(当两个模型等效时)也表现不佳。
因此,研究者推导出梯度方差的估计量,并证明它是自回归和扩散之间困惑度差距的关键因素。然后,他们提出了自定义噪声过程,以实现最小化梯度方差并进一步缩小困惑度差距。
实验部分,研究者在多个语言建模基准上评估了 BD3-LM,并证明它们能够生成任意长度的序列,包括超出其训练上下文的长度。此外,BD3-LM 在离散扩散模型中实现了新的 SOTA 困惑度。与对嵌入进行高斯扩散的替代半自回归方法相比,本文离散方法实现了易于处理的似然估计,并在少一个数量级生成步骤的情况下,生成的样本在困惑度方面得到了改进。
论文一作 Marianne Arriola 发推称,扩散语言模型在并行文本生成领域正在崛起,但与自回归模型相比,它们存在质量、固定长度限制和缺乏 KV 缓存等问题。本文 Block Diffusion 将自回归和扩散模型结合了起来,实现了两全其美。
BD3-LMs 模型概览
研究者结合建模范式,从自回归模型中获得更好的似然估计和灵活的长度生成,并从扩散模型中获得了快速的并行生成效果。
块扩散似然
研究者提出了一个建?蚣埽每蚣芏 token 块进行自回归建模,并在每个块内执行扩散操作。他们对长度为 L′ 的 B 个块进行似然分解,如下所示:
每个 pθ(x^b|x^
研究者使用简单的离散扩散参数化对每个块的似然进行建模,最终目标是对交叉熵项进行加权总和:
高效的训练与采样算法
理解扩散模型与自回归模型之间的似然差距
案例研究:单 Token 生成
该研究中的块扩散参数化在期望上等同于自回归负对数似然 (NLL),特别是在 L′=1 的极限情况下。令人惊讶的是,当在 LM1B 数据集上训练两种模型时,研究发现块扩散模型 (L′=1) 与自回归模型之间存在两点困惑度差距。研究确定扩散目标的高训练方差是导致这一困惑度差距的原因。
在离散扩散 ELBO 下进行训练时,存在高方差。
高方差训练导致的扩散差距
实验结果
似然评估
BD3-LMs 在扩散模型中实现了最先进的似然水平。研究表明,通过调整块长度 L′,BD3-LMs 可以在扩散和自回归似然之间实现插值。
在 OWT 上测试针对 262B 标记训练的模型的困惑度 (PPL; ↓)。
任意长度序列生成
许多现有扩散语言模型的一个主要缺点是,它们无法生成超过训练时选择的输出上下文长度的完整文档。例如,OpenWebText 包含最长达 131K tokens 的文档,而离散扩散模型 SEDD(Lou 等人)仅限于生成 1024 tokens。研究表明,BD3-LMs 能够通过解码任意数量的块来生成可变长度的文档。
从在 OWT 上训练的模型中抽样 500 个文档得出的生成长度统计信息。
研究者评估了 BD3-LMs 在变长序列上的生成质量,使用相同数量的生成步骤(NFEs)比较了所有方法。他们用 GPT2-Large 模型测量生成序列的困惑度。结果表明,与之前所有的扩散方法相比,BD3-LMs 实现了最佳的生成困惑度。
300 个可变长度样本的生成困惑度 (Gen. PPL;↓) 和功能评估次数 (NFE;↓)。所有模型都在 OWT 上进行训练,上下文长度为 L = 1024,并使用核采样。
对于 MDLM,研究者使用了其分块解码技术(该技术不同于 BD3-LMs 中的分块扩散训练)处理 L=2048 的序列。研究者还与 SSD-LM(Han 等人提出)进行了比较,后者是一种替代性的分块自回归方法(也称为半自回归),它对词嵌入执行高斯扩散,但无法进行似然估计。该研究的离散方法使用比其他方法少一个数量级的生成步骤,产生了具有更好生成困惑度的样本。
更多细节请参阅原论文。
??时事1:极品野花社区少妇s
??03月18日,国家移民管理局:预计春节前后全国各出入境口岸将迎来客流高峰,
它力压火麟、雷鸟、凶蛟,无情镇杀,凶威不可阻挡!
,AV在线影库。??03月18日,北极寒流来袭 美国多地遭遇创纪录低温,
“呀,难道是一头恶魔猿,且还是血统极其高贵的王者,否则不会长出能飞天的魔翼!”小不点吃惊的张圆了小嘴。
,客厅享受的两小时,91抖音app网站,欧美一级婬片按摩。??时事2:永久免费不收费的软件APP6
??03月18日,今天,一键开启“青年模式”,
“可耻的小贼!”紫衣少衣袂飘飘,凌空而渡,宛若广寒宫的仙子降世,说不出的出尘与圣洁,一路追击。
,先锋影音官网,一级毛片A片又大又长,坐地铁被c了怎么办视频。??03月18日,龙年春节怎么过?吃喝玩乐跨越南北,
消防安全国旗下精彩 篇3
,八尺大人和小孩一起打扑克,一级特级黄啪啪久,9191视频网。??时事3:研究院隐藏进入一二三四
??03月18日,法律顾问在身边:被策反参与间谍活动,要受什么处罚?,
一群人目瞪口呆,竟然真的成功了!
,噜一噜黄色视频,拉菲8娱乐麻7IIII2扣不错,91av网址在线。??03月18日,香港投资推广署:香港正形成体育产业生态圈 冀吸引更多企业落户,
安全,对于大家来说,真算是一个永恒的话题。在家里,爸爸妈妈天天说:要怎样怎样,不能怎样怎样;在学校里,校长经常在广播里强调,老师经常在教室里灌输。总之,安全教育也是无处不在。其实对于人类来说,安全永远是一个至关重要的话题,无论是谁,都应该爱惜生命,在日常生活中了解一些保护生命安全的最基本常识。
,国产精品亚洲а∨天堂2021,好痛你太大了两根装不下,奇米777狠狠888俺也去。??时事4:女式开襟式网站
??03月18日,长沙降雪 企鹅与北极狐外出“撒欢”,
三是推行行政区划调整和管理体制改革。要完善城市管理体制,健全管理机制,统一管理标准,合理划分管理辖区,明确管理服务职能,激活城市管理基层细胞,实施精细管理。加快整合行政区划,设立新的街道办事处,逐步改变城乡混杂、辖区交叉、管理不便的现状。规划和引导社区建设,培育社区组织,逐步建立完善的社区管理和服务体系,提升城市综合管理水平。
,国产精品日本亚洲欧美,18🈲️看,啊啊啊好大好爽男人女人床。??03月18日,中新真探:“湿头发睡觉会引发癌症”系误读,
教育学生扫墓时要安全用火,不玩火、不乱放火,做好防火措施,以免引起森林火灾。如果发生森林火灾,要及时通知有关部门或拨打火灾报警电话,火灾报警电话是119。严禁动员组织学生参加森林火灾扑救工作,以免发生不必要的人身伤亡事故。
,久久精品产亚洲,原神人物黄化网站资源,婚前调教日常(H)。责编:李凡秀
审核:刘佳
责编:郑某华
全网关注!加油后逃单的保时捷男司机落网了
极目新闻
小步快跑式升温来了 下周京津冀鲁豫一带或入春
央视新闻客户端
男子花万元买“绝密上岸卷”,却一题未押中 律师:涉事公司或涉及虚假宣传等多个法律问题
大皖新闻客户端
海关发布:“海关将对进口煤炭实施延迟检查”为不实信息
@海关发布
孙颖莎夺得WTT重庆冠军赛女单冠军
人民日报客户端
低空消费被纳入提振消费行动方案,传递了哪些信号
澎湃新闻
“花”样觅春光 山东等地正上演缤纷的花海盛宴
央视新闻客户端
既不给赔也不给退 少儿医疗保险套路调查
法治日报
育儿补贴谁能领、领多少 已有23地在不同层级探索实施相关政策
人民日报
东方甄选回应“保水虾仁”:代工厂严格筛选,自营青虾仁不添加保水剂
澎湃新闻