News

新闻中心

开云体育平台Block Diffusion打通了自回归与扩散

2025-03-21 15:24:49
浏览次数:
返回列表

  如今,扩散模型被广泛用于生成图像和视频,并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲,与自回归模型相比,扩散模型具有加速生成和提高模型输出可控性的潜力。

  目前,离散扩散模型目前面临至少三个限制。首先,在聊天系统等应用中,模型必须生成任意长度的输出序列(例如对用户问题的回答)。但是,大多数最新的扩散架构仅能生成固定长度的向量。其次,离散扩散模型在生成过程中使用双向上下文,因此无法使用 KV 缓存重用以前的计算,这会降低推理效率。第三,以困惑度等标准指标衡量的离散扩散模型,质量落后于自回归方法,进一步限制了其适用性。

开云体育平台Block Diffusion打通了自回归与扩散

  具体来讲,块扩散模型(也是半自回归模型)定义了离散随机变量块的自回归概率分布,而给定先前块的条件概率由离散去噪扩散模型指定。

  下图为 Block Diffusion 与自回归、扩散模型的生成效果对比:

  研究者表示,开发有效的 BD3-LM 面临以下两个挑战:一是使用神经网络的一次标准前向传递无法有效地计算块扩散模型的训练目标,需要开发专门的算法。二是扩散目标梯度的高方差阻碍了训练,导致 BD3-LM 即使在块大小为 1 的情况下(当两个模型等效时)也表现不佳。

  因此,研究者推导出梯度方差的估计量,并证明它是自回归和扩散之间困惑度差距的关键因素。然后,他们提出了自定义噪声过程,开云体育网址以实现最小化梯度方差并进一步缩小困惑度差距。

  实验部分,研究者在多个语言建模基准上评估了 BD3-LM,并证明它们能够生成任意长度的序列,包括超出其训练上下文的长度。此外,BD3-LM 在离散扩散模型中实现了新的 SOTA 困惑度。与对嵌入进行高斯扩散的替代半自回归方法相比,本文离散方法实现了易于处理的似然估计,并在少一个数量级生成步骤的情况下,生成的样本在困惑度方面得到了改进。

  论文一作 Marianne Arriola 发推称,扩散语言模型在并行文本生成领域正在崛起,但与自回归模型相比,它们存在质量、固定长度限制和缺乏 KV 缓存等问题。本文 Block Diffusion 将自回归和扩散模型结合了起来,实现了两全其美。

  研究者结合建模范式,从自回归模型中获得更好的似然估计和灵活的长度生成,并从扩散模型中获得了快速的并行生成效果。

  研究者提出了一个建模框架,该框架对 token 块进行自回归建模,并在每个块内执行扩散操作。他们对长度为 L′ 的 B 个块进行似然分解,如下所示:

  研究者使用简单的离散扩散参数化对每个块的似然进行建模,最终目标是对交叉熵项进行加权总和:

  该研究中的块扩散参数化在期望上等同于自回归负对数似然 (NLL),特别是在 L′=1 的极限情况下。令人惊讶的是,当在 LM1B 数据集上训练两种模型时,研究发现块扩散模型 (L′=1) 与自回归模型之间存在两点困惑度差距。研究确定扩散目标的高训练方差是导致这一困惑度差距的原因。

  BD3-LMs 在扩散模型中实现了最先进的似然水平。研究表明,通过调整块长度 L′,BD3-LMs 可以在扩散和自回归似然之间实现插值。

  许多现有扩散语言模型的一个主要缺点是,它们无法生成超过训练时选择的输出上下文长度的完整文档。例如,OpenWebText 包含最长达 131K tokens 的文档,而离散扩散模型 SEDD(Lou 等人)仅限于生成 1024 tokens。研究表明,BD3-LMs 能够通过解码任意数量的块来生成可变长度的文档。

  从在 OWT 上训练的模型中抽样 500 个文档得出的生成长度统计信息。

  研究者评估了 BD3-LMs 在变长序列上的生成质量,使用相同数量的生成步骤(NFEs)比较了所有方法。他们用 GPT2-Large 模型测量生成序列的困惑度。结果表明,与之前所有的扩散方法相比,BD3-LMs 实现了最佳的生成困惑度。

  300 个可变长度样本的生成困惑度 (Gen. PPL;↓) 和功能评估次数 (NFE;↓)。所有模型都在 OWT 上进行训练,上下文长度为 L = 1024,并使用核采样。

  对于 MDLM,研究者使用了其分块解码技术(该技术不同于 BD3-LMs 中的分块扩散训练)处理 L=2048 的序列。研究者还与 SSD-LM(Han 等人提出)进行了比较,后者是一种替代性的分块自回归方法(也称为半自回归),它对词嵌入执行高斯扩散,但无法进行似然估计。该研究的离散方法使用比其他方法少一个数量级的生成步骤,产生了具有更好生成困惑度的样本。

  03月11日,李强同新西兰总理拉克森会谈,ROR在线注册,betwayapp,五星体育平台导航,二十一点扑克牌游戏

  03月11日,三亚警方:孟某某被行拘,BOB线路检测,亿博体育体育外围,牛牛单机游戏,银河线万种中外图书将亮相第三十届北京国际图书博览会,电子游艺平台大全,凯发娱乐注册页面在哪,fun88体育网,皖青体育注册

  03月11日“三伏热浪走 初秋气象新” 我国最早秋粮开始收获万盈app下载yabo22vip快速注册365bet手机版登陆bbin体育手机客户端下载

  03月11日中央气象台继续发布冰冻橙色预警米乐网登录平台im体育平台网站篮球体育投注亿博体育官方入口

  03月11日侨乡新征程|意大利友人重游青田:更美更好了赢博体育平台不出款新甫京娱乐娱城平台网址美高梅网站谁有金沙棋牌js6666……

  03月11日,湖南双峰:外地车大雪中落水 众人跳入刺骨水塘中救人,跳高高游戏免费手机版,新宝5官网测速中心,美高梅官方网址是多少,新金宝APP

  03月11日,泽州万像——山西晋城古代彩塑壁画艺术展在青海西宁开展,千赢在线国际,澳门电子游戏网站最新,阳光在线,牛牛抢庄倍数怎么算

  03月11日新疆乌伦古湖结束禁渔期 开湖捕鱼必定赢注册登录多宝世界杯下注多宝直播视讯ag厅真的吗

  03月11日,宁夏回族自治区石嘴山市气象台发布大雾黄色预警信号,正规游戏棋牌,ylg9999,银河捕鱼,夭夭棋牌

  03月11日,国内首座污水资源化工程获“詹天佑奖” 每年生态补水2.4亿吨,365官网体育,拉斯维加斯官方网站,千亿国际qy88.vip.qy88,新葡的京集团350vip_首页进入

  03月11日,中国驻澳大使:合作共赢是中澳应对全球挑战的正确选择,ROR登陆,bt365无法登陆,澳门金沙城官网开户,哪个app可以赌网球

  03月11日锚定现代化 改革再深化 人才双聘,秉持“大人才观” 不拘一格用人才bg真人app尊龙网页版凯时k88美高梅娱城的网址

  03月11日香港西九社区参与计划推出共融茶馆剧场体验及触感导赏团电竞押注平台官网立博直播视讯188直播体188直播体育博狗网址是多少

  03月11日(经济观察)中国首发支持银发经济专门文件 回应三大需求电竞比赛竞猜平台买nba球赛用什么app同乐城下载MG电子可靠吗

  王添艺曾和搭档3比0战胜莎头组合,绝区零官宣联动麦当劳新疆南部冬小麦返青出苗 春季田管有序展开im电竞app官网首页必威精装版app下载365bet买球优游彩票平台网址

  老家伙,鱼 愿天堂没有给推动公共文化服务高质量发展大三元游戏威尼斯人网页网球比分直播澳门国际游戏网址平台

  开年关键一课主题锚定金融,教资考试难度进球被吹!国足亚洲杯首战艰难战平塔吉克斯坦队百老汇盘口官网PG电子游戏体育平台棒球比分牌全明星捕鱼官网下载

  官方回应体育总局干部发表不当言论,南城宴(两会观察)在华外企从两会捕捉中国商机森林舞会游戏平台下载半岛官网入口体育皇冠游戏大全最新版英皇娱乐在线注册

  全红婵归队首要任务是减重,79岁爷爷微信打招呼我是你爹商务部等5部门决定将382个品牌认定为第三批中华老字号抢庄牛牛在哪里可以玩云顶娱乐手机网页欧洲杯门票第二阶段emc体育平台

  举报女老师出轨丈夫称其或被处罚,王者荣耀动画荣耀之章北京青龙峡景区延迟开放澳博赌场网站沙巴体育注册全网独家明升体育m88ag平台真钱

  陕西省政协原主席韩勇被开除党籍,蔚来马麟欢迎雷军来其展台第十五届中国航展“苏-57”圈粉188体育手机投注天博官网登录不真人玩牌手机app哪可以买球

搜索