本项目为AI Geeks、澳洲人工智能研究所、利物浦大学、拉筹伯大学的联合事情。
我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有要领大多局限于天生静态幻灯片或文本摘要,而尊龙游戏人生就是博计划突破了这些限制,能够天生高度同步的视觉内容和语音解说,逼真模拟人类气概的演示。
论文问题:PresentAgent: Multimodal Agent for Presentation Video Generation论文地点:https://arxiv.org/abs/2507.04036代码:https://github.com/AIGeeksGroup/PresentAgent
为了实现这一整合,PresentAgent 接纳了?榛鞒,如图 1 所示,包括以下办法:1. 系统性地对输入文档举行分段;2. 妄想并渲染幻灯片气概的视觉;3. 使用大型语言模子与文本转语音模子天生具有上下文的语音解说;4. 最终将音频与视觉内容准确对齐,无缝组合成完整视频。
图 1 PresentAgent 概览。该系统以文档(如网页)为输入,经由以下天生流程:(1)文档处置惩罚、(2)结构化幻灯片天生、(3)同步字幕建设,以及(4) 语音合成。最终输出为一个连系幻灯片和同步解说的演示视频。图中紫色高亮部分体现天生历程中的要害中心输出。
思量到这种多模态输出的评估难度,我们引入了 PresentEval,一个由视觉-语言模子驱动的统一评估框架,从以下三个要害维度周全打分:内容忠实度(Content Fidelity)、视觉清晰度(Visual Clarity)和观众明确度(Audience Comprehension)。
评估接纳基于提醒的方法举行。我们在一个全心整理的包括 30 对「文档-演示」样本的数据集上举行了实验验证,效果批注,PresentAgent 在所有评估指标上靠近人类水平的体现。
这些效果展示了可控多模态智能体在将静态文实质料转化为动态、有用、易获取的演示名堂方面的重大潜力。
尊龙游戏人生就是博主要孝顺如下:
提出新使命:首次提出「文档到演示视频天生」这一新使命,旨在从种种长文本自动天生结构化的幻灯片视频,并配有语音解说。
设计 PresentAgent 系统:提出一个?榛焐蚣,涵盖文档剖析、结构感知幻灯片构建、讲稿天生及音视同步,实现可控、可诠释的视频天生历程。
提出 PresentEval 评估框架:构建一个由视觉语言模子驱动的多维度评估机制,从内容、视觉与明确等维度对视频举行提醒式评分。
构建高质量评测数据集:我们制作了一个包括 30 对真实文档与对应演示视频的数据集。实验和消融研究显示,PresentAgent 不但靠近人类体现,且显著优于现有计划。
演示视频评估基准(Presentation Benchmark)
图 2 我们评估基准中的文档多样性
为了支持文档到演示视频天生的评估,我们构建了一个多领域、多文体的真实比照数据集——Doc2Present Benchmark,其中每对数据都包括一个文档与一个配套的演示视频。差别于以往只关注摘要或幻灯片的基准,尊龙游戏人生就是博数据包括:
商业报告产品手册政策简报教程类文档等
每篇文档均配有人工制作的视频解说,如图 2 所示。
图 3 尊龙游戏人生就是博评测要领框架概览
与 paper2poster 的要领类似,我们设计了一个考试式评估框架,即通过视觉语言模子仅凭证天生视频(幻灯片+解说)回覆内容问题,以模拟观众的明确水平,同时我们还引入人工制作的视频作为参考标准,既用于评分校准,也作为性能上限比照。
该评估框架由两部分组成:
客观考试评估:通过选择题丈量视频转达信息的准确性;主观评分评估:从内容质量、视觉/音频设计与明确清晰度等维度,对视频举行 1–5 分品级评分;这两类指标配合组成了对天生视频的周全质量评估系统,如图 3 所示。
PresentAgent
图 4 PresentAgent 框架概览
本系统以多种类型的文档(例如论文、网页、PDF 等)为输入,遵照?榛奶焐鞒蹋
首先举行提要天生;检索出最适合的幻灯片模板;然后借助视觉-语言模子天生幻灯片息争说文稿;将解说文稿通过 TTS 转换为音频,并合成为完整的演示视频;为了评估视频质量,我们设计了多个维度的提醒语;最后将提醒输入基于视觉语言模子(VLM)的评分?,输出各个维度的指标效果。
为了将长文本文档转化为带口语化解说的演示视频,我们设计了一个多阶段的天生框架,模拟人类准备幻灯片与演讲内容的流程,如图 4 所示。该要领分为四步:
语义分段;结构化幻灯片天生;口语化解说天生;可视与音频组合为同步视频。
该?榛杓浦С挚煽匦浴⒖哨故托院投嗄L云,兼顾高质量天生与细粒度评估。下文将划分先容各?。
实验
我们构建了一个包括 30 个长文档的测试集,每个文档配有人类手工制作的演示视频作为参考。这些文档涵盖教育、产品说明、科研综述与政策简报等主题。
所有天生与人工视频均使用 PresentEval 框架举行评估。由于目今尚无模子可完整评估超 2 分钟的多模态视频,我们接纳分段评预战略:
客观评估阶段:使用 Qwen-VL-2.5-3B 回覆牢靠的多项选择题,评估内容明确;主观评分阶段:提取视频与音频片断,使用 Qwen-Omni-7B 针对内容质量、视觉/听觉质量和明确难度划分打分。
主实验效果
在考试准确率方面,大大都 PresentAgent 的变体与人工基准效果(0.56)相当甚至更优。其中 Claude-3.7-sonnet 取得了最高准确率 0.64,批注天生内容与源文档之间具有较强的一致性。其他模子如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低(0.52),批注在事实对齐方面仍有提升空间。
在主观质量方面,由人类制作的演示仍在视频和音频整体评分上坚持领先。然而,一些 PresentAgent 变体体现出有竞争力的性能。例如,GPT-4o-Mini 在视频内容和视觉吸引力方面获得了最高分(均靠近或抵达 4.8),而 Claude-3.7-sonnet 则在音频质量方面体现最为平衡(均分为 4.53)。
有趣的是,Gemini-2.5-flash 在视觉质量上取得了最高得分(5.0),但在明确性方面较低,这反应了雅观性与清晰度之间的权衡。这些效果突显了我们?榛焐鞒痰挠杏眯,以及统一评估框架 PresentEval 在捕获演示质量多个维度方面的适用价值。
案例剖析
图 5 PresentAgent 自动天生演示视频示例
图 5 体现了一个完整的 PresentAgent 自动天生演示视频示例,其中一篇手艺博客被转化为带解说的演示。系统识别出结构性片断(如小序、手艺诠释等),并为其天生了包括口语气概字幕和同步语音的幻灯片,涵盖了「并行化事情流」、「署理系统架构」等手艺主题,展示了系统在坚持手艺准确性的同时,以清晰、对话式方法转达信息的能力。
《宝贝c我想摸你奶让我揉揉视频》,《w3u7903ejky2ywls》18🈲🈲🈲🈲🈲色AV
“迪丽热巴❌❌吸乳自慰”
朴彩英裸体被❌吸乳
……
07月20日
“体育生黑袜自慰出精🔞”韩网评奥斯卡歧视亚裔
↓↓↓
07月20日,首届黄河流域九省区杂技(魔术)精品展演在呼和浩特启幕,女用吸乳情趣,女性隐私免费观看视频的软件,班长🌿我~慢点~好爽好動漫,女同被❌到爆爽
07月20日,如何享受国家公园红利?三江源国家公园综合施策,千仞雪被狂揉下部拔萝卜,少数民族A片一级毛片,女S调教男m视频,老师掀开裙子让我挺进去18禁
07月20日,学习笔记丨全面依法治国,习近平这些论述掷地有声!,雷电将军爆乳18禁🔞网站,国产a久久㊙️麻豆入口红豆,精品无码久久国产2022,爽好紧别夹宝贝叫大声点h软件
07月20日|关注巴以局势:缺乏干净水 加沙北部民众取水困难|舒淇洗澡大荫蒂|动漫自慰✅免费网站|午夜精品㊙️一区二区三区|一次性色带片黄大片
07月20日|让春运自驾之路更畅通|福瑞18+冲酸奶|又添又吸的蒂免费观看|鸣人张开腿让佐助爽了一夜|体育生爽擼又大又粗的雞巴视频
07月20日|“五一假期”:贵州龙里河大桥引游人|拳交痛哭尖叫|男人的🍌伸到🍑屁股看到的|巨茎挺进美少年体内疯狂冲刺|jk漫画天堂下载头像是粉头cp2app……
07月20日,新华社快讯:据孟加拉国总统办公室6日消息,孟加拉国总统当天宣布解散国民议会,SP趴床脱裙子内裤打屁股小说,91娇喘小舞❌❌⭕⭕白丝,少妇被到爽流自慰多人,ΠOнлайн❤hd72
07月20日,“老”话剧靠什么留住“新”青年,77v7vcc的图片,国产精品㊙️麻豆Tiktok,扒开老师❌狂揉❌电影,🌸🌸精品国产🌸🌸白哲
07月20日|奥沙利文荣膺大师赛八冠王 收获三大赛23冠|黑人粗大长爽久久A片|刻晴被捏胸吃奶摸屁股|Naruto❌sarada18禁无尽|Xsmax大片大全
07月20日,Keep公布2024上半年业绩,营收与月活均增长,亏损大幅收窄,苍月奥特曼网站入口链接,GayFuckGay无套video,欧美18Ⅴdeσsex性欧美,涩助眠⭕在线网站
07月20日,黄埔后人忆杨应彬:他是最后撤离的“特支”成员 一生充满传奇,啊别揉了我快尿喷了纲手,国产➕18➕爽➕不卡,范冰冰无套内射,免费🔞成人❌❌❌结游戏
07月20日,青藏集团公司定制今年首趟专列 助务工人员顺利返乡过年,妈妈鼓蓬蓬的牦户13集,银狼被❌吸乳脱内内漫画,装睡被陌生人揉到高潮,诱奷小箩莉无删减版
07月20日|美军以向胡塞武装提供补给为由扣押一艘帆船|furry Gay Fuck XXXX动漫|曰本人激烈吮乳吃奶头|少妇做爰XXXⅩ性高湖济南AV|魅魔被❌吸乳羞羞动漫
07月20日|闽籍港澳乡贤“深珠座谈会”建言资政|c赵露思的屁股眼|胡桃3D同人18❌羞羞动漫|王者涩涩同人18❌裸体观看|雏田❌❌❌爆🈲🔞
07月20日|澳门:获颁功绩奖状学生感谢政府提供科研平台|亚韩宝库登录入口|敖丙跪趴撅着给人玩弄H小说|一级e片女处苞|动漫美女被❌奶头吸乳游戏
泪之女王,中国科协回应16岁中学生获正高职称|第三届中亚传播论坛举办|国产人妻人伦精品1国产丝袜|骑马羞意知乎|妲己泳装撅着屁股求焯图片|XNXXX👙👙83
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺