最新头条|女生拉裸体被❌涩涩免费_社会新闻

首页 >新闻 >社会新闻

一键实现PPT演讲自由！「解说音频+视频」同步天生，效果迫近真人

2025-07-24 07:13:14

泉源：

猫眼影戏

作者：

伍湘湘

手机审查

　　猫眼影戏记者管-阿里巴巴报道w3u7903ejky2ywls

新智元报道

编辑：LRST

【新智元导读】PresentAgent可以把论文、报告等长文档一键酿成带真人语音和同步幻灯片的演示视频，流程像人写提要、做PPT、录音并合成。实验使用30份文档与人工视频比照测试，PresentAgent在内容准确、视觉清晰和观众明确上都靠近人类水准，可帮先生、商务人士省去大宗做PPT和录音的时间。

演示是一种普遍使用且行之有用的信息转达方法。通过连系视觉元素、结构化的解说和口头诠释，它能够使信息逐步睁开，从而让差别受众更容易明确。

只管效果显著，但将长篇文档（如商业报告、手艺手册、政策简报或学术论文）制作成高质量演示视频通常需要泯灭大宗人工精神。

这个历程涉及内容筛选、幻灯片设计、讲稿撰写、语音录制，以及将所有内容整合成一个连贯的多模态输出。

只管近年来AI在文档转幻灯片和文本转视频等领域取得希望，但仍保存一个要害问题：这些要领要么只能天生静态的视觉摘要，要么仅能输出无结构的通用视频片断，难以胜任需要结构化讲述的演示使命。

为填补这一空缺，澳大利亚人工智能研究所、英国利物浦大学的研究职员提出了一个新使命：文档到演示视频天生（Document-to-Presentation Video Generation），旨在自动将结构化或非结构化文档转化为配有语音解说和同步幻灯片的视频演示。

论文链接：https://arxiv.org/pdf/2507.04036

代码链接：https://github.com/AIGeeksGroup/PresentAgent

该使命的挑战远超古板的摘要或文本转语音系统，由于它需要选择性内容笼统、基于结构的视觉妄想，以及视觉与语音的准确多模态对齐。

图1：PresentAgent 概览。该系统以文档（如网页）为输入，经由以下天生流程：（1）文档处置惩罚、（2）结构化幻灯片天生、（3）同步字幕建设，以及（4)语音合成。最终输出为一个连系幻灯片和同步解说的演示视频。图中紫色高亮部分体现天生历程中的要害中心输出

图2：评估基准中的文档多样性

与以往只关注静态幻灯片/图像天生或简单语音摘要的要领差别，研究职员的目的是构建一个完整集成的视频体验，模拟现实中人类演讲者的信息转达方法。

图3：要领框架概览

上图左侧给定多样的输入文档（如论文、网站、博客、幻灯片或 PDF），PresentAgent 能天生带解说的演示视频，输出为同步的幻灯片和音频。

右侧设计了PresentEval，一个双路径的评估框架：

（1）客观考试评估（上），通过 Qwen-VL 举行事实明确检测；

（2）主观打分评估（下)，借助视觉-语言模子从内容质量、视觉设计与语音明确等维度举行评分。

为应对上述挑战，研究职员提出了一个？榛焐蚣堋狿resentAgent，如图1所示。

其流程包括：

将输入文档语义分块（通过纲要妄想）；

为每个语义块天生具有结构指导的幻灯片视觉内容；

将要害信息重写为口语化解说文本；

语音合成后，与幻灯片举行时间同步，最终天生一个结构优异、解说清晰的视频演示。

值得一提的是，整个流程具有可控性和领域顺应性，适用于多种文档类型和演示气概。

为有用评估此类重大多模态系统，研究职员整理了一个涵盖教育、金融、政策与科研等多个领域的30组人工制作的文档-演示视频对的测试集。

同时，研究职员设计了一个双路径评预战略：

一方面使用牢靠选择题测试内容明确；

另一方面通过视觉语言模子打分，评估视频的内容质量、视觉泛起与观众明确水平。

实验效果批注，该要领天生的视频流通、结构合理、信息充分，在内容转达和观众明确方面靠近人类体现。

这批注将语言模子、视觉结构天生与多模态合成连系，能够实现可诠释、可扩展的自动演示天生系统。

主要孝顺如下：

提出新使命：首次提出“文档到演示视频天生”这一新使命，旨在从种种长文本自动天生结构化的幻灯片视频，并配有语音解说。

设计PresentAgent系统：提出一个？榛焐蚣，涵盖文档剖析、结构感知幻灯片构建、讲稿天生及音视同步，实现可控、可诠释的视频天生历程。

提出PresentEval评估框架：构建一个由视觉语言模子驱动的多维度评估机制，从内容、视觉与明确等维度对视频举行提醒式评分。

构建高质量评测数据集：制作了一个包括30对真实文档与对应演示视频的数据集。实验和消融研究显示，PresentAgent不但靠近人类体现，且显著优于现有计划。

演示视频评估基准

该基准不但评估视频的流通性与信息准确性，还支持对观众明确水平的评估。

借鉴Paper2Poster的要领，研究职员设计了一个考试式评估，即通过视觉语言模子仅凭证天生视频（幻灯片+解说）回覆内容问题，以模拟观众的明确水平。

研究职员还引入人工制作的视频作为参考标准，既用于评分校准，也作为性能上限比照。

如图2所示，基准涵盖四种代表性文档类型（学术论文、网页、手艺博客和幻灯片），均配有真实人工解说视频，笼罩教育、科研、商业报告等多种真实领域。

示例：客观考试评估（Objective Quiz Evaluation）

客观考试评估中的提醒样例，每组选择题均基于源文档真实内容手动设计，重点考察主题识别、结构明确与焦点看法提取能力，用于评估天生视频是否有用转达原始信息。

示例：主观评分维度（Subjective Scoring Prompts）

主观评分提醒示例，其中每项提醒关注一个特定维度，旨在指导视觉语言模子以“人类视角”对视频举行评分。缩写说明：Narr. Coh. = 解说连贯性；Comp. Diff. = 明确难度。

研究职员接纳一个「统一的模子驱动评估框架」来对天生的演示视频举行评分，所有评估均使用视觉语言模子，连系针对差别维度设计的提醒举行指导。

该评估框架由两部分组成：

客观考试评估：通过选择题丈量视频转达信息的准确性；

主观评分评估：从内容质量、视觉/音频设计与明确清晰度等维度，对视频进 1–5分品级评分。

这两类指标配合组成了对天生视频的周全质量评估系统。

Doc2Present数据集先容

为了支持文档到演示视频天生的评估，研究职员构建了一个多领域、多文体的真实比照数据集——Doc2Present Benchmark，其中每对数据都包括一个文档与一个配套的演示视频。

差别于以往只关注摘要或幻灯片的基准，数据包括商业报告、产品手册、政策简报、教程类文档等，每篇文档均配有人工制作的视频解说。

数据泉源

研究职员从果真平台、教育资源库和专业演示存档中网络了30个高质量演示视频样本，每个视频都具有清晰结构，连系了幻灯片视觉泛起和同步语音解说。

研究职员手动对齐每个视频与其源文档，并确保视频结构与文档内容一致、幻灯片视觉信息紧凑且结构化、解说与幻灯片在时间上优异同步。

数据统计信息

文档长度：约3000–8000字

视频长度：1–2分钟

幻灯片数目：5–10页

这一设置强调了使命的焦点挑战：怎样将麋集、领域专属的文档内容转化为简明易懂的多模态演示内容。

PresentEval

为了评估天生的演示视频的质量，研究职员接纳了两种互补的评预战略：客观选择题评估（Objective Quiz Evaluation）和主观评分（Subjective Scoring），如图3所示。

关于每个视频，将幻灯片图像和完整的解说文本作为统一输入提供应视觉-语言模子，模拟真实观众的寓目体验。

在客观评估中，模子需回覆一组牢靠的事实性问题，以判断视频是否准确转达了原始文档中的要害信息。

在主观评分中，模子从三个维度对视频举行打分：解说的连贯性、视觉设计的清晰度与雅观性，以及整体的易明确水平。所有评估都不依赖真实参考，而完全依赖模子对泛起内容的明确。

客观选择题评估

为了评估天生的视频是否有用转达了原始文档的焦点内容，接纳牢靠问题的明确评估协议。

研究职员为每个文档手动设计五道多项选择题，着重于主题识别、结构明确和论点提取等方面。

如表1所示，评估时，视觉-语言模子吸收包括幻灯片和音频转录的完整视频，并回覆五个问题。

每题有四个选项，仅有一个准确谜底，准确谜底基于人工制作的视频标注，最终明确得分（规模0-5）反应模子答对了几题，权衡视频转达原始信息的能力。

主观评分

为评估天生视频的质量，研究职员接纳基于提醒的视觉-语言模子评估方法，差别于依赖人工参考或牢靠指标的要领，要求模子从观众视角出发，用自身推理与偏好打分。

评分关注三个方面：解说连贯性、幻灯片视觉效果以及整体明确难度。

模子寓目视频与音频内容后，划分为每个维度打分（1–5分）并简要诠释。详细评分提醒见表2，针对差别模态和使命设计了差别的提醒语，以实现精准评估。

PresentAgent

图4：PresentAgent框架概览

该系统以多种类型的文档（例如论文、网页、PDF等）为输入，遵照？榛奶焐鞒蹋

首先举行提要天生；

接着检索出最适合的幻灯片模板；

然后借助视觉-语言模子天生幻灯片息争说文稿；

将解说文稿通过TTS转换为音频，并合成为完整的演示视频；

为了评估视频质量，设计了多个维度的提醒语；

最后将提醒输入基于视觉语言模子（VLM）的评分？，输出各个维度的指标效果。

为了将长文本文档转化为带口语化解说的演示视频，设计了一个多阶段的天生框架，模拟人类准备幻灯片与演讲内容的流程。

该要领分为四步：语义分段、结构化幻灯片天生、口语化解说天生、可视与音频组合为同步视频。

该？榛杓浦С挚煽匦浴⒖哨故托院投嗄Ｌ云，兼顾高质量天生与细粒度评估。下文将划分先容各？。

问题界说

古板要领通常直接从文档片断C天生幻灯片元素S，如下所示：

S={e1,e2,...,en}=f(C)

该方规则视整个文档D为整体输入，通过三步天生演示视频：

基于纲要妄想天生语义段落序列{C1,...,CK}；

对每段天生幻灯片Sk与口语讲稿Tk（再转为音频）；

合成带时间对齐的视频V：

V=Compose({(S1,T1),...,(SK,TK)})=g(D)

该流程不依赖牢靠模板，而是从高层结构出发，自底向上天生幻灯片和解说内容，支持多模态对齐与可控天生。

幻灯片妄想与天生

幻灯片？榻杓薖PTAgent的结构化编辑范式，但目的差别——不是输出.pptx文件，而是为视频合成天生视觉一致的静态幻灯片帧。流程如下：

用轻量级语言模子剖析文档，划分语义段；

为每段匹配合适的幻灯片类型（如：项目符号、图文连系、问题先容等）；

使用规则和语义信息将内容映射至HTML模板；

挪用操作指令（如：replace_text, insert_image}）天生最终幻灯片；

使用python-pptx或HTML渲染器渲染为静态图像。

解说天生与语音合成

为使幻灯片更具吸引力，研究职员为每页幻灯片天生解说，并将其合成为语音：

针对每个语义段落，提醒语言模子天生自然、精练的口语化讲稿；

控制长度在30–150秒之间；

使用文本转语音（TTS）系统天生对应音频；

将音频与幻灯片匹配，形成时间对齐的素材。

视频合成

最后一步，将静态幻灯片图像与配音音频合成为完整的视频：

每页幻灯片一连显示，与其音频同步；

可添加淡入淡出过渡；

使用ffmpeg等视频处置惩罚工具合成视频轨；

输出标准名堂（如.mp4），便于分享或编辑。

实验效果

研究职员设计实验以验证PresentAgent在天生高质量解说视频方面的有用性。重点不在与已有基线要领较量，而是评估系统在靠近人类体现方面的能力，特殊是在PresentEval评估使命中的明确能力。

评估设置

研究职员构建了一个包括30个长文档的测试集，每个文档配有人类手工制作的演示视频作为参考，涵盖教育、产品说明、科研综述与政策简报等主题。

所有天生与人工视频均使用PresentEval框架举行评估。由于目今尚无模子可完整评估超2分钟的多模态视频，接纳分段评预战略：

客观评估阶段：使用Qwen-VL-2.5-3B回覆牢靠的多项选择题，评估内容明确；

主观评分阶段：提取视频与音频片断，使用Qwen-Omni-7B针对内容质量、视觉/听觉质量和明确难度划分打分。

评分依赖维度提醒语，笼罩内容完整性、视觉设计与语音可明确性。

实现细节

PresentAgent接纳高度？榛亩嗄Ｌ焐芄，主要特征如下：

语言明确？橹С諫PT-4o、GPT-4o-mini、Qwen-VL-Max、Gemini-2.5 Flash/Pro、Claude-3.7-Sonnet，并通过动态路由战略选择最优模子；

VLM评估器使用轻量级Qwen-VL-2.5-3B-Instruct，评估结构合理性、图表可读性和跨模态一致性；

TTS使用MegaTTS3，支持24kHz高保真合成与节奏/情绪控制；

完整流程包括：

结构剖析与重排：构建主题–子主题树；

逐页天生：通过LLM天生含问题、项目符号、图像占位符和替换文本的幻灯片；

配音合成与合成输出：支持中英文发音，最终通过ffmpeg剧本合成1080p视频，含淡入淡出与字幕。

主实验效果

表3：五份测试文档的详细评估效果

表3展示了评估效果，涵盖了事实明确能力（考试准确率）以及基于偏好的视频和音频输出质量评分。

在考试准确率方面，大大都PresentAgent的变体与人工基准效果（0.56）相当甚至更优。其中Claude-3.7-sonnet取得了最高准确率0.64，批注天生内容与源文档之间具有较强的一致性。其他模子如Qwen-VL-Max和Gemini-2.5-flash得分略低（0.52），批注在事实对齐方面仍有提升空间。

在主观质量方面，由人类制作的演示仍在视频和音频整体评分上坚持领先。然而，一些PresentAgent变体体现出有竞争力的性能。例如，GPT-4o-Mini在视频内容和视觉吸引力方面获得了最高分（均靠近或抵达4.8），而Claude-3.7-sonnet则在音频质量方面体现最为平衡（均分为4.53）。

有趣的是，Gemini-2.5-flash在视觉质量上取得了最高得分（5.0），但在明确性方面较低，这反应了雅观性与清晰度之间的权衡。这些效果突显了？榛焐鞒痰挠杏眯，以及统一评估框架PresentEval在捕获演示质量多个维度方面的适用价值。

案例剖析

图5：自动天生视频示例

图5展示了一个完整的PresentAgent自动天生演示视频示例，其中一篇手艺博客被转化为带解说的演示。

系统识别出结构性片断（如小序、手艺诠释等），并为其天生了包括口语气概字幕和同步语音的幻灯片，涵盖了“并行化事情流”“署理系统架构”等手艺主题，展示了系统在坚持手艺准确性的同时，以清晰、对话式方法转达信息的能力。

研究职员合成了整合视觉幻灯片、文本解说和语音音频的演示气概视频，模拟了现实中的多模态交流场景。现在的评估要领主要关注各模态的自力质量，例如视觉清晰度、文内情关性以及音频可明确性，这些维度现在被划分看待。

然而，在现实应用中，相同的有用性往往取决于各模态之间的语义与时间上的协统一致性。

因此，未来的研究应逾越伶仃评估，迈向融合感知（fusion-aware）的明确与评估，意味着不但要建模图像、音频和文本模态之间的交互与对齐，还需付与系统在多模态语义联合下的推理能力。

现有模子如ImageBind提供了多模态的统一嵌入空间，但在高层推理与语义明确能力方面仍有所缺乏。

一个有远景的偏向是：将体现对齐（representation alignment）与多模态推理能力（multimodal reasoning）连系起来，构建融合对齐的模态编码器与强盛的语言模子。

这将使系统具备对重大多模态输入的联合感知、明确与响应能力——例如，基于语音解说与视觉线索诠释某个视觉看法，或识别模态间的纷歧致性。

开发此类具有推理能力的融合感知模子，将是推动多模态明确向真实天下应用场景迈进的要害。

局限性与未来事情

该事情现在面临两个主要限制：

由于使用商业LLM/VLM API（如 GPT-4o 和 Gemini-2.5-Pro）保存高盘算本钱，评估仅限于5篇学术论文，可能未能充分代表该基准数据集中展示的文档多样性；

PresentAgent当宿世成的是静态幻灯片，尚未支持动态动画或转场效果，这主要受到视频合成架构限制以及天生速率与视觉质量之间的权衡约束（正如 ChronoMagic-Bench中关于时间一致性的研究所指出的）。

未来的研究事情将集中在三个偏向：

第一，通过引入更多种类的开源大模子作为基础，包括多种架构设计、能力规模和微调战略，拓展至更多类别的文档，以支持更普遍的天生与评估使命，笼罩教育、政策、商业等现实场景，力争实现系统能力的周全评估；

第二，通过优化视频合成架构，引入动态动画能力，在包管天生效率的同时提升视觉体现，适配重大的场景转；

第三，探索轻量级蒸馏要领与具备物理感知能力的渲染引擎，从而提升天生效率、写实水平和对差别硬件情形的顺应性。

结论

研究职员提出了PresentAgent，一个用于将长篇文本文档转换为带有语音解说的演示视频的？榛低。通过系统性地处置惩罚幻灯片妄想、语音解说合成以及视音同步渲染等流程，PresentAgent 支持对多种类型文档的可控天生与复用的多模态输出。

为支持严酷评估，研究职员构建了文档–视频对齐的基准数据集，并提出了双重评预战略：事实问答与基于偏好的视觉语言评分。实验效果（包括消融实验与模子比照）批注，PresentAgent 能够天生结构清晰、表达生动且信息麋集的演示内容，整体效果靠近人类水准。

效果展示了融合语言模子与视觉模子在可诠释且面向观众的内容天生方面的潜力，为未来在教育、商业、无障碍撒播等场景中的自动化、可控多模态天生研究涤讪了基础。

参考资料：

https://arxiv.org/pdf/2507.04036

??时势1：丝袜英语老师让我❌了一节课

??07月24日,美国孟菲斯市发生枪击事件已致2死14伤,

　　两人的手掌撞在一起，发出一声巨响，像是有一座山峰崩塌了！蛟鹏痛哼，整小我私家横飞了起来，虎口彻底裂开，鲜血淋淋，手臂在一直地痉挛。

,白袜➕体育生gey视频网站合集。

??07月24日,音乐剧《飞天》获第十七届精神文明建设“五个一工程”优秀作品奖,

　　“赶忙的，连夜去追人，叫他们都回来。”

,男女洗澡互摸私密部位,99在线无码精品㊙️黑桃,美女跪床❌❌被🌿直播。

??时势2：粗大猛烈撞击娇喘呻吟用力

??07月24日,三星堆考古发现玉石器作坊区,

　　石林虎大口喘气，他有些遭受不住，祖器太强盛，难以催动起来。

,杨幂自慰喷水❌❌好爽,禁色的暗夜叫什么,高清乱码🔞❌❌❌粪便。

??07月24日,福建向金门供水六周年累计供水逾3500万吨,

　　(一)林业生态建设包管事情效果斐然。

,美女ghfree黑料社区,18🈲流白浆❌❌舌吻,小乔脱裤子让我❌进去动漫。

??时势3：男人的伸到里小舞

??07月24日,中新健康丨冬春交替孩子易患呼吸道疾病专家：可通过免疫调节剂“训练免疫”,

　　许多同砚对火感应新颖，经常背着西席和家长做火的游戏。有的燃烧烧纸、烧柴草，在野外堆烧废轮胎、废塑料，尚有在漆黑处划洋火、点蜡烛照明、弹洋火棍、烧马蜂窝等？赡阒勒庵行拿恳恢滞娣ǘ伎赡芤。

,打女仆屁股从白打到嫩红,国产精品传媒秘奶咪,91㊙️片黄在线观看喷潮。

??07月24日,河北秦皇岛：百万亩板栗花开飘香,

　　第二，全体代表要从讲政治的高度，认真推行代表的职责和权力，坚持的先进性，严酷依章依法效劳，以严正的纪律开好大会＞刍崾贝，要凭证大会日程安排和大会主席团的统一安排，严酷遵守大会的有关划定，有条不紊地完成各项议程。

,教室里被老师揉到高潮视频,1000又爽又黄禁片,动漫❌扶他❌女同❌触手。

??时势4：14岁初中女生光溜溜

??07月24日,海旅会携手文旅业者亮相台湾秋季旅展——来大陆，跟着潮玩去旅行,

　　我们少先队员能为地球妈妈做些什么呢?那就从身边的小事做起吧。当你和家人出去旅游时，不但自己不乱扔果皮，包装纸，并且发明垃圾还能自动拣起来投进垃圾箱里，那你就是一个；で樾蔚暮蒙倌;在学校里，望见自来水龙头没关紧，你能上前下手把它拧紧;看到光线富足，能自动把课堂里的灯关掉，那你就是一名节约资源的勤学生……只要各人脑子里有敬重情形的有心人，就能为尊龙游戏人生就是博家园尽一份力，添一片绿，未来就能把地球建成一个越发优美协调的新家园。

,强奸轮奸虐待乱伦强暴留学生黑人老外黑鬼黑吊洋人,面具公社网页,性一交一乱一交一A片m3u8。

??07月24日,“歌迷之城”太原公交实力宠粉：2024接送歌迷60余万人次,

　　“毛球，不要！”石昊惊呼。

,老师脱👙让男学生摸🐻,HD XXX Porn Video,HD❌❌XX❌XXX18原神。

【习言道｜习近平再访法国元首外交三个“特别”引人关注】

【财政部同意印制发行“甲辰龙10元”等14款即开型福利彩票游戏】

责编：陈小花

审核：安素倍

责编：弗拉基米尔-日里诺夫斯基

尊龙游戏人生就是博

一键实现PPT演讲自由！「解说音频+视频」同步天生，效果迫近真人

一键实现PPT演讲自由！「解说音频+视频」同步天生，效果迫近真人