猫眼影戏
猫眼影戏
肖正学
手机审查
猫眼影戏记者 琳内特·佩金斯 报道w3u7903ejky2ywls
本项目为AI Geeks、澳洲人工智能研究所、利物浦大学、拉筹伯大学的联合事情。
我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有要领大多局限于天生静态幻灯片或文本摘要,而尊龙游戏人生就是博计划突破了这些限制,能够天生高度同步的视觉内容和语音解说,逼真模拟人类气概的演示。
论文问题:PresentAgent: Multimodal Agent for Presentation Video Generation论文地点:https://arxiv.org/abs/2507.04036代码:https://github.com/AIGeeksGroup/PresentAgent
为了实现这一整合,PresentAgent 接纳了?榛鞒,如图 1 所示,包括以下办法:1. 系统性地对输入文档举行分段;2. 妄想并渲染幻灯片气概的视觉;3. 使用大型语言模子与文本转语音模子天生具有上下文的语音解说;4. 最终将音频与视觉内容准确对齐,无缝组合成完整视频。
图 1 PresentAgent 概览。该系统以文档(如网页)为输入,经由以下天生流程:(1)文档处置惩罚、(2)结构化幻灯片天生、(3)同步字幕建设,以及(4) 语音合成。最终输出为一个连系幻灯片和同步解说的演示视频。图中紫色高亮部分体现天生历程中的要害中心输出。
思量到这种多模态输出的评估难度,我们引入了 PresentEval,一个由视觉-语言模子驱动的统一评估框架,从以下三个要害维度周全打分:内容忠实度(Content Fidelity)、视觉清晰度(Visual Clarity)和观众明确度(Audience Comprehension)。
评估接纳基于提醒的方法举行。我们在一个全心整理的包括 30 对「文档-演示」样本的数据集上举行了实验验证,效果批注,PresentAgent 在所有评估指标上靠近人类水平的体现。
这些效果展示了可控多模态智能体在将静态文实质料转化为动态、有用、易获取的演示名堂方面的重大潜力。
尊龙游戏人生就是博主要孝顺如下:
提出新使命:首次提出「文档到演示视频天生」这一新使命,旨在从种种长文本自动天生结构化的幻灯片视频,并配有语音解说。
设计 PresentAgent 系统:提出一个?榛焐蚣,涵盖文档剖析、结构感知幻灯片构建、讲稿天生及音视同步,实现可控、可诠释的视频天生历程。
提出 PresentEval 评估框架:构建一个由视觉语言模子驱动的多维度评估机制,从内容、视觉与明确等维度对视频举行提醒式评分。
构建高质量评测数据集:我们制作了一个包括 30 对真实文档与对应演示视频的数据集。实验和消融研究显示,PresentAgent 不但靠近人类体现,且显著优于现有计划。
演示视频评估基准(Presentation Benchmark)
图 2 我们评估基准中的文档多样性
为了支持文档到演示视频天生的评估,我们构建了一个多领域、多文体的真实比照数据集——Doc2Present Benchmark,其中每对数据都包括一个文档与一个配套的演示视频。差别于以往只关注摘要或幻灯片的基准,尊龙游戏人生就是博数据包括:
商业报告产品手册政策简报教程类文档等
每篇文档均配有人工制作的视频解说,如图 2 所示。
图 3 尊龙游戏人生就是博评测要领框架概览
与 paper2poster 的要领类似,我们设计了一个考试式评估框架,即通过视觉语言模子仅凭证天生视频(幻灯片+解说)回覆内容问题,以模拟观众的明确水平,同时我们还引入人工制作的视频作为参考标准,既用于评分校准,也作为性能上限比照。
该评估框架由两部分组成:
客观考试评估:通过选择题丈量视频转达信息的准确性;主观评分评估:从内容质量、视觉/音频设计与明确清晰度等维度,对视频举行 1–5 分品级评分;这两类指标配合组成了对天生视频的周全质量评估系统,如图 3 所示。
PresentAgent
图 4 PresentAgent 框架概览
本系统以多种类型的文档(例如论文、网页、PDF 等)为输入,遵照?榛奶焐鞒蹋
首先举行提要天生;检索出最适合的幻灯片模板;然后借助视觉-语言模子天生幻灯片息争说文稿;将解说文稿通过 TTS 转换为音频,并合成为完整的演示视频;为了评估视频质量,我们设计了多个维度的提醒语;最后将提醒输入基于视觉语言模子(VLM)的评分?,输出各个维度的指标效果。
为了将长文本文档转化为带口语化解说的演示视频,我们设计了一个多阶段的天生框架,模拟人类准备幻灯片与演讲内容的流程,如图 4 所示。该要领分为四步:
语义分段;结构化幻灯片天生;口语化解说天生;可视与音频组合为同步视频。
该?榛杓浦С挚煽匦浴⒖哨故托院投嗄L云,兼顾高质量天生与细粒度评估。下文将划分先容各?。
实验
我们构建了一个包括 30 个长文档的测试集,每个文档配有人类手工制作的演示视频作为参考。这些文档涵盖教育、产品说明、科研综述与政策简报等主题。
所有天生与人工视频均使用 PresentEval 框架举行评估。由于目今尚无模子可完整评估超 2 分钟的多模态视频,我们接纳分段评预战略:
客观评估阶段:使用 Qwen-VL-2.5-3B 回覆牢靠的多项选择题,评估内容明确;主观评分阶段:提取视频与音频片断,使用 Qwen-Omni-7B 针对内容质量、视觉/听觉质量和明确难度划分打分。
主实验效果
在考试准确率方面,大大都 PresentAgent 的变体与人工基准效果(0.56)相当甚至更优。其中 Claude-3.7-sonnet 取得了最高准确率 0.64,批注天生内容与源文档之间具有较强的一致性。其他模子如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低(0.52),批注在事实对齐方面仍有提升空间。
在主观质量方面,由人类制作的演示仍在视频和音频整体评分上坚持领先。然而,一些 PresentAgent 变体体现出有竞争力的性能。例如,GPT-4o-Mini 在视频内容和视觉吸引力方面获得了最高分(均靠近或抵达 4.8),而 Claude-3.7-sonnet 则在音频质量方面体现最为平衡(均分为 4.53)。
有趣的是,Gemini-2.5-flash 在视觉质量上取得了最高得分(5.0),但在明确性方面较低,这反应了雅观性与清晰度之间的权衡。这些效果突显了我们?榛焐鞒痰挠杏眯,以及统一评估框架 PresentEval 在捕获演示质量多个维度方面的适用价值。
案例剖析
图 5 PresentAgent 自动天生演示视频示例
图 5 体现了一个完整的 PresentAgent 自动天生演示视频示例,其中一篇手艺博客被转化为带解说的演示。系统识别出结构性片断(如小序、手艺诠释等),并为其天生了包括口语气概字幕和同步语音的幻灯片,涵盖了「并行化事情流」、「署理系统架构」等手艺主题,展示了系统在坚持手艺准确性的同时,以清晰、对话式方法转达信息的能力。
??时势1:二次元美女18🚫隐私免费
??07月23日,从“纬度”到“维度” 感受气象万千的生动中国,
远古遗种的速率远超独角兽,若非山林阻挡其视野,振翅间就能杀到。
,13小男生GAY自慰脱裤子网站。??07月23日,江西新余:仙女湖新年首捕 生态鱼“游”向全国,
二、夯实基础、提高水平、增强能力、磨炼党性,这次培训班收到了较好的效果。
,tube4XXXXap,灰原哀㊙️黄漫免费漫画,女明星裸乳被爆❌白浆的视。??时势2:巜车里震动好爽
??07月23日,报告指东盟依然是中国企业拓展海外业务首选地,
??07月23日,以“宿一宵”为抓手 激活文旅特色村发展,
五、同砚间要相互体贴、敬重,发明有的同砚私自去游泳或到危险的地方去玩耍,要实时劝阻并告诉先生或家长。
,刘若琳被王强c到高潮,玄兵大战倾辛69全部角色介绍,卡戴珊裸被❌视频无码网址。??时势3:我和jk美女❌了一夜视频
??07月23日,商业外摆新政回眸 杭州城市管理何以助企惠民?,
“好恐怖的宝术!”
,海角乱怆破解,freeHD18麻豆,剑来宁姚让人内射。??07月23日,华北黄淮等地有强降水过程 四川盆地江汉等地持续高温天气,
新世纪,科技生长日新月异,信息手艺瞬息万变。为了尊龙游戏人生就是博理想和信心,希望你们珍惜青春年华,勤劳学习,受苦钻研,锐意进取,不骄不躁,一直增强自身的科学文化素养,一直提高自己的综合素质和各方面的能力,为日后建设协调社会打下坚实的基础。
,催眠调教灰原哀同人h文,国产四爱pegging女攻男受,斯嘉丽裸被❌超污网站new。??时势4:自慰喷水私人影院九一制片厂
??07月23日,首届东坡诗文奖将于海南举办,
祭灵暴怒,它全身的鳞片飞了出去,身体没有防护,被金色闪电劈中后,受创极重,发出了焦臭味。
,灰原哀被❌18禁同人本子,蒂法被❌出白水3D同人,老师掀开裙子让我挺进去18禁。??07月23日,深圳海上重点项目按下建设“加速键”,
“小不点你的实力太吓人了!”一群孩子围了上来,人多口杂,兴奋与神往,溢于言表。
,姓爱自修室弟全集免费播放,小舞3D同人18❌AV动漫,▇芭乐▇免费观看下载。责编:西内玛利亚
审核:黄妈
责编:燕帅
Copyright (C) 2001-2025 dzwww.com. All Rights Reserved
新闻信息效劳允许证 - 音像制品出书允许证 - 广播电视节目制作谋划允许证 - 网络视听允许证 - 网络文化谋划允许证
山东省互联网传媒集团主理 联系电话:0531-85193202 违法不良信息举报电话:0531-85196540
Copyright (C) 2001-2025 Dzwww 鲁ICP备09023866号-1