欧美福利在线观看,国产精品区一区二区免费,国产精品久久久久久久免费,91精品一区二区综合在线

通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex

作者: 小孫 2025-06-19 04:00:58
閱讀(37)
作者是BytedancePico北美高級研究員胡濤博士,近年來研究領域包括3D重建與4D場景和視頻生成,致力于得到一種最佳的物理世界表示模型。其他作者均為PicoMR團隊核心成員。去年一年來,Sora、可靈、Veo等模型掀起了視頻生成領域的革新。而在構建更逼近真實的世界模型征程中,相機可控的視頻生成技術堪稱核心拼圖——它讓視頻生成模型不再是單向的“世界模擬器”,而是能被用戶自由探索的“平行宇宙”,為沉浸式3D電影等顛覆性應用奠定基礎!然而,從單視角視頻,生成其對應的極端視角(比如方位角在±90°改變)新視頻仍是行業難題。現有的開源方法或依賴多視角相機-視頻數據集訓練[4,5],或受困于遮擋區域表示的局限[1,2],難以跨越“視角自由”與“物理真實”的雙重鴻溝。對此,PICO-MR團隊提出了一個破局方案:EX-4D,可以從任意單目視頻生成其對應的新視角視頻。EX-4D:一致性更強:EX-4D在FID、FVD等指標上超越了最新的開源方法,支持生成高物理一致性的新視角視頻。視角跨度更大:得益于新幾何先驗格式,EX-4D能支持極端視角下的高質量視頻生成。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex綜合效果更好:輕量級LoRAAdapter能充分利用WAN-2.1基座模型的強大生成能力,生成細節、質量更好的視頻。Arxiv鏈接:https://arxiv.org/abs/2506.05554項目主頁鏈接:https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html代碼鏈接:https://github.com/tau-yihouxiang/EX-4D現有方法的困境目前相機可控的視頻生成方法可分為2種主要思路。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex一類方法直接利用相機外參作為條件控制視角生成。這種方法需要自行構建多個視角下的相機-視頻數據對,并且難以控制不同數據分布下的相機的位移尺度,在未知分布的視頻輸入上可能出現嚴重的視角偏移。第二類方法則直接將像素點投影成點云作為額外的先驗信息。這些點云投影無法保留物體之間的遮擋關系,在物體的交界部分非常依賴基座模型本身的能力。這種不可控性容易導致錯誤的幾何關系。EX-4D的三大核心設計EX-4D的核心目標是實現一個泛用的,從單目視頻生成新視角下視頻的模型。其總體框架如下圖所示:為了充分利用豐富的各類視頻數據,同時保證生成視頻滿足高質量和高物理一致性,EX-4D提出了如下三個關鍵設計。深度密閉網格(DW-Mesh)實現遮擋面提取:DW-Mesh表示是EX-4D框架的核心。它突破了點云的局限,首次提出使用一個全密閉網格結構,同時記錄可見/隱面片,無需多視角監督就能統一處理場景拓撲。EX-4D利用最新的預訓練深度預測出每幀深度圖,從而將像素點投影到3D空間形成網格頂點,并從相鄰頂點中構建出網格面片。EX-4D根據幾何關系標記遮擋面片。通過設置當面片最小角度小于指定閾值,或者跨度大于指定閾值時,可以提取出前景與背景之間的遮擋面。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex生成的DW-Mesh表達能為每一幀提供連續的遮擋mask,以此確保極端視角下的生成視頻的物理一致性。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex模擬mask生成策略構建數據集:為解決多視角訓練數據缺乏的問題,EX-4D提出了2種模擬mask生成策略。渲染mask關注模擬視角移動下的物體間的遮擋關系。EX-4D利用DW-Mesh表示來模擬新視角下的遮擋關系。通過構建輸入視角的DW-Mesh,并在給定相機軌跡下渲染來獲得不可見區域的mask。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex形態學膨脹可以進一步去除噪聲,滿足更真實的遮擋邏輯。跟蹤mask的則關注保持可見區域的邊緣像素一致,以更貼近推理階段視頻下的真實mask。EX-4D使用Cotracker3[3]模型,通過跟蹤錨點來確保幀間的可見部分一致性,讓訓練數據無限逼近真實場景。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex借助這兩種生成策略,無需昂貴多視角采集,僅憑單目視頻就能“腦補”全視角數據,破解世界模型訓練的數據困局!輕量級LoRAAdapter:EX-4D基于預訓練的WAN-2.1模型,引入LoRA-basedAdapter,來完成maskvideoinpainting任務。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex基于LoRA的adapter架構將DW-Mesh的幾何先驗信息融入視頻生成過程,在保持計算需求可控的同時,保證了補全視頻的幾何一致性和幀間一致性。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex實驗結果:EX-4D如何定義「極致」為了展示EX-4D在新視角生成的巨大潛力,EX-4D使用包含150個網絡視頻的數據集,并使用FID、FVD和VBench[6]等指標評估模型性能。在各種視角跨度范圍之內,EX-4D均全面超越了現有的開源可控視角生成方法。值得關注的是,新輸入視角角度越極端(越偏向90°),EX-4D性能優勢越明顯,充分展示了DW-Mesh表示在物理一致性保持上的潛力。在VBench指標上,EX-4D在絕大多數指標上取得最高分,進一步展現了強大的綜合生成能力。此外,EX-4D還邀請了50位志愿者對EX-4D和其他開源方法的生成效果進行評分。70.70%的參與者認為EX-4D方法在極端視角下的物理一致性斷層領先。當已有的開源方法在劇烈視角變化中“露破綻”(物體穿幫、遮擋錯亂),EX-4D卻能精確保留高一致性的物體細節。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex針對EX-4D的充分消融實驗充分論證EX-4D中每種策略的有效性。其中DW-Mesh表示對性能的提升最大。兩種針對訓練數據的mask生成策略對于模型的訓練都至關重要。而EX-4D采用的16rank輕量級LoRA-basedAdapter效率已經足夠高,增加rank僅帶來輕微性能提升。總結與未來展望定性和定量實驗說明,EX-4D方法能夠生成高物理一致性、高質量的視頻結果,并且可以廣泛用于小角度偏移到極端視角的各種場景,提升了新視角預測的自由度。通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成ex后續的視頻可控生成之中,EX-4D將著眼于提高深度預測的精度,并提高模型推理速度,向更快、更好的可控視頻生成進發,為世界模型助力。參考文獻[1]MarkYU,WenboHu,JinboXing,andYingShan.Trajectorycrafter:Redirectingcameratrajectoryformonocularvideosviadiffusionmodels,2025.[2]ZeqiXiao,WenqiOuyang,YifanZhou,ShuaiYang,LeiYang,JianlouSi,andXingangPan.Trajectoryattentionforfine-grainedvideomotioncontrol.InTheThirteenthInternationalConferenceonLearningRepresentations,2025.[3]NikitaKaraev,IuriiMakarov,JianyuanWang,NataliaNeverova,AndreaVedaldi,andChristianRupprecht.Cotracker3:Simplerandbetterpointtrackingbypseudo-labellingrealvideos.InProc.arXiv:2410.11831,2024.[4]HaoHe,YinghaoXu,YuweiGuo,GordonWetzstein,BoDai,HongshengLi,andCeyuanYang.Cameractrl:Enablingcameracontrolfortext-to-videogeneration.arXivpreprintarXiv:2404.02101,2024.[5]JianhongBai,MenghanXia,XiaoFu,XintaoWang,LianruiMu,JinwenCao,ZuozhuLiu,HaojiHu,XiangBai,PengfeiWan,andDiZhang.Recammaster:Camera-controlledgenerativerenderingfromasinglevideo,2025.[6]ZiqiHuang,YinanHe,JiashuoYu,FanZhang,ChenyangSi,YumingJiang,YuanhanZhang,TianxingWu,QingyangJin,NattapolChanpaisit,YaohuiWang,XinyuanChen,LiminWang,DahuaLin,YuQiao,andZiweiLiu.VBench:Comprehensivebenchmarksuiteforvideogenerativemodels.InProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition,2024.