CVPR2025:Kuaishou Keling的四个主要方向的视频生成和
发布时间:2025-06-28 10:21
最近,CVPR 2025年的全球视觉AI领域年度活动在美国田纳西州纳什维尔举行。 Dr. Wan Pengfei, Kuaishou keling AI Business Department, delivered a report entitled an introduction to Kling and our research towards more powerful video genaration models at the highly anticipated "from video generation to world model" tutorial (a special lecture on "from video generation to world model"), and introduced the latest progress and thinks Of the Keling AI Team in the fields of video Generation and World Models from Four Major Technical Directions: Model The Architecture and Generation算法,沟通和控制,分析多模式活动,理解和推理的效果和机制的能力。模型和生成算法量表法律的先进架构已经在大语言模型中具有许多研究和实际应用,但是视频生成的范围没有准确易于使用的缩放公式。通过stRICT实验和评论,Keling团队首次建立了超参数,量表和计算预算之间的准确数学关系。这种成功使我们更科学地设置参数模型量表和基本参数,以使完整的计算和数据资源的价值播放,并实现更好的模型效果。参考论文:迈向视频变压器团队的准确规模法律,还推出了用于传播模型的混合专家(MOE)体系结构Diffmoe。基于选择全球范围和支持推理策略的代币的机制,COM资源可能会根据扩散模型的异源特征在发电的不同阶段分配diffmoewhite更为合理。在图像的产生中,仅1次激活参数的数量,以实现密集型模型的生成的性能3倍。参考参考:dIFFMOE:可扩展的传播变压器的动态令牌选择强大的接触和控制控制(强大的接触和能力)Keling团队提出了多任务视频生成框架的多任务视频生成框架,该框架无缝地将空间的所有空间作为上下文多样性。 Fulldit不必更改各种任务的模型结构,减少了不同的控制条件之间的冲突,并且显示出很大的可伸缩性和甚至出现的能力。参考参考:FULDIT:多任务视频生成基础模型,充分关注交互式视频生成的方向,Keling团队建议使用GameFactory Framework,该框架仅需要带有运动控制信息的少量视频培训数据,以支持连续(例如鼠标)和离散(如键盘)游戏中的不同场景。参考纸:GameFactory:创建具有生成互动视频准确对齐的新游戏。此大纲是系统地描述如何将RLHF应用于视频发电的活动的首批任务之一。参考论文:通过人类反馈改进视频生成,这是视频图像和代代相传的主要流动(流量匹配)生成算法的主要流动,团队有效地解决了在匹配和低多步数中缺乏随机性的问题,以证明该小组将小组介绍到匹配流式的模型模型,流动性模型,流或匹配流式流 - 流流式模型,并证明了其在图像生成活动中的有效性。参考参考:流程:在线RL多模式理解和推理视频字幕仪(视频内容文本的模型描述)对匹配培训的匹配培训非常重要,这对于视频生成的最终效果至关重要,但由于缺乏审查行业结果的美好方法。 Keling团队SuggESTED视频字幕评估框架VideoCapbench,带来了提高稳定性和可靠性的好处,并且与视频发电的最终影响有很强的相关性。参考文件:Vidcapbench:受控文本到视频生成的全面视频字幕标题旨在了解用户的意图。 Keling团队建议的任何2caption都以一种方式了解多模式的用户信息信息,从而制定语义结构化描述,这可以显着改善纪念活动。参考参考:Any2Caption:除了教程报告外,对受控视频生成的任何标题条件的解释,在CVPR中还选择了7个PAPEL,其中涵盖了缩放标度定律,视频数据集,可控世代,照片世代,高含义,高含义,高含义,生成4D和其他方向。