
研究人员讨论了视频世界模型的开发。 ■本报纸的记者卢西亚国王卢西亚(Wen Kaieifoy)是北京豪尔赫大学计算机科学与技术部实验室举行了一场非常破坏性的竞赛。在屏幕上,黑白国际象棋片段交替拒绝。在整个过程中,Hand Black Hand的人工智能球员没有使用语言说明。他观察到成千上万的教师游戏视频,独立理解《行规则》,并最终用五个职业的力量击败了人类敌人。这个令人难以置信的“维多利亚”也是出色的视频首次亮相,这是一种由北京吉腾大学和大型Doubao Model团队共同开发的实验模型。就像在自然界受到传统AI模型的启发的启发的孩子一样,需要使用语言标签来奖励机制符合世界。研究教堂的榜样,研究人员必须用文本说明仔细地将这一动作分开,例如“将左手伸到右手向右的右手和右手右手”。当他们面对复杂的任务时,语言解释中的局限性通常是无法克服的障碍,而AI无法执行任务。 Videworld的出现为研究视觉智能推理带来了新的想法。仅信任视频数据才能使模型独立学习并主导复杂的技能,例如推理,计划和决策。与传统方法不同,无需依靠常见的搜索算法或在增强学习中收集机制,并且在行业中首次实现了不取决于语言模型的全球认可。 “我们的灵感来自自然。” Videoworld项目的负责人,计算机科学和TEC教授Wei Yunchao北京北京大学的HNOLOGY说:“诸如大猩猩等印象通过搜索和模仿社会行为来观察和模仿成人的类似物种,从而获得生存技巧。愿景是生物认知世界的核心。”根据上述概念,团队压缩了有效函数视频绘画之间的动态变化。我们已经开发了一个潜在的动态模型来做到这一点。这允许AI通过“观察,模仿和实践”循环获得复杂的人类婴儿技能,并大大提高学习知识的效率和有效性。结果实验表明,只有300 MB参数的Videworld在GO任务中已经达到了第五次比赛。在机器人控制方案中,Videworld成功完成了诸如机器人手臂处理和元素分类之类的任务,这些任务表现出了出色的概括功能。 AI领域的“反向前进”由大型语言模型,视频世界的诞生有点“倒数)。魏·伊奇沃(Wei Yunchao)解释说:“如果大多数团队为加速语言模型而战,他们会选择行业行业。但是,在参考模型的培训和评估中,Theteam发现了许多瓶颈,并且该项目曾经被困。在接下来的几个月中,团队提出了一些改进。经过重复的尝试和摘要后,他们发现有效地压缩视频的动态变化是提高生成模型的推理能力的关键。这一发现最终建立了视频世界的技术路线。潜在的动态模型通过压缩动态特征和空间关系的建模,开辟了模型的新可解释性途径,从而提高了视频学习效率40%。 “从2024年2月的项目启动到2025年2月,它被国际计算机愿景会议和电气和电子工程师协会(IEEEE)(IEEEE)的模式识别(IEEE)。大约10TB的工作数据和模型文件,并驾驶超过1,000次验证实验。 Ren,Videoworld Paper的第一作者,也是计算机科学技术学院的博士生。所有障碍都是成功的基础。我们将保持毅力和韧性,我们将发展独立的思维技巧和独立的验证,并学会学习本质。 “这些宝贵的经验已成为其科学研究未来职业中的重要资产。凭借学习“图像的愿景”的伟大王国的巨大范围,探索独特任务的途径是基于文本解释的学习方法,VideoWorld可以捕捉到更多的富裕,三个数字和现实世界的信息,从而实现人类的实际信息,以实现人类的认识,以构成人类的认识。 IEEE Internati计算机愿景协会和CVPR 2025模式的认可以及使其完全开放的提议在学术界引起了激烈的辩论。 “ Videworld展示了纯视觉认知的可行性,但仍然在于概念证明。” Wei Yunchao说:“报纸被接受后,我们开始了下一个研究阶段。我们正在使用Videworld的想法来找到解决更实用和复杂的问题的方法,例如厨房学习,视频维修以及对幽默和隐喻的理解。”从信任“文本拐杖”到拥有“视觉眼睛”,Videworld将新的冲动注入了AI的认知范式中。正如团队在他的文章中所写的那样,“当机器学会用眼睛“阅读”世界时,他们可以迈出一步,迈向真正的普遍智能。”