生成式人工智能与电影_必发88游戏登录-bifa必发·唯一中国官方网站

必发88游戏登录

about Yunda technology

必发88游戏登录生成式人工智能与电影

发布时间： 2024-05-24 09:01:47 来源：bifa必发唯一官网主页作者：bifa必发·唯一中国官方网站

　　作为第一生产力的科学技术，正带领人类进入全新的人工智能时代。生成式人工智能实现了重要突破，其在各个领域的应用必将给人类世界带来重大改变。影像工作者、研究者尤其关注它在文本、图像、视频生成等方面的运用。使用AI工具进行电影制作，在大大提高工作效率的同时，也在很大程度上改变了传统的影像生产流程和生产方式。文生视频大模型Sora的出现，更是给影视界带来了极大震撼。AI2.0时代，生成式人工智能作为工具，与人类创作思维交互会碰撞出怎样的火花，它的出现将给电影带来何种改变，是值得关注的问题。

　　周雯（以下简称周）：2024年2月16日，OpenAI发布了视频生成模型Sora，输入文本可生成一分钟高清长视频。Sora一经发布就引起整个影视行业的恐慌，认为将对视觉创作领域带来巨大冲击。虽然OpenAI官方放出的卖家秀视频并未达到1分钟时长，但“世界模拟器”的生成机制还是引发了极大关注，并一骑绝尘之前众多4秒短视频AI生成工具。后续OpenAI发布了 Sora技术报告，相关研究论文也不断发表，最近也有一些测试号的“买家秀”视频放出。这个时候，我们可以更理性客观地讨论人工智能视频生成，以及Sora这一重要发展节点。

　　现阶段的人工智能是基于大语言模型的突围，其涌现和幻觉的特性更适合较为宽容的艺术领域，因此首先在艺术领域爆发。请问刘老师，基于 Transformer大语言模型的人工智能后续会如何发展？

　　刘伟（以下简称刘）：现在整个人工智能界都处于比较高亢的状态。为什么高亢？因为看到了一丝曙光。比如ChatGPT，大家切实感受到人工智能可以做很多文本工作。又比如用于视频创作的Sora，大家感觉和以前不太一样，时长不一样，清晰度不一样。但其实中美两国的科学家都认为，这还不是根本性的变化。为什么？美国加州伯克利大学的学者罗素说，过去的人工智能是现在的自动化，现在的人工智能是未来的自动化。所以，现在的人工智能还处于自动化状态，这是它的技术底层。现在人工智能软件系统的底座都是transformer架构，但它是有缺陷的。三年前，我们翻译了一本书叫《代数大脑：揭秘智能背后的逻辑》。它指出，多内层神经网络内部有两个函数，一个叫线性函数，一个叫激活函数，这两个函数会造成 transformer架构出现瓶颈，这也是它造成幻觉的由来——线性函数和激活函数相互作用产生了全程分配的不均匀、不透明与不可解释性。除了其自身缺陷外，还有数据源、算法底座与“卡”的限制。比如，现在大语言模型或者多模态大模型的数据源基本上还是英文，中文数据的语料库很少，大模型底座也主要由美国等西方国家开发。国内有人提出可以另辟蹊径，把大模型的东西模块化，如推理、模型、算法等不同模块，使用什么模型则调用什么模块，能较好地解决垂直领域应用的问题。

　　周：2023年11月，谷歌DeepMind团队在一个3D 模拟环境中，用神经网络结合强化学习训练出了一个智能体。这个智能体从未使用任何预先收集的人类数据训练，从零开始，学习周遭环境，以模仿开始，其自我优化后甚至超越被模仿者，习得人类行为。这也很类似于人类间的文化传播。因此，他们发表在《自然通讯》（Nature Communications）上的研究论文的题目就是《类文化传播的少样本模仿学习》（ Learningfew-shot imitation as cultural transmission ）。请问刘老师您怎么看待这种人工智能的发展路径？

　　刘：目前，有许多研究致力于开发这类能够从效率和隐私角度，从与人类相仿的其他个体那里进行社会化学习的AI智能体。这样的智能体可以通过观察其他个体执行任务来学习新技能，而无需大量的监督式演示。常用的一种方法是利用仿真环境，让AI智能体观察虚拟角色执行任务。这种虚拟仿真环境可以大大降低学习成本，因为可以轻松生成大量的训练数据。还有一种方法是利用互动式学习，让AI智能体与人类或其他智能体进行交互，并从交互中学习新技能。这种方法可以模仿人类之间的社交学习过程，使智能体能够更快地学习新技能。

　　这篇研究论文是对具身智能（指有身体并支持物理交互的智能体）实现快速知识传播的一次概念验证，也是向人类-AI互动的开放式交互学习迈出的第一步。我想说的是，这种人机交互智能的方式还处在探索阶段，基本上还属于“得形忘意”阶段，距离“得意忘形” 还比较远，究其因，涉及人类的情感、意识、认知能否通过数学计算实现的底层问题，毕竟人类智能中除了学习性以外，还有非学习性（指本能的、遗传的先验能力）；除了客观显性的动作行为以外，还有主观隐性的意图动机，所以机器的具身智能与人类的具身智能还不能完全等价。但这个研究在一定程度上为AI领域和文化演化心理学之间的密切互动奠定了基础。

　　刘：是确定性与不确定性的叠加纠缠。在人与机器的交互过程中，机器处理和运算数据的能力往往远超过人类。但是在面对复杂问题和环境时，人类的判断和决策能力通常更准确和灵活。确定性是指事物或事件发生的结果是可以预测和确定的。在机器中，确定性往往由算法、逻辑和规则来驱动。机器可以根据已有的数据和先验知识，以一定的规则进行计算和判断，并给出准确的结果。然而，在复杂的现实世界中，存在许多不确定性因素，如不完全的信息、不可预测的环境变化、人类主观因素等。不确定性是指事物或事件发生的结果无法完全预测和确定。在人类的决策中，我们常常需要根据个人经验、直觉、情感和价值观等因素来做出判断，这些主观因素往往是难以量化和规则化的，也是机器难以模拟和理解的。人类和机器在解决不确定性与处理确定性的过程中是互为补充的，通过结合人类的算计（谋算）和机器的计算能力，可以更好地应对复杂问题和不确定性的挑战。

　　周：《流浪地球2》里设置了智能量子计算机550，还有图恒宇女儿图丫丫的数字生命，请问郭帆导演，您是如何考虑这些人工智能相关设定的？您对于人工智能是怎么理解的？

　　郭帆（以下简称郭）：拍摄《流浪地球2》的时候，我们邀请中科院研究人员为顾问，一起思考人工智能的发展。这么做也是为了把《流浪地球》的世界观拓展开，不再停留于宇宙的范畴。拍摄《流浪地球2》是在2021 年，我预估像GPT这种级别的人工智能还需要七八年才能出现，但其实在《流浪地球2》上映前一个月它就出现了，真没想到如此之快。我们还在《流浪地球2》里设定了一个机器，就是550C自适应计算机，它可以自主发现一些问题，以适应周围环境生成相对应的策略，基于生成的策略再生成相对应的应用。这本是我们天马行空想出来的机器，却在浙大看到了类似的应用。我想这或许可以给予我们新的解题思路，避免创作者陷入经验主义怪圈。科幻跟科学之间有着巨大的鸿沟，为了学习人工智能相关知识，我们参加了世界人工智能大会，在国内考察了华为、小米、商汤等高新技术公司，在国外考察了谷歌、Meta、苹果、英特尔等高新技术公司，以及浙江大学、斯坦福大学等高校的高新技术实验室。

　　但回归电影创作本身，我对技术的态度是“能用才有意义”。比如虚拟制片技术，经过证明，实操性价比较低，最安全的方式还是回归到传统绿幕或者蓝幕拍摄。虽然虚拟拍摄LED屏企图打造的是实时、可见即所得的状态，但背景特效也得提前做，与传统拍摄需要花费的时间其实不相上下。所以，我对能实际用在创作和制作中的 AI工具更为关注。

　　郭：对于前期的文字工作，语言模型如Claude3对我们影视创作帮助很大。 Claude3比GPT4更趋于一种 “人”的状态，它甚至会对我提出的问题进行“先测试”。比如问题提出后，它会先“糊弄”你一下，当你提醒它说这个回答太糊弄时，它才会非常认真地回答你的问题。这可能是它节省算力的一种方式，但其实很类似于人类社会中“领导-员工”的关系。语言模型在文字创作上能呈现很多发散性的思考，甚至帮助并不专业的编剧去解决一些基础的数学、化学、物理层面的计算，包括天体物理级别的计算。

　　我们现在把人工智能应用在电影生产上，是将基础逻辑拆分开。一个语言模型完整地编写一个剧本这并不现实，但整个编剧工作流程可以分成若干块。在编剧开会的时候，录音与AI识别可以解析出每位与会人员的发言，最终形成语料库。在连续十天、每天十小时的讨论后，AI识别可以“秒速”精准提炼每个人的重要观点，避免人工查询的冗杂。写剧本也是同样，在Claude3语言模型的帮助下，我们基本上解放了双手。事实上，人工写剧本这件事需要耗费很大一部分精力在遣词造句上，现在这样的工作可以交付AI来完成，我们只需要在创意上花费更多的思考——传统的剧本流程，从有想法到落成文字可能需要几个月到几年不等，但现在只要你的故事思路完整、人物清晰、逻辑健全，那么从落成文字，再到生成剧本格式，乃至文学润色，最多一周就可以完成。作为电影来讲，剧本是需要转化成视听语言的，并不像小说那般注重文学性，Claude3、GPT4等语言模型完全可以承担“将事情讲清楚讲明白”的任务。我认为这很好地保护了我们的创作精力。

　　郭：是的，我们是试着将不同的人工智能应用分摊到所有生产环节里面，哪怕很小的一个环节也可能对应一个应用，最终形成应用组合，类似有扳手、螺丝刀等不同工具的工具箱。比如说剧本阶段会分切出五六个分支环节，使用不同的应用，筹备的时候又会分出若干个部门，同时部门中又分出几个环节，对应不同应用，相互组合使用，帮助我们从传统的、价值不高的工作中解放出来。

　　概念设定也是，在基本想出一段剧情之后，我们马上就会用Runway、Stable Diffusion、Midjourney 生成视觉概念图，而且会有动态的概念视频。使用逻辑是，我们会先给出设定让Midjourney铺面，生成 1 000、2000张都可以，我们像看照片一样概览，然后把与想法接近的图片选出来给Stable Diffusion进一步深化。此外，Runway能让概念图更有氛围，比如飘雪、下雨、闪电等动态氛围型的效果可以很快呈现。深化结束后，我们会再从中选出一到两个最终使用方案。此时人工才开始介入，基于AI生成的意向性概念进行细化设计、拆分模型、动画测试。所以说，这些应用并没有取代创意这件事情，而是帮助我们节省实现创意的过程。

　　郭：是的，有时候AI生成的视觉内容还可以促进编剧思考。比方说编一个“办公室开会”的桥段，办公室其实没有细节，只是脑海中的一个概念，AI会根据我们“模糊的办公室”生成几张图，那么当编剧看到图片上相对具象化的环境之后，可能会基于具体物品进行拓展，这种拓展与情节、环境有关。这样通过视觉让编剧进行具象思考，使“办公室”不再是停留在脑海中的抽象概念，而是能帮助编剧激发想象力，实现从文字语言向视觉语言的重要转化。这样不断地相互促进、相互激发，能够更好地进行前期创作。

　　总之，我们现在的整体思路就是尽可能地把传统生产逻辑拆分成一个个单点的步骤，给这些步骤找到对应的应用，并测试哪个应用好。

必发88游戏登录
上一篇：58同城CEO姚劲波数字人亮相：人工智能必将深刻改下一篇：人工智能这班车我们错过先机了吗