您现在的位置是：首页 > 科技科技

“开年王炸”Sora，在顶级“技术咖”眼里什么段位？

小财2024-02-24【科技】61628人已围观

据OpenAI官网介绍，Sora能够生成具有多个角色、特定类型的运动以及主体和背景的、细节准确的复杂场景，该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的“存在方式”。业界普遍认为，Sora的面世将对AI产业链带来历史性的变革机遇。

机构人士指出，以Sora为代表的文生视频模型极大缩短了AGI（通用人工智能）时代到来的时间。随着多模态大模型逐步升级，算力需求将呈现指数级增长，下游应用有望百花齐放，推动应用领域生产力价值释放。

那么，Sora的横空出世将为人工智能产业链带来怎样的机遇和发展？如何看待中美之间在人工智能领域的发展差异？为此，《围炉谈文创》栏目本期邀请到三位来自不同细分领域、分别活跃于成都、深圳、北京的技术大咖分享他们最新的感受与观察。

咕咚CEO申波：Sora的本质是一个“世界模拟器” 中国公司会在AI硬件和应用方面快速发展

作为中国最大运动社交和赛事服务平台――咕咚的创始人，申波是一名不折不扣的“技术狂人”，崇拜“MySQL之父”Monty和马斯克，关注全球最新的技术及产品趋势。

他的办公桌上总是堆满了各种技术类书籍，从Stable Diffusion，到DeepMind，再到ChatGPT，他都能信手拈来。他在朋友圈笑言，“以后退休了，得找个面朝大海春暖花开的大院子coding（编程）。”

谈及Sora对行业的影响，申波表示，“OpenAI开发的文本到视频生成器Sora，有潜力显著影响依赖视觉内容的多个行业，特别是影视娱乐、教育和营销行业。”

就运动健康应用领域而言，申波告诉《每日经济新闻》记者，“Sora能够以新颖的方式吸引用户，将锻炼描述或健康提示转化为引人入胜、易于跟随的视频。这将通过提供动态的互动内容来增强用户体验，比单纯的文本或静态图像更有效地激励和指导用户。”

相比较Runway和Pika等类似产品，申波指出，“与早期主要关注生成短片的模型不同，Sora旨在生产长达一分钟的高细节视频，并致力于在视频长度上保持连贯性。此外，由于Sora能创造更引人入胜、更全面的内容，这可能使其在提供更丰富用户内容方面具有区别于其他工具的优势。本质上说Sora是一个‘世界模拟器’ 而不仅仅是文本生成视频工具。”

谈及近年中美在人工智能领域不同的发展特点和重点，申波向每经记者分析道，“美国公司如OpenAI和Google DeepMind在生成式AI技术方面取得了重大进展，例如ChatGPT和DALL-E，这些技术引领了市场和技术趋势。中国则在应用研发和商业化方面显示出新的进展，特别是AI在教育、健康、零售和安全等领域的应用。中美之间的主要差异可能在于创新的焦点、市场应用的速度和政策环境。”

目前，中国在生成式AI领域有哪些走在比较前面的应用场景和玩家？申波表示，“国内无论是大模型还是应用方面，都快速涌现出了一系列的创业公司，如百川智能，当然巨头也参与其中了，包括百度、阿里、腾讯等等。而且近日OPPO和魅族都发布了ALL IN AI的战略，全力开发推广AI手机。所以我觉得中国公司会在AI硬件和应用方面快速发展并引领行业，在大模型基座以及中文大模型上面缩小并赶上美国的水平。”

安克创新CIO龚银：Sora加速实现“千人千面”但也会稀释掉用户注意力

长期活跃于粤港澳大湾区的龚银（Neil），曾任OnePlus平台中心副总裁、创始团队高管，现任安克创新CIO，他对分布式系统、高性能高可靠系统、云计算等领域保持着持续关注和实践。

谈及Sora的横空出世，龚银表示，“这将给游戏、短视频、影视、广告和元宇宙等高品质视频内容制作的行业带来直接冲击。”

在龚银看来，Sora与此前市面上的同类产品相比拥有诸多优势。“Sora生成内容的质量更好，（尤其是在）复杂场景、角色表情、复杂的镜头运动等方面稳定性、一致性更好，三维空间的连贯性比较好，没有断层或抽离感。视频长度进一步扩展，支持60S逼真视频，基本可商用，可以生成类似游戏等互动类数字内容，想象空间更广泛。”

从技术架构上看，龚银分析道，“Transformer架构具备更好的学习性和扩展性，涌现能力更强。而runway和pika更多还是依靠图像转帧方式，连续性还未得到验证。我们在2023年就一直尝试runnway来制作和生成视频，但其稳定、一致性和可商用能力其实还是很弱，Sora的出现一下子解决了这些问题。”

就消费电子行业来说，龚银直言，“特别是我们涉及全球各区域电商平台或线上平台，依靠大量广告和内容来获取流量和打造品牌，Sora的出现对我们行业的影响利弊各半，一方面，内容的制作成本大幅下降，效率得到了质的提升，同时也有希望实现千人千面的内容；另一方面，大量内容的出现会稀释掉用户的注意力，品牌想通过内容获取用户心智的难度更大了。”

事实上，从ChatGPT开启生成式AI时代，到国内一众玩家开启“百模大战”，再到今天Sora的横空出世，中美在人工智能领域呈现出较大的发展差异。

“从已有的结果上看，美国在创新能力、创新环境、创新能力工程化和市场化等各方面能力目前还是全球最强的，”龚银表示。

龚银还指出，“国内模仿能力强，业务应用层场景丰富。在具备基础设施和能力的前提下，在AI应用层面会有一些创新和突破。另外，国内擅长在已有创新的基础上集中资源办大事，需要的是一些时间。”

谈及国内比较成熟的生成式AI应用场景和玩家时，龚银认为，“（目前）还没有看到特别成功的，一些品牌和电商其实都在摸索。在营销领域，大部分还是在文生图、文生文等方面做一些场景的尝试，比如运营活动的文案和图片、产品场景图、多语言翻译、多语言自动生成等；在研发领域，大部分是在尝试代码辅助编写，类似github和copilot。应用最多的还是在客服领域，自动服务机器人，大部分公司都有在尝试，还有一些类似AI Agent之类的应用场景。”

原贝壳金服小微企业生态CTO史海峰：Sora惊艳之处在于对场景时空更强的理解和推测能力

史海峰曾任贝壳金服小微企业生态CTO、饿了么北京研发中心总经理，也曾在神州数码(000034)、亚信联创长期从事电信行业业务支撑系统集成工作，参与中国移动、中国联通(600050)多个项目，具有丰富的大型业务系统研发实施经验。

在20余年的工作历程中，史海峰以架构师的身份活跃于IT圈，曾获腾讯云最具价值专家（TVP），开设了《IT民工闲话》公众号，常自侃“大叔级 IT 民工”。

史海峰指出，最新发布的Sora其惊艳之处不仅仅在于时间，还包括空间的延伸、视角的变换，需要“脑补”更多细节，体现了对场景时空更强的理解和推测能力。

“从文字生成文字，再到文字生成图片是一个飞跃，从图片到生成目前的无声视频（或者从单帧视频到多帧），似乎还挺顺理成章。什么时候通过音频能够把空间进一步体现，那会比现在更加惊艳，另一个维度则是实时交互。再往后大概又是AR、VR、元宇宙了。”

“作为提升生产力、降低成本门槛的工具，从C端和B端分别看的话，对UGC和PGC都会产生影响，到底有多大冲击还很难判断。在纯CG动画方面，可能大幅降低制作成本。如果支持对视频的加工再创作，在短视频、影视制作方面也可能带来新的模式，会涉及到影视、广告、社交、教育、游戏等行业。（同时）也会给反诈、维护知识产权带来更高要求，”史海峰告诉记者。

“开年王炸”Sora，在顶级“技术咖”眼里什么段位？

谈及中美在人工智能领域的发展差异，史海峰表示，“在AI时代，芯片是基座，数据是生产要素，是训练AI的养料，而最重要的是人才。（人工智能）竞争门槛高、迭代快，在达到技术上限前，不适合弯道超车或者体现后发优势，我们必须要追赶，并脚踏实地。”

本文作者系天府文创云记者谢陶，转载合作相关可搜索“天府文创云”公众号。

每日经济新闻

Tags：社会万象董明珠纽交所酒鬼酒宁静

上一篇：韩俊在合肥市调研现代服务业和民营企业时强调大力培育服务业新产业新模式新业态推动现代服务业高质量发展虞爱华参加

下一篇：代表委员履职故事｜全国人大代表谭新萍：畅通零散型农户农产品销售渠道

您现在的位置是：首页 > 科技科技

“开年王炸”Sora，在顶级“技术咖”眼里什么段位？

相关文章

热门文章

最近发表

标签列表