当前位置:大河车网 > Sora爆火,它能颠覆汽车行业吗?

Sora爆火,它能颠覆汽车行业吗?

2024-02-22 来源:大河车网

对于人工智能,人类向来保持着“期待和担忧各半”的态度。已故物理学家斯蒂芬·霍金曾经这样评价人工智能,“人工智能可能是人类历史上最大的发明。”但是他同时强调,“它可能带来无限的好处,但也可能是我们的末日。”霍金的这句话,表达了人们对人工智能带来的巨大潜力和威胁的“双重感情”。

 

现阶段,人工智能还处在爆发的前夜,但也展现出巨大的成长潜力。窥一斑而知全豹,随着OpenAI推出Sora、谷歌发布Gemini1.5Pro,在2024年,人工智能会如何影响媒体、广告、乃至智能汽车行业呢?

 

 

2月16日,OpenAI宣布推出全新的生成式人工智能模型Sora。对此,多家券商评价到,AI视频生成迎来里程碑时刻。

 

招商证券说,Sora将推动AI视频生成进入一个全新的时代。华泰证券的报告说,视频AI进入大规模应用的前夜。天风证券的报告说,下一个亿级用户的互联网平台雏形已然出现。


Sora的工作原理类似DALL-E:用户输入想要的场景,Sora即可返回一个高清视频片段。此外,Sora还可根据静态图像拓展现有视频或填充缺失的帧。与Runway Gen2、Pika等文生视频模型相比,Sora主要实现了以下突破:

 

视频时长达到60秒:Sora可以通过文本指令直接输出长达60秒的视频,并保持视频主体与背景的高度流畅性与稳定性。

 

文本的深度理解能力:Sora可以准确理解用户的文本指令,无论是复杂的动作场景还是细腻的情感表达,Sora都能够精确捕捉并展现。

 

对真实世界的理解:Sora对物理规律的遵循程度较高,对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。

 

长序列连贯性和目标持久性:Sora能在单个视频中生成同一角色的多个镜头,并在整个视频中保持其外观。

 

即使人、动物和物体被遮挡或离开画面,Sora模型也能使其保持不变。另外,Sora表现出了良好的多模态能力。

 

其一、Sora不仅支持文本生成视频,还能够根据提供的图片作为输入来生成视频。

 

其二、Sora还能够扩展生成的视频,在时间上向前或向后扩展,并具有连接视频等视频编辑的能力。

 

其三、Sora还有生成图像的能力,Sora可以生成不同尺寸大小的图像,分辨率最高可达2048X2048的水平。

 

这意味着,只要你的要求提得足够清晰,且视频长度在60秒以内,那么Sora几乎可以零成本地执行你的所有设计。


OpenAI将Sora定位为模拟世界的视频生成模型,能够模拟真实世界运行的规律。这也是多家券商高度评价Sora的原因所在。

 

同期,谷歌宣布了下一代大模型Gemini 1.5 Pro。Gemini1.5 Pro将上下文窗口长度扩展到100万个tokens,实现了迄今通用大模型最长的上下文窗口。


这意味着使用1.5Pro能够一次性处理海量信息,比如1小时的视频、11小时的音频、超过30,000行的代码库,或是超过700,000个单词。

 

一种是AI视频大模型,一种是通用大模型,两者先后发布必定不是巧合。

 

GPT-4已经激起了普通人投身AI领域的热情,Gemini则展现出后发制人的潜力。不难想象,在Sora之后,谷歌也会推出自己的AI视频模型。毕竟,3D、视听等多模态模型仍是一片蓝海。

 

GPT-4和Gemini,就像一对双子星,在通用大模型和细分领域大模型之间不断展开竞争,也将持续促进乃至颠覆汽车行业的认知。