作者|李程程
编辑|马金男
本文独家首发钛媒体APP
作为AI视频模型,Sora可以根据文本指令创建现实且富有想象力的场景,能够生成具有多个角色、特定类型的运动,以及主体和背景的准确细节的复杂场景的高清视频,并且时长可以达到一分钟。
Sora对语言的理解也达到了一个新的层级,使其能够准确地理解提示词,并生成表达充满活力的情感的视频。它建立在过去对DALL·E和GPT模型的综合研究之上,提出了一种新的模型可能。它不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。
重要的是,Sora是一个diffusion transformer,而transformers已经在语言建模、计算机视觉和图像生成等各大领域已经表现出了杰出的扩展特性。
作为一种扩散模型(diffusion models),Sora除了能够根据文本指令生成视频之外,还能够获取现有的静态图像并从中生成视频,准确地动画图像的内容并关注小细节。Sora还可以获取现有视频并对其进行扩展或填充缺失的画面。
Sora从大型语言模型中获得灵感,这些模型通过互联网规模数据的训练来获得通用能力。(截图来自OpenAI发布的Sora技术研究报告:Video generation models as world simulators)
OpenAI发布的技术报告认为,Sora的研究结果表明,扩展视频生成模型是构建物理世界通用模拟器一条极具前景的途径。它使人工智能理解和模拟运动中的物理世界,迈向了一个新的高度。
因此,Sora也被认为是AGI实现过程里的重大里程碑事件,而不仅仅只是视频生成。
在Sora发布之前,Runway和Pika都被认为是视频生成赛道的佼佼者。Sora发布之后,很多人认为,它凭一己之力已经轻松“吊打”且即将“干翻”这两家新兴独角兽公司,并对创业者的命运表示担忧。
然而,他们自己对此却似乎兴奋更多于恐惧。Pika创始人郭文景独家回应钛媒体App称,“我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标Sora。”
此外,郭文景还透露,目前已经在招人了,具体计划暂时还不能对外透露。
在与钛媒体创始人赵何娟的【AI新生代】系列对话中,郭文景也曾提到,目前生成式视频发展的一个重要限制是算法的成熟度,这也是Pika的核心主攻方向。
“我觉得视频跟语言模型不太一样,关于语言模型大家已经知道大概的方法,算法其实已经比较成熟了。但视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的GPU不够多,很多时候其实是算法上还没有很好的一个思路。”郭文景说。
而此次Sora的发布,也给行业提供了一个非常好的算法思路,可能反倒为Pika这样的领先创业公司提供更成熟算法路线可能。
事实上,面对实力强劲的OpenAI,郭文景也早已做好了准备。早在数月前,赵何娟也曾问过郭文景,在视频生成赛道上最关心的对手是谁,郭文景当时即表示,应该是OpenAI。
作为一个在东亚文化里成长的女生,郭文景大学本科毕业于哈佛,而斯坦福博士尚未毕业就辍学创业。其创立的Pika 1.0版本的demo视频流出之后,即一鸣惊人,它能够生成和编辑包括3D动画、动漫、卡通或者电影风格的视频,并且使用起来也很容易上手。
它还允许用户自己上传视频片段,并使用生成式AI来编辑和重新构建场景。电影质感,动画级特效,Pika 1.0的视觉效果十分炸裂,似乎让普通人都能成为电影导演,即将成为一种可能。
这支最初由4个人组建pika_labs,融资超过5500万美元,几乎所有AI领域的知名早期投资公司都参与了此轮融资。
而就在Pika1.0发布才过去四个月不到,同赛道的Sora的横空出世,在AI视频生成这条路上,又增加了很多变数和可能性。
以下是之前钛媒体创始人赵何娟与Pika创始人郭文景的【AI新生代】对话实录:
当电影梦叠加AI的“魔法”
赵何娟:Hello,Demi,很高兴又见面了,很高兴你能够来到我的直播间,与我们一起来探讨这一波AI浪潮下新生代崛起的话题。作为硅谷最近非常火热的AI生成式视频项目Pika的创始人,外界对你们的讨论也特别多。我想大家应该都会对你的创业,对你本人都会很感兴趣。
我们可不可以先从你自己的经历开始聊一聊,你是怎么从哈佛大学读本科,然后到斯坦福大学读的硕博的?又怎么选择了文本生成视频这个方向来创业的?
郭文景:大家好,我是Demi。我从小就对创意行业比较感兴趣,也因此我选择去斯坦福大学。之前我一直在做AI,两年前加入斯坦福大学读博,我选的方向就是AI for content creation.,用AI做一些内容创作。
我当时跟了两个老师。一个老师是斯坦福大学人工智能实验室的主任Chris Manning,另一个老师之前是用计算机做电影的,他曾经获过两次奥斯卡奖。斯坦福也是一直尝试用AI做内容创作。我也在游戏公司做过一些AI for虚拟人,AI for 3D游戏内容,以及原画的一些的探索。
之所以开始创立Pika,一个是对这个方向比较感兴趣,另外也是我自己特别想做一些电影和视频,但我不是专业的。我曾经跟一些朋友想做一个AI电影,过程让我意识到,虽然现在视频制作已经非常先进,但还是有很多瓶颈。
我觉得AI一定会改变现在视频制作的方式。如果能够用最好的AI技术,去想象未来视频制作的方式,是一件非常有意思的事情。我就开始做Pika这个项目。
赵何娟:你在创立Pika之前,先参加了Runway的AI视频大赛。你现在做的Pika,一个很重要的或者说比较大的竞争对手就是Runway。你为什么去参加Runway的大赛,同时要做一个跟Runway完全竞争的项目?而且,Runway在这个领域里目前还是领先的。
郭文景:我当时参加这个大赛的时候,没有想要做AI视频的公司,纯粹是兴趣。当时我们放寒假,我发现这个比赛就挺有意思的,我想做一个电影。我们当时还找了一个编剧去写这个剧本,也找了一些做AI的朋友和大学同学。
这个过程,让我们意识到现在视频制作还是非常复杂。我们有很多创意是很好的,但并不能很好地实现。我们也用了很多Runway的工具,也用了一些其他的工具,我们发现还有很多空间。
赵何娟:你发现在做视频或者电影创作的时候,深入研究发现制作过程还是有很多瓶颈,主要的瓶颈是哪些?
郭文景:我当时想要把视频的背景变成一些其他的背景,包括几秒钟的视频,就要花掉我好几个小时,电脑还会出错。我想要把一个视频放嵌入到iPad的屏幕,过程也非常复杂。我根据一些教程学了一遍以后,第二遍我就直接忘记了,中间还有可能出错。这应该是比较简单的任务,没想到还需要花这么多时间和精力去做。
我们当时做的电影,找了演员,做的是从真人变成动漫的形式,当时可能还没有任何模型去做,视频到视频的功能。我们其实是用了一些新的论文,去实现的。其实AI能做,但是市面上没有很好的工具。
坚定AI信仰:比起数据,技术才是底气
赵何娟:现在GPT大模型也在不断升级,迭代速度还是蛮快的。可能在你想做那件事情的时候,还没有工具能做,但是可能当你自己去做的时候,发现其他的工具都开始做了。所以,你们来做这件事情的核心竞争力是什么呢?
郭文景:首先,我们还是比较相信自己的技术背景的。我们创始团队有斯坦福博士,团队还有麻省理工等院校的博士,和一些比较非常优秀的本科生,我还是想打造一个比较顶尖的技术团队。
相对Runway来说,我们还有几个不同。关于产品的定位和产品的策略,Runway可能还是更偏向于一些专业的用户。它们推出的很多功能,主要是面向电影制作,或者说电影工作室,更偏于一些专业用户。
但我们想做得更加偏普通用户能用的一些工具。不一定说是要做电影,也可以是帮你编辑一些个人的视频,或者是做一些比较有趣味的视频。
Runway它可能做的范围会更加广一些,比如说3D、语音、agent,各种不同的模型,方式更偏向于有一个新的算法,有新的一些功能。但我们是从视频编辑和视频制作的角度出发。
赵何娟:还有一个很重要的问题是数据。相比Runway这样已经跑在前面的公司,或者是相比其他的一些大的平台,比如说,像迪士尼现在也在做自己的视频生成的相关的模型,你们会不会认为,数据是最难与之竞争的?你们怎么解决数据的问题?
郭文景:数据的确很难与迪士尼竞争。OpenAI是现在最好的语言模型,但是为什么有很多语料库的公司,没有做出最好的语言模型呢?迪士尼也不代表它的数据一定会更好,因为它的数据量比较有限。其实很多语言公司最后还是看技术。
赵何娟:你刚才讲到的另外一个不同,你们的定位不一样。你们更偏向于普通用户,普通消费者,而不是只针对电影制作者这类专业用户。怎么理解你们想要针对普通用户这样的一个定位?像TikTok这样也是针对普通用户,每个人都可以在上面做一段创作或者短视频,是不是你们也会往平台方向去拓展?
郭文景:我们现在没有这方面的想法,我们更多是基于技术之外的一些功能性的开发。
赵何娟:那普通用户怎么用你们呢?他们用Pika,更多是用来做什么呢?
郭文景:我们现在更多是希望用户可以做一些视频的生成和视频编辑。具体的应用,目前我们还是比较开放态度,是让用户去决定。我们现在更多是把技术瓶颈突破。
赵何娟:现在技术突破上最大的一个难题是什么?
郭文景:我觉得视频跟语言模型不太一样,关于语言模型大家已经知道大概的方法,算法其实已经比较成熟了。但视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的GPU不够多,很多时候其实是算法上还没有很好的一个思路。
举例子来说,比如现在大部分常用的视频模型,根据设计来讲,它就不可能生成很长的视频,因为它每一帧的图片是一起生成的。它有一些算法上的瓶颈,无法做出我们想象的那种非常长、非常好的视频。它其实还需要一些算法知识上的突破。
赵何娟:接下来的创业里,对于你来说,还会有哪些挑战?
郭文景:AI是高速发展的一个行业,一定会有很多的变化,竞争对手也有很多的变化,整个行业日新月异。更多的挑战是一些不确定的挑战,我们也不知道未来会发生什么。所以,对我们来讲,我们的心态是,这就是没有什么挑战。
现在我们更多的是想建立一支比较好的团队。没有什么挑战是不能克服的。可能有些挑战更难一些,你花的时间需要更多,去探索,去找到一个解决方案。
赵何娟:你之前是对AI和创作感兴趣,但你与团队在磨合的过程,或者在组建团队的过程里,发现就凭兴趣做事,和做公司之后,感受有什么不一样的吗?
郭文景:我们很幸运的一点是,我们做的公司,就是我们的兴趣。我就是目标用户。我有时候工作闲的时候,就会去用我们的产品,去做一些视频。包括我们最早的一些市场向的视频,就是我做的。
我们比较幸运的一点,是因为我们对自己的这个方向特别感兴趣。所以,我们的团队也是相对比较有活力,都是属于比较有自主动力的人,而且团队还比较小。创业是最幸福的事情,在做自己最想做的事情,而且跟一群我们觉得非常优秀,同样对这件事感兴趣的人一起做这件事情。
赵何娟:你们的投资机构,光速创投的合伙人Michael,他说,Pika团队是他见过行动力最快的团队,我不知道你怎么看待这个评价?
郭文景:我们团队一直比较看重执行的效率,这可能也是小团队的一个优势。
赵何娟:我们再来聊聊趋势。之前我有看到英伟达的科学家说,2022年是影像之年,2023年是声波之年,2024年是视频之年,你怎么看这个演化的过程?近几年说视频也都好多年了,为什么说今年是视频之年?
郭文景:视频可能现在虽然没有那么完美,但是今年一定会有比较大的突破,因为现在用AI一个做好的视频,需要在prompting,提示词上有一些技术。你可能需要在这方面比较有经验,就能做比较好的视频。但如果你没有很有经验,就不能做出很好的视频。
这是因为现在视频模型还没有那么成熟,但我们觉得马上会非常成熟。
今年可能就可以做出产品,是能够让所有人不需要有很多的经验,就能够做很好的视频。
赵何娟:接下来也想聊一聊你对整个AI的行业的一些判断。你怎么看待最新的这一波的AI革命浪潮,有没有可能有更多的机会也是你感兴趣的?除了你现在做的视频之外,你接下来还有没有哪些想法?
郭文景:我非常相信AI浪潮。我知道很多人可能会觉得AI浪潮实在有点太火了,或者是有一些过度,有些泡沫。但我们还是很相信的。不管说这个热度是否过火,但是技术真的是有突破。我们也相信,未来AI一定会改变很多行业,很多的应用,包括应用的一些使用。这个是毋庸置疑的。可能包括视频制作或者说音乐制作,购物方式,AI都会对传统的方式有颠覆。
“别人家的女儿”是如何长成的?
赵何娟:你做这个的事情,你家人怎么看呢?
郭文景:我家人还挺支持我做任何我想做的事情的。
赵何娟:Pika创业项目出来之后,你们公布了融资信息,又发布demo,大家也都非常关注你的家庭背景,都说这是“别人家的女儿”。
所以,从你自己角度来说,你觉得家庭的教育,对你不管是求学,还是创业的想法,起到了什么启发或者作用?一个这么优秀的女孩子的成长,一个很好的家庭教育还是很重要的,或者是起到了很至关重要的作用。
郭文景:我觉得我还是挺幸运的,我的整个成长经历,也挺感恩,不管是对我的老师,或者是家里人。因为我从小一直对创意行业比较感兴趣,我小学的时候,其实是想做一个作家,想要追求一些文艺的梦想,包括我家里人,其实当时特别希望我能走一些文艺的路线。我当时坚持要做编程这条路线的时候,我还跟我父母大吵了一架。我有姐姐和妹妹,她们是做的偏这个艺术方面的一些工作。
赵何娟:你小时候那么喜欢写作,什么时候开始又开始对编程感兴趣的?是什么触发你突然对编程感兴趣了?
郭文景:我当时特别喜欢诗歌。我小时候喜欢写作,喜欢看诗歌、散文集。我特别喜欢一些比较抽象的诗歌,一些带有隐喻的散文,结构上的设计上比较巧妙的诗歌和散文。
当时接触到编程,也是纯粹觉得非常有意思。五六年级的时候,刚好家里有一本书讲的是LOGO程序语言,是一个小乌龟画画的一个语言。当时暑假没事儿干,看了这本书,就学会了这个LOGO语言。你可以通过编程的方式,去做一些创作。
程序跟诗歌还是有一些共通之处的,是需要去设计的。比如说,结构化的编程,你需要设计一下,函数怎么搞,结构怎么搞。但它与诗歌不一样的点是,你最后的输出的这个东西,是可以交互的。
赵何娟:你可能在小学的时候接触编程是玩儿,但是,在成长的过程之中,比如说,中学之后就要开始想专业方向。你在专业方向选择的时候,为什么没有选文艺那条路?比如说,去学文学或者是学艺术相关的,而是完全走上了这个计算机科学这条路。
郭文景:我其实到初中、高中以后,就逐渐喜欢上了编程。纯粹是个人兴趣,没有想到编程会对我升学有帮助。当时每天要先好好做作业就开始去编程。编程与文学不一样的有意思的点是,编程真的能做一些应用,一些实际上的大家都能用的一些应用。我觉得这件事情非常的magical。
大学也是兴趣导向的。我大学本科修的是数学。但是,我同时也与一些博士生一起,上一些计算机的课。在哈佛修的是数学学位,同时拿了一个计算机的研究生学位。我在哈佛也上了很多人文课。
前两年,我就把计算机和数学的学位拿到了。后面两年,其实我主要都在上人文课,关注文艺的一些事情。
赵何娟:这个也蛮有意思的,不管是计算机还是文艺,都是你的兴趣。然后,你现在就把这些不同的兴趣,通过创业,把它结合起来了。
郭文景:这是两个不同方向的兴趣。大一时候,我就开始接触AI。因为当时觉得AI像是一种魔法,AI这么神奇,这么powerful。比如说,AI当时能够做人脸检测之类的,我觉得非常不可思议。对AI也感兴趣,对艺术和创作一直都很感兴趣,我很难找到一个更让我觉得更有意思的事情。
赵何娟:你从哈佛学习,又来到了斯坦福。这两所学校,一个在美东,一个在美西。你觉得这两所大学对你来说,以及你在这两所学校里收获的东西,有什么不一样么?
郭文景:两者不同的话,其实很难说。主要是本科经历和博士经历不是很一样。大学可能会更广一些,更注重一些探索,可能会修不同的领域的课,会认识不同领域的人,但博士可能更偏专业一些。
赵何娟:美东的文化和硅谷的文化相比,差异其实也蛮大的。在你看来,这两所学校的教育模式、创新,或者与企业界的联合的方式,有什么不一样?你会更受益于哪一种?你的创业可能会更受益于哪一种?
郭文景:其实挺难对比的。每个学校环境不太一样。可能在哈佛,在美东,大部分的朋友都在搞金融,但是,斯坦福会有更多同学对创业感兴趣。
斯坦福有很多计算机的课,计算机与其他学科结合的课也非常多。哈佛与计算机相关的,没有几个课,我们当时要上一些博士level的课,可能也就二十几个人。甚至,我当时还在MIT上了一节课。
其实计算机相关的,在哈佛也是第二大的学位。在哈佛很多学习计算机的人,后来也没有去做计算机相关,很多人去做股票、咨询或者产品经理之类的工作。
赵何娟:斯坦福的创意氛围更浓,斯坦福大学也有很多辍学创业的,都还比较成功。你的前辈们在硅谷各领风骚好几年。过几年,又会有一波新兴的创业新秀起来。这也与硅谷和斯坦福独特的文化有很大的一个关系。
你当时怎么就下定决心,决定辍学去创业的?尤其你是从小成绩就很好,是家里的掌上明珠,为什么有辍学这个跟你之前的人生可能很不一样的决定?
郭文景:相比读博来讲,我个人对创业会更感兴趣。我其实在哈佛从中间也辍学了一年,再回去读的。我当时大二的时候,在Facebook就是现在Meta全职工作了一年,在AI研究实验室,主要是感兴趣。对创业比较感兴趣,是因为我觉得还能做一些应用。
我比较喜欢追求自己热爱的事情。在美国,一些本科生辍学还是挺正常的一件事情。我的幸运的点是我的导师。包括我的博士的导师,都特别支持我。他们在学术上都非常资深,一个是斯坦福人工智能实验室主任,一个是获得了两个奥斯卡奖。我博士的导师,现在是我创业的导师和顾问。现在我还是会定期去见他们。
赵何娟:他们怎么看待你现在这个创业项目的?
郭文景:他们非常支持。我当时跟我一个导师说了这个事情,他马上在电话上直接说支持我。他说,聪明的人就应该去做自己想做的事情。我觉得非常幸运,我也非常感恩我的导师,他在一些技术上的知识都会支持。现在,他还是会跟我们进行一周一次的技术上的指导。我的导师也会觉得,快乐最重要。
赵何娟:特别感谢Demi,Demi是一个很真实、率真,可爱的姑娘。也有很多年轻一代的人,看到AI这个大浪潮来了。能不能请你给你的同龄人一些方向性的建议,如何把握到这次机会?
郭文景:也不能说给什么建议,可以分享一下我个人的想法。我觉得其实很多时候,还是要追求自己的内心想做什么,还是要追求自己的个人的兴趣。大家的人生只有一次,要做自己热爱的事情,只有做自己热爱的事情,才能做得到最好。
原文:
本文地址:https://www.163264.com/6573