文|周鑫雨开yun体育网
剪辑|苏建勋
Luma AI 在视频领域叫板 OpenAI 故事,好比半途改打网球的杜兰特,打赢了网球男单大满贯纳达尔。
最近,这家建造于 2021 年的硅谷 AI 公司,在和《智能表露》的交流中,复盘了视频生成模子 Dream Machine AI 爆火的过程。
在硅谷率先发布一款遵循能对标 OpenAI Sora 的视频模子,对一家初创公司而言并禁止易——更并且,Luma AI 在视频生成领域算得上是"老到有素":
2024 年前,这如故个主攻 3D 生成、领域在 10 东谈主傍边的小公司。Luma AI 数据居品崇拜东谈主 Barkley Dai 告诉《智能表露》,2023 年 12 月决定转型作念视频生成后,团队才推广了视频领域的东谈主才,领域加多到了 50 东谈主。
他提到,Luma AI 能成为视频生成领域的蚂蚁大军,时刻实力、发布时机和运营策略不可偏废。
东谈主才,是这家公司认为作念出视频模子最垂危的金钱。2023 年 12 月,决定从 3D 转型作念视频生成后,Luma AI 吸纳了 40 个 AI 领域的东谈主才。
而和 OpenAI、Google 打擂台,Luma AI 又对模子的算法和 Infra 作念了诸多优化。Barkley 对《智能表露》示意,团队在 Sora 同款 DiT 架构的基础上,选定了独家校阅的架构,保证生成遵循的同期,还省俭了查抄和推理资本。
视频模子" Dream Machine AI "的发布时辰,2024 年 6 月 13 日,踩中了视频模子赛谈的空污点——这也让 Dream Machine AI 具有了稀缺性,除了快手"可灵"除外,这是惟一的确对巨匠通达的视频模子;
而模子的"限免"策略,又坐窝蛊卦了大齐试用者:上线 4 天,Dream Machine AI 的用户量就破了百万。Barkley 对《智能表露》败露,Dream Machine AI 的投流用度是 0,全靠 KOL 自愿安利,和用户的口碑发酵。
爆火之后,提高用户留存,不让光辉好景不常,是 Luma AI 如今的命题。
2024 年 11 月 26 日,在视频模子发布后近 6 个月,Luma AI 在 iOS 和 web 端上线了 Dream Machine AI 创意平台。与之配套发布的,还有 Luma AI 自研的首款图像生成模子,Luma Photon。

△ Dream Machine iOS 界面。
Luma AI 居品贪图师 Jiacheng Yang(杨家诚)告诉《智能表露》,与 Midjourney、Adobe 等专科贪图器具不同,Dream Machine 不需要用户学习如何写 Prompt(教唆词),也不需要用户懂贪图,"咱们的倡导便是作念一款 AI 小白和贪图小白齐能浮松上手的 AI 视觉器具"。
据他先容,Dream Machine 共有 5 个中枢功能:
(1)用天然语言进行对话,终了图片的创作生成和剪辑;
(2)由 AI 提供创意点子,凭据用户输入的 Prompt,自动提供创意、立场选项;
(3)视觉参照,凭据用户输入的像片,生成带有交流主体或者立场的图片;
(4)将 AI 贪图的图片转移为视频,供用户检察图片中主体在不同角度下呈现出的细节;
(5)将总计 AI 生成的素材发布在面板上,并生成可供共享的连结,有助于团队进行头脑风暴。

△ Dream Machine 视觉参照功能。
为什么接管用图像贪图平台,去相连视频模子的用户?"想要扩大 AI 视觉领域用户的盘子,唯有视频生成是不够的。图像生成的诓骗场景会更凡俗,是以咱们想作念一个很好上手的贪图平台,用户能够浮松上手的同期,也能展现咱们的模子能力。" Barkley 提到。
行业竞争,是看成初创企业的 Luma AI 不得不靠近的问题。他们认为,打出各别化上风,是让模子和居品在行业中具有辨识度和获客的要害。
比如靠近 Midjourney 等图像居品的竞争,Dream Machine 把语言意会能力作念到了"天花板"。以及,这亦然一个最会贪图字体的模子——相较于 Midjourney 和 GPT 生成的带笔墨的图片,Dream Machine 图片中笔墨的贪图感和了了度是最高的。

△ Dream Machine 在图片中生成的配文。
和视频模子一样,Luma AI 给 Dream Machine 破耗的投流预算,是 0。在 Barkley 看来,烧钱营销看的是通告率,这意味着最终如故要用居品言语。以及," AI市集还很小,我以为对 AI 公司来说,烧钱营销还为先锋早。还不如把营销的钱,投到居品研发上"。
以下《智能表露》与 Luma AI 增长崇拜东谈主 Barkley Dai、Luma AI 居品贪图师 Jiacheng Yang 的交流,内容略经《智能表露》剪辑:
烧钱营销,AI 公司还为先锋早
《智能表露》:2024 年 6 月发布视频模子 Dream Machine 的时候,团队有莫得料想到会爆火?
Barkley:其实那时是远超咱们预期的,咱们一度出现作事器和 GPU 资源莫得办法承受的情况。
《智能表露》:如果要回归爆火的教养,你以为是什么?
Barkley:其实最早发布的版块,还不是遵循最佳的版块。但咱们决定全量免费放给总计的用户去使用。
在那时,还莫得一个视频模子能够作念到这样。是以短时辰内蛊卦了好多用户的关注。
《智能表露》:关于创业公司来说,作念免费的决定是不是还挺禁止易的?
Barkley:其实咱们那时也给免费缔造了一个额度,我以为这是一个行业的 standard practice(基本操作)。
仅仅那时的峰值对咱们来说过高,大齐的用户在短时辰内涌入,作事器后台收到了太多的 request。
《智能表露》:公司能职守流量带来的推理资本吗?
Barkley:其实咱们如故在时刻层面作念了好多资本的优化,比如赓续去普及视频生成的速率,最运行咱们的模子生成 5 秒的视频需要 120 秒,目下只需要 20 秒。
以及在保持原有生成质料的情况下,视频模子的推理还有好多优化的空间。是以在半年时辰里,视频模子的资本是鄙人降的。
是以我以为推理资本对咱们来说不是止境大的职守,天然亦然一笔开支,但改日会变低。
《智能表露》:你提到 Dream Machine 是有免费额度的,那么使用完免费额度后的用户付费率若何?
Barkley:说真话咱们凑合费率全齐莫得任何预期。因为那时咱们对 Dream Machine 的定位是教师用户的居品,让用户知谈 Luma AI 视频生成的后劲有多大。那时市面上还莫得一个视频模子是按照对标 Sora 的水平发布的,是以咱们凑合费率全齐莫得对标的对象。
但目下发布的 AI 贪图平台,咱们的定位是最终去获客的居品。是以目下咱们对它的收入和付费率有更高的期待。
《智能表露》:Dream Machine 在营销上进入了若干?
Barkley:0,咱们在发布的时候莫得作念任何的营销付费。
天然咱们提赶赴研究了好多创作家,他们试用后齐以为很容许,以致大多数东谈主之前用过 Runway,还有东谈主用过可灵。但他们用了咱们的居品后,齐以为说" This is the next big thing ",在推特上自愿帮咱们实施。
但咱们莫得作念任何的投放,因为咱们如故敬佩收效的身分便是居品自己。
《智能表露》:烧钱营销,这一套布置在硅谷 AI 公司常见吗?
Barkley:我嗅觉硅谷大部分如故比拟居品驱动的,运营这一套主若是中国公司。
视觉领域的市集还很小,我以为对 AI 公司来说,烧钱营销还为先锋早。即便 ChatGPT 的用户好多,关联词像一些视觉模子,用户如故很少数。
这个时候如果你作念投流,去作念赛马圈地,留存肯定不高,还不如把这些钱进入到模子和居品的研发上,用更好的模子和居品吸援用户的增长。
《智能表露》:在发布视频模子之前,Luma AI 的时刻和居品如故围绕 3D 生成的。团队是什么时候决定作念视频生成模子的?
Barkley:约莫在 2023 年 12 月。
《智能表露》:为什么从 3D 转向作念视频和图像模子?
Barkley:咱们蓝本其实也不会说我方是一个 3D 公司,公司的定位如故视觉领域的 AI 公司,咱们想去意会这个天下在视觉上的构造,是如何匡助 AI 对天下进行意会的。
从首创团队的研究布景来看,一运行 3D 是 Luma AI 比绝大多数公司和团队更擅长的事。后续咱们也确乎作念了好多 3D 生成上的时刻打破。
关联词 3D 不错被用于查抄的数据量级,相较于图片和视频来说齐会少好多。同期在使用场景上,目下手机和电脑如故主要的居品载体,但 3D 也会比视频更受到适度。
关联词当咱们有更多的算力、更多的东谈主才,也有更多的能力去鼓吹咱们的愿景,也便是更好地了解天下,咱们也天然地会从 3D 转向作念视频。
《智能表露》:这会不会让公司看起来策略有些扭捏?
Barkley:从我看成一个里面成员的视角来看,我以为岂论是 3D 如故视频生成,一直齐是合理的。
因为岂论是 3D,如故视频和图片,齐仅仅一种模态。如果咱们最终想作念到的是对这个天下的意会,那么岂论是一种模态、一种生成,如故一种创意的发达,我以为只须倡导不变,这些序论就仅仅帮咱们达成倡导的妙技。
《智能表露》:从 3D 转型作念视频生成,时代有遭受什么艰难吗?
Barkley:我以为通盘过程如故比拟获胜的,因为咱们在作念 3D 生成的时候,团队也就在十几东谈主的领域,但当咱们作念视频生成以后,引入了好多视频领域的东谈主才,目下团队领域仍黑白常了 50 东谈主。
这个过程其实是吸纳了更多新成员去鼓吹倡导的终了,而不是说蓝本民众就在通常地换标的。仅仅蓝本作念 3D 的东谈主,目下也在空闲运行作念视频方面,比如数据等各方面的职责。
《智能表露》:作念 3D 的履历对视频生成有匡助吗?好多反映说 Dream Machine 的畅通轨迹作念得很好,这和 3D 蕴蓄下的空间意会能力研究吗?
Barkley:我以为可能不一定有那么顺利的联系。
但从咱们发布最早版块的视频模子运行,咱们对相机的轨迹畅通,包括视频里有若干机位的变化,是十分侧重的。
是以那时用户也会开阔反映说,Luma AI 的模子天然只怕候生成终结不是那么结实,关联词它能给到好多的机位的挪动,以及复杂的东谈主物畅通轨迹。
我以为往时在 3D 上的一些教养,能够让咱们在作念视觉模子的时候,理会到普及机位的丰富度和畅通轨迹的复杂度,能够提高用户对视频生成内容的破费意愿。
不外我以为往时的教养,包括模子自己之间,其实莫得那么大的关联性和模仿意旨。
《智能表露》:是以时刻转型最垂危如故补充新的时刻东谈主才是吗?
Barkley:是的。
相连住模子的爆火,需要有居品
《智能表露》:6 月份 Dream Machine 走红后,你们如何磋商用户留存的问题?
Barkley:咱们发布 Dream Machine 的时候,就知谈后头一定要有居品去相连用户持续结实的需求。
比如你看成一个 ChatGPT 的历久用户,即便后续会出来好多能力作念得和 GPT 差未几的模子,你如故简略率会接管使用 ChatGPT。因为 ChatGPT 通过历久的深度学习,仍是把执了用户习尚,能够更好地意会你的意图。
行业里永恒会有更好的模子出现,但居品最终是能够让用户留存的点。
《智能表露》:团队是从什么时候规划作念这样 AI 贪图平台的?
Barkley:这个想法其实在咱们最运行作念视频模子的时候就有了。是以居品的想法是旧年(2023 年)12 月和视频模子同步鼓吹的。
仅仅在居品的贪图过程中,咱们其后理会到,要想把通盘贪图经由涵盖,也必须要作念到能够生成图片。是以在视频模子发布 5 个月以后,咱们以为图片模子也有余好的时候,把两部分同期整合成一个居品。
《智能表露》:平台的倡导用户是哪些东谈主?专科贪图师如故巨匠?
Barkley:其实咱们以为蓝本的 Dream Machine,更多的用户如故偏专科的,至少是有作念 AI 电影的教养,或者知谈如何用 Prompt 去生成更好的遵循。
但其实咱们更但愿目下的居品,让之前没灵验过 AI 以致莫得贪图教养的东谈主用起来。比如,如果他们在职责中需要用这样的经由,不错额外容易地通过一轮一轮地和 AI 进行对话去终了。
咱们在 6 月份发布的视频模子 Dream Machine,其实如故需要一些使用门槛的。咱们在那时候就在想,但愿平日东谈主也能 access 这些视觉器具,就好比视觉里的 GPT。
但视觉是一个很小众的垂类领域。咱们作念贪图平台的想法便是,如何去扩大这个群体。唯有扩大群体,才能让视觉领域的 AI 获取更好的发展。
《智能表露》:非专科贪图师很难把一整套贪图的职责流用得很深远。我的大部分生图需求,可能输入一个圣洁的 Prompt,用 GPT,或者 Midjourney 就能高傲。
Jiacheng:咱们的想法是,把用户能浮松感受到区别的功能作念到最佳,比如咱们图像能力比 GPT 好,关联词语言意会能力比 Midjourney 要好。
我用归拢个最基础、全齐不复杂的 Prompt,让 Dream Machine 和 Midjourney 对比一下:i want to make a poster for my brother band " crazy avocado " .(我想为我兄弟的乐队"猖狂牛油果"作念一张海报。)

△ Dream Machine 凭据" i want to make a poster for my brother band ‘ crazy avocado ’"生成的乐队海报。

△ Midjourney 凭据" i want to make a poster for my brother band ‘ crazy avocado ’"生成的乐队海报。
你看 Midjourney 生成的海报,既不 Crazy,也莫得 Avocado 的元素,也看不出来是个乐队的海报。
语义意会的能力其实比你联想的垂危,会影响好多场景的落地。因为生建设时的、颜面的图片,在实用场景心仪旨不是很大。
如果要让 Midjourney 的确收复你的意图,你需要写好多 Prompt,包括海报的贪图、上头写的笔墨、施展 Crazy 的立场等等。学会写 Prompt,我简略花了两三个月时辰。
但我信赖 ChatGPT 的大部分用户是不会去学的,他们便是进来问一个问题,得到一个论断。
咱们作念贪图居品的念念路,亦然一样的。按照之前市面上的居品,如果我想要得生成收复我意图的图片,率先,我要花 20 好意思金买 Claude 或者 GPT,帮我生成 Prompt;其次,我要再花 20 好意思金到 40 好意思金买 Midjourney,生成图片;终末我还要花 20 好意思金的订阅,把这些图片形成视频。
算下来,文生视频起码要花 60-80 好意思元。目下用 Dream Machine,可能 10 好意思元就能不停了。
《智能表露》:Dream Machine 语言意会能力的着手,亦然自研模子吗?
Barkley:语言模子用了第三方的 API,咱们再去构建了一个 Agent。这个 Agent 能够意会用户意图,然后通过不同的 Prompting 的姿色,把用户意图转移为图像和视觉模子能够意会的指示。
《智能表露》:Luma AI 目下既有模子,又有居品,如何去作念贸易化?
Barkley:居品如故会选定订阅的姿色。模子便是提供 API。
《智能表露》:不作念定制化?
Barkley:定制化不太得当初创公司,会散布元气心灵。
目下莫得专科视觉器具,在界说交互范式
《智能表露》:一个俗套的问题,你们如何看待巨头下场?按照国内的情况,字节和快手的下场,仍是给好多初创公司带来了融资和获客上的压力。
Barkley:咱们发现,这个问题其实是公司和股东之间的问题。唯有股东才会柔顺:如果哪天一个巨头把你这个事情作念了,会如何样?
但本色上,咱们公司好多 Research 齐有这样的嗅觉:当公司达到一定例模,需要你去合营多样千般的东西的时候,你鼓吹的速率会变得止境慢,改造的速率也会掉下来。
天然 Luma AI 的团队在往时一年多的时辰里也推广了好多,但如故保持着快速改造、快速迭代的节拍。
我以为有一个类比止境好:其实你在大公司里,的确去作念视频模子和相应居品的团队,可能也唯有几十个东谈主。比如 OpenAI 看起来很大,但 Sora 的团队也就这样多。
天然说到更大的公司,比如 Google,他们可能有比咱们更好的 distribution channel(扩散渠谈),但他们相似会受制于多样经由上,一个新址品会有贸易化等好多方面的 concern,鼓吹的速率不会那么快。
《智能表露》:Luma AI 的迭代节拍有多快?
Barkley:全体迭代速率一直是以几个月,以致是 1-2 个月来经营的。时代会加入新的功能,底层模子的遵循也在普及。
就像 Dream Machine 1.0 在 2024 年 6 月发布,1.5 版块是在 8 月发布。1.6 版块加了 camera control(镜头适度)功能,在 9 月底发布。
《智能表露》:一个新的贪图器具型居品,如何去获客?
Jiacheng:我以为率先不错去分析 ChatGPT 是如何获客的。你会发现,ChatGPT 不光最佳的本事员在用,你相近的大叔大妈也在用。
我以为 AI 器具带来的最大的变化是,由于它自己的可塑性和生动性,它不错作事的确总计有视觉需求的东谈主。
我并不以为目下特定的视觉专科的软件,有额外好的交互,换句话说,目下莫得专科视觉器具界说了通盘行业的交互范式。
《智能表露》:你如何界说"好的交互范式"?
Jiacheng:比如 ChatGPT 就界说了通盘行业 ChatBot 的交互范式,像目下好意思国的小孩齐不是说 ChatGPT,他齐是说你有么有问你家的" Chat "。
这里的" Chat ",仍是成了一个像" Google 一下"的活动。
咱们作念 Dream Machine 亦然一样的。谁能先把平日巨匠的联想,通过一个畅通、圣洁的依次,呈现出一个颜面兴致,然后能共享给别东谈主的或者灵验的图片,谁就能在这个领域有上风。
《智能表露》:从立项到上线,时代你们对交互体式进行了哪些探索?
Jiacheng:咱们目下来说,包括行业对咱们的默契,齐是一个视频模子科研公司。
关联词如今的 AI 时刻是一个额外以用户体验为中枢的居品,时刻型居品的倡导和迭代过程很昭彰,便是最佳的用户体验。
咱们能猜想的最佳的用户体验,便是用最天然的交流姿色,把 Dream Machine 当成一个创意助手或者 Creative Partner。你如何和贪图师互动,就如何和系统互动。
有了这样一个倡导,咱们就会去了解咱们的图片和视频模子,能够提供若何的能力。同期也去了解通盘行业处于若何的发展阶段,第三方的语言模子能够给咱们若何的匡助。
时代,多样千般的 Agent 软件器具也在迭代,民众关于 AI 诓骗层的念念考也有变化。是以一年以来,咱们的居品便是一个持续迭代的过程,具体便是一个月凭据行业变化打磨,再花一个月去修改。
这些东西总体统筹、会通起来,才有了目下这样的遵循。
Barkley:时代咱们也发现,在 AI 视频生成领域,目下图生视频比文生视频愈加受接待,因为用户在乎可控性。
是以总计能够普及可控性的,齐是用户额外需要的功能点。
《智能表露》:时代行业哪些居品或者默契的动向,会对公司的居品研发节拍产生影响?
Barkley:其实我以为往时一年时辰里,咱们的居品策略莫得变太多,如故一直想作念能让总计东谈主收缩使用模子的居品,不会跟着其他 AI 居品的发布去作念任何的策略调节。
我以为居品团队更柔顺的事一些 Research 上的动态和进展,比如咱们想作念立场调节、立场迁徙的功能,就会去查有哪些最新的学术研究和论文,以致居品团队会加入 Research 团队的计划,去看研发功能的可行性。
《智能表露》:居品团队在日常职责中是如何和算法团队交流的?
Barkley:立项的时候,咱们会从用户的角度,以为立场模仿这样的功能很垂危。
关联词从 Research 的角度,其实他们省略情这个功能能不行作念出来,以及能达到若何的遵循。是以 Research 会先去作念好多的执行,直到他们把算法作念出来以后,咱们看到这个功能的极限,再去念念考如何把功能融入到全体居品和体验上。
是以其实 Research 是一个愈加省略情的过程,通常需要比拟长的时辰,也不知谈要花多永劫辰查抄。
《智能表露》:时代也会断念好多暂时不够好的功能。
Barkley:对。是以其实好多功能咱们会从用户的角度去想,有的功能 Research 团队能够在短时辰内作念出来,有的功能咱们又络续进入,去作念更长的研判,体目下改日的居品里。

接待交流!

接待关注!开yun体育网