这里的图片是 Midjourney 参考《狂飙》里的卖鱼仔老默做出来的;声音由 ElevenLabs 生成,取样是我过去录制的三期单口的播客;讲话内容是 ChatGPT 生成的对 AI 的看法;对口型生成视频是 D-ID 的 AI 产品做的。(参考了@汗青、@Leo的思考笔记、@Szhans 提供的资料和方法。推荐去即刻社区关注他们。)目前这些 AI 功能的成本并不高。整个制作成本按用户侧算约合 20 块钱,半个多小时搞定。可以猜想下对未来内容制作行业的影响。
还有一个有意思的案例,是可以进一步降低制作门槛的:
直观的感受是,抖音、视频号、小红书的内容,会很快有工业化生产替代机械劳动的机会,很多编辑、美工、剪辑会纷纷失业;知乎、豆瓣和公众号会慢些,也不远。我脑海里总会浮现一个景象,就是一个视频账号的主理人,每天可以发 10 条高质量的内容,一人成团。他需要做的,就是设立主题、检查进度和斟酌内容的改进意见,剩下的,从取材、求证、编排、拍摄、制作、配音等等由 AI 搞定。(用 Midjourney 绘制的场景)这是第二个场景,内容创作的辅助工具。它带来的应该是目前所有内容工作室的基础工作的价值,估计也是百亿量级的市场,而能占领这个市场的,大概率还是目前的大型内容平台。 3. AI as Creator 接下来就需要一个思想实验了:推演一下内容创作的生态,如果 AI 足够强大,真的需要人的参与吗?会不会从选题,到迭代,AI 全部能包圆儿呢? 这里有三个命题,每个都会有不同的结局。第一个命题是:AI 能不能选题并制作出好的内容?这在某些品类下也许可以。拿搞笑类的视频举例子,我经常看到有些短视频,内容就是小时候看过的《故事会》里的那种袖珍小笑话。对于 AI 来讲,理论上是可以搜集人类历史上几乎所有信息的。那它可以设法翻遍的所有笑话,结合想象出来的场景,配适当的人物形象和台词,做成视频。对于如何判断是否搞笑来说,AI 一开始未必能真正做好。不过互联网的内容平台,擅长的就是基于反馈快速迭代,这与 RLHF 的逻辑契合。AI 负责做抖音的短视频,它可以通过海量用户反馈去快速学习到底喜欢看什么。那前面说的一人成团,干脆就变成无人成团了。 抖音原来是圈养了一大批创作者作为佃农,这些佃农尚且有一定风险,也有管理成本(抖音的赛博佃农逻辑),那干脆圈养永远不会反抗、老老实实听话的 AI 创作者就更理想了。AI 是没有感情的工作机器,放很多个模型互相去内卷,也不会有人上天台,不会有人闹仲裁。第二个命题是:AI 能不能也产生情感链接,让人不会出戏? AI 可以制作异步消费的视频、音频、文字和图像,但它能否更进一步,在直接与人互动方面,也有突破性进展,能让人不出戏,真正以为对方就是人?前面我们聊到的 Chat Bot,还是在不得已的情况下,作为人的替代。若是身边真有亲人朋友,那不需要一个虚拟的陪伴;身边真有专家,也不需要数字人专家。而这里聊的,是假如可以选的话,AI 更受欢迎,会怎么样? 比如在直播领域,AI 也可以能言善辩,也可以讲历史谈文化,更可以跟某些评论区的网友互动(在判断跟谁互动效果最好这件事上,也能训练),对商家而言,调教一个自己的虚拟 AI,就很值得。这跟前两年流行的虚拟形象/数字人不同,那些形象都是真人外面包了一层皮,讲话都是写好的稿件、或者真人发声,背后都是收入微薄的运营。个性化的虚拟 AI 有价值的不是外部形象,而是 AI 的对话模型,和模型所带来的不同人格。游戏直播也是如此。AI 也可以操纵游戏主角,尝试大量的可能性;可以尝试顶尖的手速,也可以模仿笨拙的新手;可以去做很多人不愿意做的事情,比如探索各种极端情况下游戏会怎么发展(很多游戏主播就是以此为主题的)。色情行业也有这样的机会。在色情游戏里,捏出个性化的对象已经是刚需了。是不是可以有近似真人的体验? 这些都取决于一个大问题:普通人对 AI 是否真的能产生情感链接。意识到屏幕对面是个不存在的数字人,我们会不会真的投入情感?日本御宅族里有对二次元人物过度迷恋、甚至跟纸片人结婚的先例,会被认为是病态。未来社会是否能对此习以为常?这很难说。第三个命题:个人 AI 内容的成本降到无限低。 刚刚说的还是创作者来捕捉用户的需求,那如果用户的需求可以精准实现呢?我们把 AI 想得再理想化一些、对计算性能的单位成本再低一些,就能推演出一个完全不同的生态。在一百年前,电影已经诞生。那时候想要看到大屏幕上的内容,是富人的特权。跟当时的人说,未来每个人手里都会有块屏幕,而且这个屏幕的内容是个性化的,每个人可以自由选择做什么事情、看什么内容,当时的人一定会觉得奢侈。 那未来的 AI 制作内容,会不会成本低到,可以千人千面、真正个性化呢?比如设想这样的场景:用户输入一段电影的需求:「我想看一部修仙小说,题材跟无间道类似,主角是梁朝伟和刘德华饰演的。他们分属不同的世仇门派。梁朝伟擅长的法术是火系的,刘德华擅长的法术是黑暗系的……」 接下来,AI 就会编排出一部按照要求制作的、剧情精彩画面出色的类型片电影。如果这种能力在成本断崖下跌后真的实现,就会带来全新的体验差。小说、音乐、播客、电影、电视剧、动画,都可以以此类推。电影一开始也许不满意,那用户可以自行修改:「这里的场面从峨眉山,改到夏威夷;那次的战斗里,不要让阿紫牺牲…… 」也许整个娱乐行业会变成互动为主的产业。并非是创作者单向输出,而是有一个谦和且耐心的 AI 创作者为用户服务。这种生态下,如今我们在消费的大部分内容乃至娱乐产业都会由 AI 完成。人类就会集中去做更先锋的电影、音乐,那些 AI 用历史上的资料无法完成的内容。这三个命题的成立与否,都会深刻改变内容娱乐行业,改变的程度不同。第一个命题,可能会产生新的抖音和 B 站,紧接着就是新的爱优腾芒;第二个命题,会产生新的直播行业,乃至新的内容电商;第三个命题,则是要产生新的内容和娱乐行业了。这三个变局里,也许新兴的内容平台就有从体验差带来的新机会,未必只是旧平台的独有优势,就充满了变数。
4. AI as Assistant把 AI 当成内容创作者,那么 AI 的天花板就是内容娱乐产业。不过 AI 显然不止于此。AI 在日常生活里其实已经很常见了,只不过都是无感知的、水下的,或者说更润物无声的。我们用的翻译工具,都是机器翻译技术支持的;我们打开淘宝,商品都是由个性化引擎的 AI 推荐的;刷门禁、打开手机和电脑的人脸识别、指纹识别也都是 AI。它们在替代掉一些过去人工的工作。 在更专业的专家(Expert System)领域,AI 的应用就更早了。1980 年代,CADUCEUS 就可以从血液里的细菌做一些特定疾病的诊断。这中间有大量的垂直领域专家系统的研究进展。到如今比较知名的,Deepmind 旗下的 AlphaFold,可以预测所有的蛋白质结构。不过 ChatGPT 让很多人体会到,应用到日常工作里的可能性。像这种演讲稿,虽是玩笑,但在很多场合下已经能帮我们完成文案工作了。类似的还有很多,我之前也提到过,OpenAI 官网的总结:
整理目录;
整理文章的关键词;
从产品描述得到广告语;
给产品起名;
根据主题列出推荐书单;
整理总结中心思想;
总结论文摘要;
撰写采访提纲;
自动代码注释;
bug fixer;
把 JavaScript 改写为 Python;
……
智能助理的概念出现很久了,现在才算是真正可用。对于工作中可能帮到什么,可以先看下 Notion AI 的体验。 这大概率就是未来在 Office 套件里我们用 Word 和 Excel 的体会。(有兴趣的可以直接参考下这个视频:https://www.bilibili.com/video/BV1Lg411b7Cx)它能够协助的方面还有很多想象空间。 比如有一个插件叫做 Bearly.ai,可以整理浏览器里看到的网页的核心思想,跟我们小时候做的阅读理解中心思想归纳差不多。这里是一个示意,左下角是用另一个翻译插件得到的结论。HyperWrite 可以依据你写的内容,提供写作建议,或直接帮你改稿,还可选随意一些的风格,还是严肃正式的风格。 像飞书妙记也是 AI 技术的辅助,会议记录或录音文件转成区分讲话人的文本,且可对应音频时点做调整处理。播客圈用过的朋友都说好。 更大的变化就在确定性更高的代码领域了。程序员们发现,ChatGPT 能很好地帮他们解决问题。并不仅仅是 debug 那么简单。 让代码更简化(ChatGPT应用场景):找到一些配置问题: 确定性较高的场景,除了代码,就是各种考试。ChatGPT 通过了 Google 的18 万美元 L3 工程师考试之外,还通过了美国的司法考试(明尼苏达大学宪法、福利法、税法和侵权法)、商学院考试(沃顿商学院 MBA)、医师资格考试(USMLE)等等。很自然,也变成了学生作弊的工具。美国教育界已经有很多学校禁止使用。这里不展开说了。 ChatGPT 的能力有很多想象空间,在细分的信息处理领域里。比如这个 Snipd 的 APP,提供的是 AI 处理后的播客内容。跟一般的播客客户端不同,这里会根据时间轴有核心的观点总结。这样很好地解决了不少人觉得播客时间太长、听了半天才遇到对自己有帮助内容的问题。 以此类推,罗振宇和「得到」和不少知识相关的内容创作者们,长期致力做的事情就是信息的搜集和整合,这些是否也是 AI 能取代的?比如,整理哲学历史上的概念关系、人物图谱和相关书籍论文的摘要?比如大家很痛苦的找 Excel 的公式语句(已经有人用ChatGPT做Excel报表了):比如,Tome.app 这样的产品可以自动生成一套商务的 PPT: (Tome.app这里有一个试用视频:https://www.bilibili.com/video/BV1iA411D7J6)还有意想不到的应用方式,用 OpenAI 的 DALL-E 2 模型给犯罪嫌疑人画画像(https://www.vice.com/en/article/qjk745/ai-police-sketches):这些产品和能力,有的会进入办公套件,有的会在细分领域越来越方便,国内肯定也会雨后春笋。它们都会陆续成为「打工人」的标配。说到这里,有年纪的朋友估计能想起时代的眼泪,预置在 Office 里的 Clippy, 可能会再次焕发青春(以不同的形态):在辅助办公的领域,市场的价值应该至少是如今办公领域的半壁江山。也类似前文所说,若是以功能附加的形式加入原有的办公工具中,那机会还是在旧势力手上的。 5. AI as Worker跟前面说的思想实验类似,如果办公辅助真的那么奏效,是不是 AI 也可以完全包圆儿了呢? 这里有一个命题是:AI 能不能做出比打工人优质,或至少差不多水平的决策?命题为真,白领人群就真的会比较危机。老板可以让 AI 安排行程、收发邮件,让 AI 做数据推演,让 AI 完成产品的大致设计和研发工作。AI 还能持续学习,了解老板的个人喜好,和企业经营策略。坊间唱衰数据分析师这样的岗位要被淘汰,也是基于这样的逻辑。不过这点就当下看,并不乐观。有新的评论说,New Bing 发布会上看起来很惊艳的总结 Gap 第三季度财报的结果里,其实是有大量错误的。 「New Bing 给出了 Gap 调整后的运营毛利率(reported operating margin, adjusted for impairment charges and restrucring costs)为 5.9%。然而在财报中,Gap 的运营毛利率是 4.6%,调整后则是 3.9%。」(ChatGPT加持的微软New Bing也错误频出)现在大多企业怕是不敢真的把 AI 辅助用到重要决策里。哪怕给老板写个邮件的朋友,应该也得检查下 ChatGPT 别脑袋一抽瞎写了不靠谱的内容。 但话说回来,要是办公辅助变成了大多数打工人的日常,这相当于也提供了更多的训练数据,又是 RLHF 的逻辑了,AI 势必会变得更懂决策。想想还有点儿不寒而栗——无数打工人在用 AI 帮自己打工,结局是 AI 变得更强了,让打工人没机会再打工。这件事就需要再观望了。对少数不太依赖人参与决策、确定性更强的领域,会陆续变成无人公司,是会发生的。像量化交易,就是一人也能成团的生意。这样的影响面就不止办公领域了,是整个白领职业市场都要洗牌。白领的洗牌,也很有可能内部无法迁移,组织中利益关系错综复杂,除非有马斯克那样的独裁又笃定的组织改造。也有可能是外部打破僵局。不过洗牌之后,似乎蓝领才是所有打工人的宇宙尽头?这里正好可以引用一段 Sam Altman 采访中说的话(@Alex Banks 整理):如果你 10 年之前问大家,AI 会产生什么影响,会是这样的:
第一步:蓝领失业(工人/卡车司机);
第二步:基础工作的白领;
第三步:高新技术工作的白领(程序员);
第四步:创意相关的工作。
如今看,发生的顺序是恰恰相反的。6. AI as Search Engine用 ChatGPT 第一直觉是聊天机器人,第二直觉就是,这不是跟搜索引擎很像吗?是获取信息的重要工具。 以此为前提,很多朋友实验过之后,发现 ChatGPT 给出的答案错漏百出,很多时候有惊艳,很多时候也会误导事实。更重要的是,没办法校验真实的情况。搜索引擎是有网页权重排序的,同时对信源有疑虑,可以亲自去查阅判断。ChatGPT 只是单纯的回答,不是一个理想的信息获取产品。实际上从产品视角看,ChatGPT 不是替代搜索引擎,而是跟前面说的 Assistant 的逻辑一样:信息的辅助处理。搜索引擎依然发挥作用,ChatGPT 是极其有效的整合工具。就像发生在很多信息处理的情况一样(如 Word 和输入法的错别字检测,很顺畅地融合进日常使用)。 New Bing 提供了一个很出色的整合方案,可以更有效地看出 ChatGPT 在其中的作用。它不是只留了 ChatGPT 的回答,而是在上面加了一层。 如图,左边是原始的网页列表,右侧则给出了整合的结论。可以理解是一个耐心的朋友,帮你看了一遍网页,告诉你他 get 到的信息。 这个不够直观的话,可以看这个案例。记得前面我发的 0 素材的自制视频吗?当时有朋友问是用哪些工具、怎么做的。正常使用搜索引擎的思路是,把每一个工具输入进搜索框,看每个工具的官网/百科,了解下大概的说明。再输入下一个。等等。而用 New Bing 的体验会是这样:这里面的信息,几乎是没错的。哪怕有些没有那么准确,会发现有出处的标注,完全可以点进去了解详情。类似的搜索整合能力,从目前的 ChatGPT 也能找到体现,比如这是范冰冰哥的一个案例:这里还有一个示例,是把 ChatGPT 接入 Siri,看效果的对比,也挺直观的(来自 https://github.com/Daiyimo/Access-chatGPT-in-Siri),可以暂且无视拉胯的连接网速的问题,只看结果的区别: 这种体验差是完全可以压过替代成本的。一个配套了 ChatGPT 的 Bing,在不是为了明确结果(如搜苹果官网)的情况下,体验是比 Google 好多了的。这样的体验差,会让很多人都涌去用新的产品,而这时就会有有趣的事情发生了。首先,目前的接口调用是有成本的,GPT 的每次调用大概是 0.066 美元一次,而全球的搜索引擎广告收入是每次搜索 0.048 美元,即使用 GTP 是亏本的。不过目前 GPT 调用里有云服务的成本,这块微软可以打下来打到 0.033 美元,再加上技术优化,预期是可以到 0.00825 美元。(参考 ChatGPT背后的经济账,感谢 Martin 分享的信息)简单说就是:搜索引擎引入 GPT 这样的技术,哪怕不亏,也一定比原来赚得少。这种境况下,就是创新者的窘境了。就像拼多多当年做的很多事情,淘宝没法跟进,因为要大出血。Bing 的用户量远低于 Google,所以用 GPT 换用户很划算;Google 则是要防守,还要大出血,财报自然不好看。这中间,反而市场份额小的搜索引擎就有了机会。 正在我写这篇稿的过程中,我提到的这点在前两天流传的一份自称是微软员工的匿名网友的分享里也得到了证实。这个分享在圈内的朋友认为还比较客观真实:确实要佩服 Satya 的战略判断能力。这件事情已经在发生了,Google 急了。在国内也是如此,阿里的夸克、腾讯的搜狗和微信搜索,对百度产生的威胁在新技术要素到来后不可同日而语。百度虽说有技术能力,但从经验里看,百度的技术往往散是满天星、聚在后厂村就是那啥了。对搜索引擎市场的变局如何发展,可能也会很精彩。 不过这里面对于初创小团队来说,资金和资源都是很难跟进的,困难会比较大了。搜索引擎之外,其实还有更有趣的未来可能性,这就说到压轴的部分了。 7. AI as Interface 互联网产品(或者说信息时代)的历史上,交互的方式发生了多次变迁。 最初的交互形式是代码。接下来从 Macintosh 和 Windows 3.0 开始有了图形界面。再后来是 Netscape 浏览器,进而是 Google。移动互联网时代是 iPhone,把软件时代的模式沿用了下,不同 APP 代表不同需求;而这些需求里,feed 流和个性化推荐是完全革新的交互。feed 流和个性化推荐与传统的交互最大的区别就是,过往虽说一直是在提升用户体验,但总归还是主动获取。不管是下载哪个 APP,还是去输入一些需求、点击哪些按钮来得到结果,都是用户发起;在新的个性化推荐时代,用户是被动地接受需求,只需要下滑操作甚至就可以。这里推荐金老师的 互联网信息分发简明史。 feed 流和个性化推荐,没有替代所有互联网产品的交互方式。我们还是要用应用商店,还是要用搜索引擎(不过很多搜索需求迁移到了微信、小红书等),每个内容产品也都要有一个搜索框。 第一步,AI 可以替代这个搜索框。当然形式上,也许还是搜索框,但可以用自然语言,表达更复杂的诉求了。 明确的需求是容易搜到的,比如在小红书搜「苹果电脑用教育优惠买的方法」,就能准确找到很多结果。但这时想到,会不会有潜在的风险呢?接下来搜索就会比较难表述了,「苹果电脑用教育优惠买+风险」、「苹果电脑用教育优惠买+问题」、「苹果电脑用教育优惠买+坑」等等,搜出来的都不是很理想。因为你并不知道作者是用具体哪个词汇表述这件事的。如果 AI 可以介入,把所有表达负面的内容摘出来,就有价值得多了。类似的还有很多买东西的诉求,条件越多越难搜。「绒衣」+「价格在 500-1500 之间」+「不容易掉毛」+「在杭州有实体店」+「保修服务在一年以上」这样的关键词,内容平台和电商平台都是不容易表达的,就得淘宝、小红书、大众点评等多个地方确认、查阅和判断。这些也可以交由 AI 去整合。可以说用户主动发起的需求,从互联网过往一直存在的关键词逻辑,在 AI 的介入后,会真正变成自然语言逻辑。或者换句话说:自然语言就是未来互联网的主交互界面。 再理想一点,在手机的使用上做一个大的整合,也许大多数情况下不需要进入 APP。入口是 All in One 的,可以是一个干净的框(文字),可以是语音,也可以是某种还没探索出来的形式。它可以整合需求,直接呈现内容,一步到位。我想象了这样几个场景,可以感受一下: – 小 A 打开了手机,说我想知道丝瓜和鸡蛋能做出什么菜来。AI 回复说,搜到了三个点赞量挺高的小红书笔记,还有两篇你经常阅读的公众号的文章,以及三个 B 站上过首页的相关视频。小 A 说现在没工夫看视频,把小红书的笔记的主要流程念给我听。念完之后,小 A 说这个做法太油了,帮我找一个更清淡的做法。AI 再找到另一篇,回复给小 A。– 小 B 打开手机,说我想看一部电影,帮我推荐一部最近三个月加入收藏的喜剧片。AI 做了几个推荐。小 B 说,我的时间不多,2h 内的。AI 做了一些调整。小 B 说,演员表里有我微博上关注的比较多的演员的,推给我。AI 做了推荐。– 小 C 打开手机,AI 提醒说,有两条你老板的信息,要不要查看?小 C 说帮我总结下说了什么。AI 说,实验测试的结论出来了,3% 的提升,老板不太满意。小 C 说,帮我给我的部门群里发个消息,说今天先别回家了,加个班。另外帮我叫个专车,去公司。AI 说,现在下班高峰比较堵,建议考虑坐个地铁。小 C 说,好,帮我导航到最近的共享单车。这些都是科幻片里常见的场景,但看起来已经不遥远了。若是能达到这种程度的应用,那 AI 的确会重构互联网内容的结构形态,就像移动互联网重构了 Web 时代一样。有不少人把这个时代叫 个人 AI 时代,类比个人计算机时代(手机是计算机的极致延伸)。未来也许每个人都有专属的信息服务,它是专属的生活助理、营养师、健身教练、医生、律师、财务、玩伴等等。它未来很可能是既中心化(模型算法提供商是集中式的),又去中心化的(会有个人语料库和个人模型库)。在个人 AI 时代,也会有新巨头、新市场和新平台。说到科幻片,它对 AI 也产生过影响。《2001:太空漫游》就激励了一位电气工程师投入了人工智能领域。他发明了卷积神经网络,而且在 2018 年获得了图灵奖。他的名字叫杨立昆。在他后来成立的企业实验室里,他就把《2001:太空漫游》的海报挂在了屋里。电影里的 HAL9000 就是一个能用自然语言对话和完成任务的人工智能,它是科学家和科技巨头们在 AI 方向上追求的终极目标。 现在,这个目标离得更近了一步。写在最后 我写的这几个阶段,没有严格的先后次序,也仅限我自己的观察思考。它们可以分为几个领域的影响:内容:Creator Tools -> Creator白领工作:Assistant -> Worker人机交互:Search Engine -> Interface都是前者更现实、已经在发生,后者则表示观望、未来可期。前者更依赖旧有的力量,后者也许没有包袱的、能创造出体验差的新团队有破局的机会。 有朋友问,产品经理在这个时代能做什么?其实我也不知道。只是有几个模糊的感受:– AI 这项新技术要素,又会带来很多空间,提供很多想象力。应用层面产品经理也许又有在大产品上雕花之外的选择了;– 不过 AI 未必是遍地黄金,不考虑清楚场景先狂热地投入进去,还是会存在很强的不确定性,可能成为炮灰,毕竟每个新技术出现的时候都有不少炮灰;– AI 的基建还需要完善,还存在很多问题,包括成本也还是挺高的(调用 GPT-3 的 Davinci 是每千 token 要 0.02 美元,不便宜);– 保持乐观和对技术进展的敏感度还是挺重要的。也许过程中会遇到适合自己做的、能产生价值的事情。跟各位共勉一句:未来已来,别被淘汰。—— 封面题图 by Midjourney推荐阅读:AI产品经理视角的ChatGPT全解析ChatGPT背后的经济账沉迷 AIGC 两周后:某些人失业是必然的