《State of LLM》读后笔记，GPT 的新认识

https://mp.weixin.qq.com/s/xpEnyuEnJ6ZQ11P94k2Q0A

1，对 GPT 的新认识。

不止于模型，而是下一代超级计算机，重构了「用户交互+软件执行+计算」

传统计算机是这样的：CPU-> 数据库 + 代码 +UI / OS-> 用户

LLM“计算机”变成了这样：GPU->LLM 模型 -> 自然语言 -> 用户

模型本身就是产品，如ChatGPT / MidJourney/ Characte等

自然语言 = API

大模型的竞争本质是入口的竞争：生产力入口、助理入口、娱乐入口等

激烈程度就类似于航天航空领域的竞争一样，各个语系会有独立的大模型。

竞争获胜的关键因子：数据、人才密度、组织能力、 GPU 资源、杀手级应用。

数据是GPT的核心秘方，GPT 的北极星能力是复杂推理能力，能写代码，解题等复杂问题的处理。

2，OpenAI。

目标：下一代模型会接近 AGI（通用人工智能），终极目标是用模型发现新的科学定律；ChatGPT达到 10 亿用户（和 Office 一个量级）。

ChatGPT当前数据：2.8 亿 MAU，周末数据下跌（缺娱乐场景）；付费用户是 MAU 的2.7%，约 700 万；20% 场景是教育，比人类助教优秀；今年预计 10 亿美金收入（ChatGPT 占 70-80%）；Plugin用户十万左右（未来希望训练模型操作计算机）。

商业模式：个人工作助理 + 企业客户定制。

OpenAI 组织力优势仍然很强：自上而下为主，部分自下而上（那几个创始人不喜欢管理，有专人制定行动路线，分配资源）。

3，关于开源社区。

开源社区也许也能获得高质量数据，但如何把握配方和各种超参数很难；

开源软件某部分没写对仍然能 work，但做 LLM 必须全部正确，没法小修小补；

未来趋势：大模型探索新方法，缩小规模做小模型，大模型和小模型互相交流；

OpenAI 的模型就是从大到小，以前不愿开源，未来可能开。

4，关于hallucination（幻觉）问题。

原因：网上错误信息多，模型学走了；爱模仿，对正确信息判断不好。

解决方式：扩大模型规模（能降低20%）；让模型在回答问题前尽可能地跟人类一样取思考，即检索和验证（前提是成本得降低）。

5，LLM 训练中的事实与观点。

预训练（Pre-training）

事实：GPT 系列是小创新乘起来带来的成功 • 训练数据量远超其他大模型 • 预训练阶段使用工具：Ray & Wandb

观点：更长的模型输入窗口是一个近期会持续突破的问题 • 预训练数据集的比例会直接影响其模型的效果，Code data 比例很高 • 当模型大于 Llama 这个量级之后，开源团队会遇到瓶颈.

精细化调整(Fine-tuning)

事实：多模态并非预训练一体的模型结构

奖励模型(Reward-modeling)

事实：OpenAI 的数据飞轮效应有限 • 外部数据标注分散给多家公司

观点：Chat 不是一个适合收集数据反馈的产品形态 • 精挑细选的反馈数据更有价值 • 机器能高质量的反馈打分，这一步的 Human in the Loop 会逐渐削弱

强化学习(Reinforcement Learning)

事实：难度大且不稳定，目前做成的只有 OpenAI 和 Anthropic

观点：开源模型在使用 RLHF 之后普遍没有明显提升 • Direct Preference Optimization 等方法出现后，强化学习不再是必须路径

6，好的 LLM 扮演人类思考的系统 1，好的 AI 应用扮演人类思考的系统 2。

简单的 prompting 交互只能达到系统 1 的效果，高级的 chain & agents 才能接近系统 2 的能力.

7，硅谷开源模型社区近况。

指令遵循的开源小模型被过度炒作，已经到达瓶颈。

注意力转向 Pre-Train 环节，开源社区靠“团结”发展。

开源模型能否替代 OpenAI API？客户乐观，研究者悲观。

开源社区的发力方向不需要是超越 OpenAI。

8，大模型+机器人。

人们可以用自然语言给机器人发送指令；

机器人能够理解人类指令，自主拆分成相应步骤并执行；

机器人能够理解和应用世界常识，完成此前没有学习过的任务。

9，模型公司。

四个像素：

纵坐标（目标客户）：个人用户，企业或政府。

横坐标（类型）：陪伴，生产力。

个人+陪伴，即面相个人用户的陪伴，如个人工作助理，心理咨询，游戏，k12教育等。（学英语的heypi）。产品最可能先爆发，对 LLM 要求相对较低，只需支持长上下文窗口和多模态。

个人+生产力，即提高个人用户的生产力，如查询，生成代码，生成图片，生成视频等。（ChatGPT，midjourney就算这种）。竞争最激烈的赛道，拿走市场最主要的声量、资金和算力资源。

企业或政府+陪伴，即面向企业的陪伴，如企业客服，电商直播数字虚拟人，虚拟偶像等。（比如Inworld AI）。资源投入较少，市场关注度也较小，参赛选手不多不强，个人+陪伴模式成熟后才可能开始卷。

企业或政府+生产力，即提高企业的生产力，如企业助理，企业版权图片生成，企业代码生成等。（比如Adobe相关ai产品）。生产力提升方向不确定较大，成熟周期最长，算力需求更大。

10，几个判断。

共识打满的在个人+生产力，非共识的机会在企业或政府+陪伴。

现在投资难度/风险最大的是企业或政府+生产力，中期内投资回报率可能最高的在个人+陪伴。

未来模型的迭代节奏会很像手机系统，1-2 年更新一次大版本，中间有无数次小版本迭代。

LLM 的 Context Window 就像电脑内存，向量数据库是 LLM 的硬盘。

11，重点公司LLM和案例。

Google，微软，Meta，特斯拉，NVIDIA，苹果，Salesforce，Adobe。

Weights & Biases（一个强大的用于深度学习可视化的工具）。

Character.ai（是一款基于 LLM 的聊天机器人网站）。

MidJourney（过人工智能产出相对应的图片）。

Together（开发生成式AI模型的初创公司）。

Humane(日前公布了旗下首款AI 产品——Humane Ai Pin)。

Kick(帮助企业主进行日常 Bookkeeping 的自动化)。

Pinecone（一家AI基础设施公司）。

Hugging Face（拥有一个非常强大并且活跃的人工智能社区）。

MosaicML（被大数据巨头Databricks以13亿美元收购）。

Inflection（它的产品就是这个heypi.com）。

Perplexity（基于 OpenAI GPT 模型的新一代 AI 搜索引擎）。

SambaNova（人工智能芯片和系统初创公司）。

备注：GPT的全称，是Generative Pre-Trained Transformer（生成式预训练Transformer模型）是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。

AGI即Artificial general intelligence的简写 ,计算机科学与技术专业用语,专指通用人工智能。

大语言模型(Large Language Model,LLM;Large Language Models,LLMs)

报告来自《拾象硅谷调研State of LLM》

https://mp.weixin.qq.com/s/xpEnyuEnJ6ZQ11P94k2Q0A

本文地址：https://www.163264.com/4498