重新思考数据-构建LLM的数据管道和数据质量
最近一些讨论让我重新意识到大模型时代的数据采集、数据挖掘和数据质量或许需要新范式。
回顾数据制胜的现代互联网行业,人们从电商等大数场景出发,利用大数定律进行了各种各样的数据采集和实验,最后可以看到,最尊重数据的公司从某种程度上最拟合(也可能是过拟合)了事实,从而建立起了庞大的商业帝国。
而基于互联网数据所生产的大模型,人们从前的数据方法论好像失去了魔力:
- 人们常用大模型解决长尾需求:大模型实验速度慢,实验成本高
- 数据管道不合理:人们目前仅能通过反问用户的方式来进行比较高质量的数据收集,而点赞回答、打赏agent等方式要么导致太过谄媚,要么根本没有效果
- 数据应用难:将收集到的数据应用于预训练或后训练都有很大难度
对数据飞轮的质疑:数据复杂度的重要性
KIMI曾经相信数据飞轮,通过砸钱抢用户,再用用户数据增强模型的方式打败竞争者,但最后不得不因为使用用户数据的各种困难和失败放弃了这一战略。同样的,OpenAI有最多的chat用户,但他们从领先全球到现在三足鼎立,可见数据飞轮只是提出,而无人成功。但在曾经的互联网行业,人们叫它规模效应,规模效应曾经让Faceboook、YouTube、微信等产品获得成功,但在大模型领域似乎完全不同。
这可能是因为这几点原因:
- 聊天数据并不比爬虫来的数据更优质,而数量少,成本高,导致预训练无用
- 聊天数据并不是内容质量,也不具备消费价值,无法病毒传播,无法形成规模效应中传播的部分
- 聊天数据在后训练(RL)中,容易导致模型崩溃,或限制模型上限
借鉴通过高精地图做智能驾驶的前车之鉴,我们不应该相信有高精地图的企业最容易做出智能驾驶;相反,按照端到端来看,谁能拥有司机的复杂规划能力,拥有更好的场景反馈效应,谁才能真正逐步做到智能驾驶。
那么我们应该重视什么样的数据?代表人类复杂规划能力的数据
- Cline的Plan模式,程序员与AI进行多轮对话组织技术方案的过程
- DeepResearch中,AI的多个反问的多轮对话,以及后续可能还有继续的用户调研
- From scratch的项目初始化后,用户进一步的需求(代表AI没有意识到的需求/修改方向)
构建反馈回路
仅反问并且仅收集反问是一种很低效的反馈模式:
- 缺乏上下文,也就难以反映复杂规划能力
- 缺少反问后效果的反馈
如何更好构建反馈回路:我现在想到的一个方式是借鉴Claude玩宝可梦,不仅反问用户需求,还要让AI在过程中做笔记,记录上下文。
第二步是思考如何将反馈应用到AI上,不止是调整对所有人生效的prompt,还要根据每个用户定制其上下文相关的信息,从而更适合每一个人。
最后是思考如何“共享”上下文,通过文字进行上下文共享的方式太过低效,多模型间迁移也存在困难,我们可能需要一个针对LLM的大一统的高级表达方式。
大模型是大数据的终极产物,那么什么是大模型的终极产物?