重新思考数据-构建LLM的数据管道和数据质量

最近一些讨论让我重新意识到大模型时代的数据采集、数据挖掘和数据质量或许需要新范式。

回顾数据制胜的现代互联网行业，人们从电商等大数场景出发，利用大数定律进行了各种各样的数据采集和实验，最后可以看到，最尊重数据的公司从某种程度上最拟合（也可能是过拟合）了事实，从而建立起了庞大的商业帝国。

而基于互联网数据所生产的大模型，人们从前的数据方法论好像失去了魔力：

人们常用大模型解决长尾需求：大模型实验速度慢，实验成本高
数据管道不合理：人们目前仅能通过反问用户的方式来进行比较高质量的数据收集，而点赞回答、打赏agent等方式要么导致太过谄媚，要么根本没有效果
数据应用难：将收集到的数据应用于预训练或后训练都有很大难度

对数据飞轮的质疑：数据复杂度的重要性

KIMI曾经相信数据飞轮，通过砸钱抢用户，再用用户数据增强模型的方式打败竞争者，但最后不得不因为使用用户数据的各种困难和失败放弃了这一战略。同样的，OpenAI有最多的chat用户，但他们从领先全球到现在三足鼎立，可见数据飞轮只是提出，而无人成功。但在曾经的互联网行业，人们叫它规模效应，规模效应曾经让Faceboook、YouTube、微信等产品获得成功，但在大模型领域似乎完全不同。

这可能是因为这几点原因：

聊天数据并不比爬虫来的数据更优质，而数量少，成本高，导致预训练无用
聊天数据并不是内容质量，也不具备消费价值，无法病毒传播，无法形成规模效应中传播的部分
聊天数据在后训练（RL）中，容易导致模型崩溃，或限制模型上限

借鉴通过高精地图做智能驾驶的前车之鉴，我们不应该相信有高精地图的企业最容易做出智能驾驶；相反，按照端到端来看，谁能拥有司机的复杂规划能力，拥有更好的场景反馈效应，谁才能真正逐步做到智能驾驶。

那么我们应该重视什么样的数据？代表人类复杂规划能力的数据

Cline的Plan模式，程序员与AI进行多轮对话组织技术方案的过程
DeepResearch中，AI的多个反问的多轮对话，以及后续可能还有继续的用户调研
From scratch的项目初始化后，用户进一步的需求（代表AI没有意识到的需求/修改方向）

构建反馈回路

仅反问并且仅收集反问是一种很低效的反馈模式：

缺乏上下文，也就难以反映复杂规划能力
缺少反问后效果的反馈

如何更好构建反馈回路：我现在想到的一个方式是借鉴Claude玩宝可梦，不仅反问用户需求，还要让AI在过程中做笔记，记录上下文。

第二步是思考如何将反馈应用到AI上，不止是调整对所有人生效的prompt，还要根据每个用户定制其上下文相关的信息，从而更适合每一个人。

最后是思考如何“共享”上下文，通过文字进行上下文共享的方式太过低效，多模型间迁移也存在困难，我们可能需要一个针对LLM的大一统的高级表达方式。

大模型是大数据的终极产物，那么什么是大模型的终极产物？

随笔 > 技术分享

#LLM #Agent #数据治理 #data

重新思考数据

https://blog.wh1isper.top/2025/05/31/2025-06-01-thinking-data/

作者

Wh1isper

发布于

2025年6月1日

许可协议

The AGI era requires end-to-end product design 上一篇

LLM时代的文艺复兴下一篇