LLM as OS-Computing without human

现在是时候讨论下一代操作系统应该有什么样的特点了,以及借助 LLM 我们有可能踮起脚尖实现这样的 AIOS。

这篇文章是一些思想碎片,基于最近看到的文章和与朋友们的一些讨论

无人时芯片在做什么?

什么也不做。

这是这一代计算最大的问题,当我们不在使用我们的 macbook 的时候,它们并不能帮我们规划时间、安排工作,也不能帮我们处理任何实际问题。如此多的芯片闲置,如果能把它们利用起来,让它们在闲时进行思考,进一步地帮助人们产生价值,就能带来巨大的生产力进步。所谓的第三次工业革命,或许这是一个可能的未来方向。

实现这一愿景的第一步是构建一个 AIOS,而目前构建 AIOS 可行的路径则是“组合”。

通过组合的方式实现 AIOS

抖音是搜索+移动化+信息流的组合

OpenAI 是 LLM+互联网时代数据的组合

目前看来,AIOS 的组合可能是 Context(生活的上下文)+Agent(自动化)+Code Gen(生产是最终实现)

关键组件

Context - 捕捉生活的上下文

现在的 context 完全不足

抖音、谷歌都只捕捉到了我们生活的一个切面,我们需要一个类似于Apple Vision的硬件,时刻带在身边,收集着我们一天的各种活动,从而获得足够的上下文。

想象一下当我们饭后闲聊的小项目,在回到工位之后电脑已经准备好了一个小demo或者研究报告。这就依赖着对我们日常生活中的点点滴滴进行信息化,形成面向生活的Context。而不是将Context仅限于互联网搜索的内容和LLM自身学习过的知识。这一方面依赖各大硬件厂商的继续努力,基于空间计算的产品,如AR眼镜、VR设备和Apple Vision都有很大潜力。

Agent - 自动化

Agent 是通过 LLM 或者其他工程化手段,实现自动化的组件。例如通过赋予 LLM 一些工具函数来让 LLM 进行实现路径规划。类似于经典人工智能课程中的猴子摘香蕉问题。这方面,anthropic有一篇非常好的文章介绍各种Agent的设计模式,推荐感兴趣的人都读一读。

在这一方面有丰富系统设计经验的工程人员将有很大的发挥空间,将复杂的问题进行简化,最终交由LLM解决,或者等待LLM的能力提升,将更大的自主权交给LLM,这时LLM的应用范围则会更广。

Code Gen - 生产是最终实现

Coding Agent 是最重要的组件之一,只有 coding 才能完成“生产”,如果我们认为AI coding是LLM的巨大应用场景,则各个大模型厂商一定会针对性地提升这方面的能力,比如diff代码生成而不是全部重新生成等等性能改进。因此,我认为大模型下一个(或者说目前)火热的研究领域其实就是代码生成,以及与生活上下文所结合的代码生成。

与此同时,针对机器交互设计的接口也大有可为,作为支持AI Coding的一部分,为AI Coding提供接口,比如语义化的图床搜索,这不同于Agent,而是Agent可以利用的部分,这一块并不是Agent所解决的问题,而是Coding的底层能力:对于架构的整体思考和对API的结构化调用

结论

AIOS时代值得做的事:

  • 硬件:生活Context的收集,直到人工智能降临时,有大量Context的人一定会赢
  • 软件工程:Follow现在LLM的发展,构建Agent以及围绕Agent构建系统
  • 研究:解决各类AI Coding的模型难题

在这一过程中,卖铲子的人可以分到第一笔钱(并非最大的一笔钱):

  • 软件:供应AI友好的API、为工程师提供工具
  • 硬件:针对上面的场景的芯片制造和设计

LLM as OS-Computing without human
https://wh1isper.github.io/2024/12/22/2024-12-23-llm-as-os/
作者
Wh1isper
发布于
2024年12月23日
许可协议