2025.10.16 更

https://github.com/karpathy/nanochat 100刀训练小模型。

做 rag 相关项目、海量上下文无法在单个会话给到 llm,都需要进行前置向量数据库检索或者在开源模型上做微调。

这个项目目标是对【预训练数据集+自定义数据集】进行完整低成本训练,直接输出符合自定义数据集的模型。特点是:速度快、质量高、幻觉少、很稳定。

预计对公司级别的对外输出(客服、知识库)有很好的应用效果 。

目前有不少大平台如 cloudflare 都提供了相关的 ai 问询能力,猜测有可能也使用了类似的完整小模型训练方案。

训练和推理 nanochat 的 100 美元版本。在 24 美元/小时的 8XH100 节点上,总运行时间约为 4 小时。