番外篇 - 自训练模型

2025.10.16 更

做 rag 相关项目、海量上下文无法在单个会话给到 llm，都需要进行前置向量数据库检索或者在开源模型上做微调。

这个项目目标是对【预训练数据集+自定义数据集】进行完整低成本训练，直接输出符合自定义数据集的模型。特点是：速度快、质量高、幻觉少、很稳定。

预计对公司级别的对外输出（客服、知识库）有很好的应用效果。

目前有不少大平台如 cloudflare 都提供了相关的 ai 问询能力，猜测有可能也使用了类似的完整小模型训练方案。

训练和推理 nanochat 的 100 美元版本。在 24 美元/小时的 8XH100 节点上，总运行时间约为 4 小时。