AI 很好搜

Kiln AiKiln是一个开源工具,专注于大语言模型(LLM)的微调、合成数据生成和数据集协作。它提供了直观的桌面应用程序,支持Windows、MacOS和Linux系统,用户可以通过零代码实现对Llama、GPT4o和Mixtral等
请按 Ctrl+D 收藏本页到浏览器收藏夹回家不迷路!

Kiln 是一个开源ai开发工具,专注于大语言模型(LLM)的微调、合成数据生成和数据集协作。它提供了直观的桌面应用程序,支持Windows、MacOS和Linux系统,用户可以通过零代码实现对Llama、GPT4o和Mixtral等模型的微调,并自动进行无服务器部署。Kiln 还支持通过交互式可视化工具生成训练数据,提供基于Git的版本控制,方便团队协作处理结构化数据。其开放的Python库和OpenAPI REST API使得开发者可以轻松集成Kiln的数据集到自己的工作流程中。

Kiln ai简介

核心功能

  1. 零代码微调:支持对多种主流模型(如 Llama、GPT-4o、Mixtral 等)进行微调,用户无需编写代码即可完成模型训练和部署。微调后的模型会自动部署到云端或本地,支持无服务器(Serverless)模式。
  2. 合成数据生成:提供交互式可视化工具,帮助用户快速生成高质量的合成数据。支持零样本生成、主题树生成和结构化数据生成等多种策略。
  3. 团队协作:基于 Git 的版本控制系统,支持多人协作处理数据集。团队成员(如 QA、PM 和领域专家)可以共同参与数据集的构建、标注和优化。
  4. 自动提示生成:从数据中自动生成提示(Prompts),支持链式思考、少样本和多样本提示,提升模型训练效果。
  5. 多模型和提供商支持:兼容多种模型和云服务提供商,如 OpenAI、Groq、AWS、Fireworks 等。用户还可以连接任何与 OpenAI API 兼容的服务器。
  6. 隐私优先设计:Kiln AI 不会访问用户数据,支持本地运行和自带 API 密钥(BYOK),确保数据安全。

技术原理

  • 基于 Git 的版本控制:用 Git 作为底层版本控制系统,支持多人协作和数据集的版本管理。数据集文件以 JSON 格式存储,支持并行协作和冲突解决。
  • 无服务器部署(Serverless Deployment):微调后的模型支持自动部署到云端或本地,无需手动配置服务器。支持多种云平台和本地环境。
  • 交互式数据生成工具:提供交互式界面,帮助用户基于可视化工具生成高质量的合成数据。支持多种数据生成策略,如少样本学习、多样本学习等。
  • Python 库集成:提供开源的 Python 库,方便开发者将数据集集成到现有工作流中。支持在 Jupyter Notebook 中使用,方便数据科学家进行深度分析。
  • 多模型支持:基于适配器模式支持多种语言模型和平台,提供统一的 API 接口,方便用户切换不同的模型和提供商。

开源地址

如何使用

  • 下载与安装:访问 Kiln GitHub 页面,根据操作系统下载桌面应用程序(支持 Windows、MacOS 和 Linux),或使用 pip install kiln-ai 安装 Python 库。
  • 启动应用:安装完成后,启动 Kiln 桌面应用程序,设置 AI 提供商(如 OpenAI 或 Ollama),连接模型并开始微调或生成数据。
  • 微调模型:选择模型,上传数据或使用合成数据生成工具创建数据集,配置微调参数并启动任务,模型训练完成后自动部署。
  • 生成合成数据:使用交互式工具创建训练数据,保存数据集供后续使用。

模型和AI提供商

  • Kiln支持的AI模型和提供商:
    • 支持的提供商:Kiln AI与多种云服务提供商和AI模型兼容,例如OpenAI、Groq、OpenRouter、AWS、Fireworks等。用户需要提供自己的API密钥,系统不会访问用户的数据集。
    • 兼容的服务器:用户能连接任何与OpenAI兼容的服务器,例如LiteLLM,用于vLLM等。
  • 设置AI提供商
    • 初始设置:首次运行Kiln时,应用提示用户设置一个或多个AI提供商。至少需要一个提供商才能使用Kiln AI的核心功能。
    • 添加或删除提供商:用户在“设置>AI提供商和模型”中添加新的提供商,或编辑~/.kiln_ai/settings.yaml文件删除已有的提供商。
  • 模型的使用和添加
    • 推荐的内置模型:模型已经过测试,可与Kiln AI的各种功能兼容,使用起来非常简单,不会出现错误。用户只需在设置页面连接任何AI提供商,在运行屏幕上选择模型。
    • 自定义模型:如果用户想使用不在列表中的模型,但模型是Kiln AI支持的AI提供商。用户需要在“设置>AI提供商和模型”中的“添加模型”使用模型,模型将出现在模型下拉菜单的“未测试”部分。
    • 自定义OpenAI兼容服务器:如果用户拥有一个OpenAI兼容的服务器(例如LiteLLM、vLLM等),能在Kiln AI中使用。用户需要在“设置>AI提供商和模型”中添加一个“自定义API”。所有由该API支持的模型将出现在模型下拉菜单的“未测试”部分。

合成数据生成

  • 工作原理
    • 合成数据方式
      • 零样本数据生成:根据任务定义直接生成数据,无需额外配置。
      • 主题树数据生成:基于生成主题树(包括嵌套主题)快速生成广泛的数据。用户能选择自动主题生成或手动添加主题。
      • 结构化数据生成:如果任务需要结构化输入或输出,生成的数据将遵循用户定义的 JSON 模式。所有生成的值都会进行验证,不符合模式的数据不会被保存。
    • 生成选项
      • 模型选择:支持多种模型(如 OpenAI、Anthropic、Llama、Google、Mistral 等)和多种主机(如 Ollama)。用户根据需求选择合适的模型。
      • 提示选项:在对一些示例进行评分后,解锁更强大的提示选项,如少样本、多样本、思维链提示等,提高生成数据的质量。
    • 人工指导
      • 生成涵盖全球性话题的内容,不局限于美国本土。
      • 生成西班牙语的示例。
      • 针对模型难以分类的问题(如讽刺信息)生成特定的数据。
  • 迭代
    • 打开合成数据集选项卡。
    • 选择高质量的模型(包含不够快且高成本的生产模型)。
    • 开始生成展示问题的数据,使用人工指导功能和更好的模型确保输出质量。
    • 手动删除风格不正确的示例。
    • 合成数据工具能生成正确的数据(用模型和指导相结合),将生成规模扩大到数百个样本。
    • 保存新的合成数据集。

微调指南

  • 步骤 1:定义任务和目标
    • 任务定义:在 Kiln UI 中创建一个新任务,包括初始提示、要求以及输入/输出模式。
    • 示例任务:生成新闻标题,给定新闻主题的摘要,生成不同风格的新闻标题。
  • 步骤 2:使用合成数据生成训练数据
    • 合成数据生成:提供交互式界面,快速生成高质量的合成数据集。
    • 生成过程:在9分钟内生成920个训练样本,支持多模型和多提示策略。
    • 提示技巧:使用高质量模型和详细提示(如多样本提示、链式思考)提高数据质量。
  • 步骤 3:选择要微调的模型
    • 支持的模型
      • OpenAI:GPT-4o 和 4o-Mini
      • Mistral:Mixtral 8x7b MoE
      • 其他:Llama 3.2(1b/3b/11b)、Llama 3.1(8b/70b)等
  • 步骤 4:启动微调任务
    • 微调操作:在 Kiln UI 的“微调”选项卡中,选择模型、数据集和训练参数。
    • 数据集分割:建议创建测试集和验证集,以便在微调完成后评估模型性能。
  • 步骤 5:部署和运行模型
    • 自动部署:微调完成后,系统自动部署模型,无需额外配置。
    • 使用方式:基于 Kiln UI 的“运行”选项卡选择模型并使用。
  • 步骤 6(可选):在自有基础设施上训练
    • 导出数据集:将数据集导出为常见格式,以便在自有基础设施上进行微调。
    • 推荐平台:Unsloth 和 Axolotl,支持多种开源模型。
    • 示例:使用 Unsloth 笔记本加载从 Kiln AI导出的数据集,在本地或 Google Colab 中进行微调。
  • 后续步骤
    • 评估模型:使用测试集和验证集评估微调模型的性能。
    • 迭代改进:根据评估结果调整超参数、优化提示、修复错误,并重新微调。
    • 数据策略:用“阶梯式”数据策略,从少量高质量样本逐步扩展到大量合成数据。
  • 费用:Fireworks 和 OpenAI 的微调模型采用“无服务器”部署,按使用量收费,无固定成本。

训练模型指南

  • 训练推理模型的关键步骤
    • 确保训练数据包含“推理”:用推理模型或链式思维提示生成训练数据,确保数据集中包含推理内容。
    • 创建包含推理的训练数据集:在创建数据集时,筛选包含推理/思考的样本。
    • 选择正确的训练策略:选择“最终响应和中间推理”训练策略,包含推理数据。
    • 调用微调模型时使用适当的提示:建议用训练时使用的相同提示,获得最佳效果。
  • 推理与链式思维的选择
    • 推理模型:适用于需要跨领域推理能力的场景,基于微调大型推理模型(如Deepseek R1)创建更小、更快的模型。
    • 链式思维:基于简单的“逐步思考”提示提升输出质量,或自定义思考提示生成针对特定任务的训练集。

应用场景

  • 智能客服:智能客服系统生成客服对话数据集,微调语言模型提高回答准确性和相关性。
  • 医疗领域:医疗领域的AI项目中,医生(领域专家)生成医学数据集,数据科学家进行模型微调,QA团队负责验证数据质量。
  • 快速原型开发与实验:在开发文本生成工具时,用少样本提示和多模型支持,快速实验不同模型的生成效果。
  • 教育:教育科技公司构建教育数据集,包括学生问题和答案,用在微调教育AI模型。
  • 金融行业:金融行业进行风险评估模型的微调,所有数据本地处理,确保客户数据不被泄露。

数据统计

特别声明&浏览提醒

本网站提供的「Kiln Ai」相关内容均来源于网络搜集整理,不保证跳转外部链接的准确性和完整性。网站外部链接的内容在[2025-04-22]录入之前合规合法,后期网站的内容如出现违规或者损害了您的利益,可以直接联系网站管理员进行删除。如果涉及到金钱交易,请仔细甄别,避免上当受骗!

热门图文资讯

  1. 几种主流视频生成大模型
  2. 实用好用的AI工具推荐