FreeLLMAPI – 开源 AI 模型聚合平台，统一OpenAI兼容格式

智能 PRO 稿源：AI工具集 2026-05-25 20:42

FreeLLMAPI是什么

FreeLLMAPI 是开源的 OpenAI 兼容代理服务，可将约 14 家 AI 服务商的免费额度聚合为单一 API 端点，每月总计约 13 亿 tokens 的免费推理额度。项目基于 TypeScript/Express 构建，支持自动故障转移、智能路由、密钥加密和用量追踪，专为个人开发者本地实验和原型验证设计。

FreeLLMAPI的主要功能

OpenAI 兼容 API 代理：对外暴露标准的 /v1/chat/completions 与 /v1/models 端点，兼容官方 OpenAI SDK、LangChain、LlamaIndex 等客户端，仅需修改 base_url 即可接入。
多提供商免费额度聚合：同时接入 Google Gemini、Groq、Cerebras、SambaNova、NVIDIA NIM、Mistral、OpenRouter、GitHub Models、HuggingFace、Cohere、Cloudflare、智谱 Z.ai、Moonshot Kimi、MiniMax 等约 14 家平台，每月总计约 13 亿 tokens 免费推理额度。
自动故障转移：当首选提供商返回 429/5xx 或请求超时时，自动将其置为冷却状态，并按预设优先级链尝试下一家提供商，最多重试 20 次。
智能速率与配额追踪：针对每个 (平台, 模型, 密钥) 组合实时跟踪 RPM、RPD、TPM、TPD 用量，确保始终调用未超限的健康密钥。
粘性会话锁定：多轮对话在 30 分钟内锁定同一模型，防止中途切换模型导致输出质量跳变或上下文断裂。
AES-256-GCM 密钥加密：上游提供商的 API 密钥在 SQLite 数据库中静态加密，仅在发起请求前于内存中临时解密，降低密钥泄露风险。
统一认证令牌管理：客户端使用单一的 freellmapi-… Bearer Token 访问代理，无需在代码中暴露多家上游真实密钥。
SSE 流式输出：完整支持 stream: true 的 Server-Sent Events 流式返回，兼容长文本逐字生成场景。
工具调用（Function Calling）：支持 OpenAI 风格的 tools / tool_choice 多轮工具调用流程，满足 Agent 开发需求。
可视化仪表盘与 Playground：内置 React/Vite 管理后台，支持拖拽调整回退链优先级、在 Playground 中快速测试模型，并查看延迟、成功率、Token 用量等 24h/7d/30d 统计数据。
轻量本地部署：基于 TypeScript/Express 构建，空载仅约 40MB RSS，可在树莓派等 ARM 设备上通过 PM2/systemd 常驻运行。

如何使用FreeLLMAPI

克隆安装：git clone https://github.com/tashfeenahmed/freellmapi.git && cd freellmapi && npm install。
配置密钥：cp .env.example .env 并生成 32 字节 ENCRYPTION_KEY 用于 AES-256-GCM 加密。
启动服务：npm run dev 同时启动后端 API（:3001）和仪表盘（:5173）。
添加上游 Key：在 http://localhost:5173 的 Keys 页面粘贴各平台免费 API Key。
调整回退链：在 Fallback Chain 页面拖拽设置提供商优先级。
获取统一 Token：在面板生成 freellmapi-… 单一 Bearer Token。
SDK 调用：修改 base_url="http://localhost:3001/v1"，model 设为 "auto" 或具体模型名。
cURL 调用：向 http://localhost:3001/v1/chat/completions 发送标准 OpenAI 格式请求。
Playground 验证：在仪表盘 Playground 中直接输入提示词测试连通性与路由情况。
后台常驻：通过 PM2 或 systemd 托管，可在树莓派等 ARM 设备长期运行。

FreeLLMAPI的核心优势

OpenAI 标准兼容：对外暴露 /v1/chat/completions 与 /v1/models 端点，支持官方 OpenAI SDK、LangChain、LlamaIndex 等任意兼容客户端，仅需修改 base_url 即可接入。
14 家平台免费额度聚合：同时接入 Google Gemini、Groq、Cerebras、SambaNova、NVIDIA NIM、Mistral、OpenRouter、GitHub Models、HuggingFace、Cohere、Cloudflare、智谱 Z.ai、Moonshot Kimi、MiniMax 等，每月总计约 13 亿 tokens 免费推理额度。
自动故障转移：当首选提供商返回 429/5xx 或超时时，自动将其置为冷却并按优先级链尝试下一家，最多重试 20 次，保障服务连续性。
智能速率与配额追踪：针对每个 (平台, 模型, 密钥) 组合实时跟踪 RPM、RPD、TPM、TPD 用量，始终选择未超限的健康密钥，避免手动切换。
粘性会话机制：多轮对话在 30 分钟内锁定同一模型，防止中途切换模型导致输出质量跳变或上下文断裂。
AES-256-GCM 密钥加密：上游提供商 API 密钥在 SQLite 中静态加密，仅在发起请求前于内存中临时解密，用完即焚，降低密钥泄露风险。
统一认证令牌：客户端只需使用单一的 freellmapi-… Bearer Token，无需在代码中暴露多家上游真实密钥，简化管理。
完整流式与工具调用：支持 SSE 流式输出（stream: true）及 OpenAI 风格的 tools / tool_choice 多轮工具调用流程。

FreeLLMAPI的项目地址

GitHub仓库：https://github.com/tashfeenahmed/freellmapi

FreeLLMAPI的同类竞品对比

对比维度	FreeLLMAPI	LiteLLM	One API
项目定位	开源免费 LLM 额度聚合代理，专注个人本地实验与学习	开源多模型统一调用 SDK + 代理网关，面向开发者与企业级 AI Gateway	开源 API 分发管理系统，面向国内团队与企业级 Key 分发
GitHub Stars	500+	41.8k+	31.3k+
技术栈	TypeScript / Express + React / Vite	Python（SDK + Proxy Server）	Go（完整 Web 管理后台）
支持提供商	约 14 家免费平台（Gemini、Groq、Cerebras、GitHub Models、智谱等）	100+ 家（OpenAI、Anthropic、Azure、Bedrock、Vertex AI、HuggingFace 等）	国内模型覆盖最全（文心、通义、讯飞、智谱、Kimi、豆包等）+ 国际主流模型
免费额度聚合	核心能力，月总计约 13 亿 tokens	不支持自动聚合免费额度，需自备各厂商 Key	不支持自动聚合免费额度，需自备各厂商 Key
OpenAI 兼容	✅ 标准 /v1/chat/completions	✅ 统一归一化为 OpenAI 格式	✅ 统一转换为 OpenAI 格式
自动故障转移	✅ 最多 20 次重试，冷却机制	✅ 支持重试、Fallback、负载均衡	✅ 支持负载均衡与故障切换
智能路由	✅ 按速率配额自动选择健康密钥	✅ 支持 least-busy、cheapest-completion 等多种策略	✅ 按渠道优先级和权重路由
速率限制追踪	✅ 实时跟踪 RPM/RPD/TPM/TPD	✅ 内置限速与预算管控	✅ 支持 QPS/IP 限流与额度控制
密钥安全	✅ AES-256-GCM 静态加密 + 统一 Token	依赖环境变量/配置文件，开源版无内置加密	集中式 Token 管理，支持密钥轮换
多租户/用户管理	❌ 单用户本地运行	✅ 支持多团队、多 Key、预算隔离	✅ 完善的用户体系、充值、配额、分组管理
成本追踪	❌ 无	✅ 按项目/用户粒度追踪 Token 消耗	✅ 渠道计费统计与用量分析
可视化界面	✅ React 仪表盘 + Playground	❌ 无图形界面（开源版），依赖配置文件	✅ 中文 Web 管理界面，运营友好
流式 / 工具调用	✅ 完整支持 SSE 与 Function Calling	✅ 完整支持	✅ 支持（New-API 增强函数调用）
部署难度	极低，npm run dev 一键启动	中等，需 Python/Docker/Helm 知识	低，Docker 一键部署

FreeLLMAPI的应用场景

个人开发者本地实验与原型验证：项目明确面向个人学习与原型开发，将多家免费额度叠成单一本地 OpenAI 端点，无需付费即可快速验证 AI 应用创意。
多平台免费额度聚合调用：同时接入 Gemini、Groq、Cerebras、GitHub Models、智谱等约 14 家平台的免费档，每月总计约 13 亿 tokens，适合需要大用量但预算有限的个人项目。
低功耗设备常驻代理：空载仅约 40MB RSS，可在树莓派等 ARM 设备上通过 PM2/systemd 长期运行，作为家庭内网或边缘节点的轻量 AI 网关。
OpenAI 兼容接口学习：对外暴露标准 /v1/chat/completions 端点，适合学习或调试 OpenAI SDK、LangChain、LlamaIndex 等生态工具，仅需修改 base_url 即可切换。
多模型快速对比测试：通过统一接口和 Playground 仪表盘，可在同一环境下快速对比不同免费提供商的响应质量、延迟与输出风格。

超好看的资讯你懂得 >>> 点击进入

0XU.CN