16 hours ago 求本地部署的大模型API聚合建议,有4台8卡服务器7个API🌐 链接: https://linux.do/t/topic/2211678🔍 关键词: #api🏷️ 分组: LinuxDo论坛🕒 时间: 2026-05-20 13:03:43 LINUX DO 求本地部署的大模型API聚合建议,有4台8卡服务器7个API 现在有4台8卡,使用vllm分别部署了不同的模型 其中一台8卡是部署了个9B的Qwen小模型响应速度快(每2张卡跑1个示例,也就是同一个模型跑4个,4个API地址) 其他3台都是8卡同时运行1个模型,也就是3个API地址 也就是有7个vllm创建的API地址 我现在是用的liteLLM做聚合,这个可以实现那4个相同模型的API负载均衡 很多员工都使用的Cherry Studio,有个Agent功能,但是这个功能必须要添加使用Anthropic模式接口 都是内部使用,我现在想重新聚合这7个AP…