启动 HN：General Instinct (YC P26) – 边缘设备上的前沿模型

嗨 HN，Guanming 和 Bill 来自 General Instinct (https://general-instinct.com/)。多年来在机器人领域工作后，我们不断遇到同样的问题：最佳模型从未适合我们实际可用的硬件。表现最佳的模型通常是围绕数据中心假设设计的：大 GPU、丰富的内存带宽和可靠的网络访问。但大多数物理系统却面临相反的限制。这使我们开始探索在保持前沿模型的情况下，如何使其在边缘硬件上实际运行。作为这项工作的组成部分，我们最近开源了 InstinctRazor (https://github.com/General-Instinct/InstinctRazor)。我们特别兴奋的一项成果是将 Qwen3.5-122B-A10B，约 245 GB 的 BF16 MoE 模型，压缩到 48 GiB 的 GGUF。结果模型实际上比 Gemma-4-26B-A4B 更小，同时在 MMLU-Pro 和 GPQA-D 等基准测试中表现更好。我们保留了那些始终处于活动状态的部分（路由器、规范、Gated-DeltaNet/SSM 层、视觉路径等），并更积极地量化路由的专家。然后，我们使用在线蒸馏来恢复在量化过程中丢失的能力。该模型还可以在“小 GPU”配置下运行，其中专家从系统 RAM 中流式传输。使用 8k 的上下文窗口，峰值 VRAM 使用量约为 7.6-8 GB。如果您对技术细节感兴趣，可以在这里查看我们的方法 (https://general-instinct.com/blog/frontier-moe-sub-4-bit)。我们特别希望听到将模型部署到机器人或其他边缘设备上的人的反馈。您今天尝试在本地运行哪些模型？将它们投入生产时遇到的最大瓶颈是什么？