模态自动端点：优化的推理你掌控

新闻快讯 2026年6月23日 • 阅读时间5分钟模态允许像Cognition、Decagon、Fathom和DoorDash等领先团队在不影响成本效益或开发者效率的情况下掌控他们的推理。现在，你也可以通过一个命令做到这一点：推出模态自动端点：一个平滑、自助的生产级LLM推理入口。现在就来体验一下，或继续阅读以了解我们是如何构建它的以及为什么。为真正掌控你的推理而打造专有模型提供者可以悄然降低模型质量或突然撤回访问权限。如果你不掌控你的推理，你就无法掌控你的命运。如果你使用由推理提供者提供的开放模型，你会获得一些控制权。但我们认为，掌控比API更深层。要真正掌控你的推理，你需要拥有、理解并优化运行推理的代码。托管推理提供者使获取API变得简单，但服务堆栈却是一个黑箱。因此，直到现在，想要真正掌控其推理的团队只有一个选择：自己构建推理服务。这虽然让你拥有控制权，但现在你掌握的远不止推理：包括引擎调优、端点基准测试、容器部署、复制自动扩展和路由，以及推理指标。这就是我们为何构建模态自动端点的原因，以及它们与传统推理提供者提供的服务有很大不同的原因。模态端点是一个与OpenAI API兼容的、生产就绪的服务，由一个你可以看到和掌控的模态应用支持。这种方法有三个关键区别：我们不隐藏代码。从GPU选择到区域化，再到推理引擎标志及偶尔的剪切引擎补丁，所有信息均与你共享。我们不隐藏指标。像投机解码接受长度和每个副本、引擎端的令牌延迟分位数等真正需要调试推理问题的指标，会自动在仪表板中提供。门槛很低，但我们并没有设立！我们不隐藏在“联系销售”按钮后。你可以通过CLI命令或点击操作，而不是Zoom电话，部署前沿开放模型，如GLM 5.2。如果你需要更多专业知识，我们的热线始终畅通。为推理构建的基础设施我们能够提供所有这些，因为我们建立在一个坚实的基础之上：模态的AI基础设施平台。我们的用户在这一平台上折叠蛋白质、驱动机器人和制作音乐。那些在这里有效的基本组件同样适用于手工构建的LLM推理或通过自动端点。使用模态时，你无需为无法估计的负载预留几个月的昂贵GPU容量。相反，你只需为所用的资源付费，并根据需求进行扩展，利用我们的高性能自动扩展系统和自定义容器运行时。你可以在全球范围内或靠近用户使用GPU，而无需担心容量管理。这是我们的名片，而这不会改变。我们还增加并从测试版发布了一个新基本组件，以支持低延迟推理的需求：模态服务器，用于超低延迟路由。模态服务器保持了模态Web功能的弹性扩展和深度计算能力。但它们消除了排队，并默认按区域化处理，使你可以在模态上仅用5毫秒开销处理HTTP请求——而不妨碍可靠性和自动扩展。更多关于我们如何构建的内容将在本周晚些时候分享。高性能推理代码，轻松获得，而不是艰苦地磨练推理引擎类似于数据库管理系统，如PostgreSQL：复杂、关键性的软件，必须在硬件的极限上运行。与数据库一样，这些软件具有复杂的内部结构，通过无数的调节器暴露出来，获得最佳性能需要学习如何调整这些调节器。这是一个艰难的磨练。当一个团队希望掌控推理，但却习惯于使用专有模型API时，保持API层抽象并将推理性能问题外包给开放权重模型的专有封装是很有诱惑力的。自动端点给你提供了两全其美的解决方案：轻松实现性能。对于每个支持的模型，我们提供基于我们与全球一些最具挑战性的AI产品开发团队的经验，提供一个起始部署。你无需在准备好之前就指定GPU类型或调试引擎标志（例如--mamba-scheduler-strategy或--flashinfer-mxfp4-moe-precision），使你的工作负载进行定制优化。我们在与专有推理提供者的直接竞争中开发了这些方案。我们通过下注于开源而获胜——在必要时补丁和上游改进基础推理引擎，如SGLang和内核如FlashAttention-4——并全力投入投机解码。特别是，我们欣赏来自Z Lab的DFlash块扩散生成器架构，我们在每个兼容模型中使用它。我们与Z Lab紧密合作，...