MiMo-v2.5-Pro-UltraSpeed: 每秒1000个令牌的1T模型

2026年6月8日 MiMo-V2.5-Pro-UltraSpeed: 将1T参数模型的生成速度推向每秒1000个令牌立即体验 › 访问API › 中文 › 1. 小米MiMo-V2.5-Pro-UltraSpeed: 速度是终极优势从内燃机时代的第一辆怒吼赛车到突破音障的音爆，人类对速度的渴望铭刻在我们的DNA中。AI推理的速度也不例外——它定义了智能的边界。当模型足够快速时，它就不再是你需要等待的工具，而成为你思维的延伸：实时响应，瞬间迭代，无摩擦合作。今天，我们很高兴与TileRT合作发布小米MiMo-V2.5-Pro-UltraSpeed，首次打破1万亿参数模型的每秒1000个令牌解码速度！ MiMo-V2.5-Pro UltraSpeed实时生成速度比较（高达约1200个令牌/秒） 2. 限时访问·基于申请 MiMo-V2.5-Pro-UltraSpeed API将在限时促销价格下同时推出——价格为MiMo-V2.5-Pro的3倍，但生成速度约为10倍！ 3倍价格，10倍输出体验。（仅限API；不支持令牌计划。）由于高速度推理资源有限，MiMo-V2.5-Pro-UltraSpeed将通过基于申请的限时窗口提供。获得批准的用户可以在试用期间访问API，仅限于2026年6月9日至6月23日23:59（北京时间，UTC+8 / 太平洋时间08:59）。申请方法 API平台：platform.xiaomimimo.com/ultraspeed。试用名额有限——提交不保证批准。我们将优先考虑具有真实商业需求的企业和专业开发者。有关标准模型的访问，请遵循MiMo-V2.5系列模型。有关UltraSpeed模型的深入商业合作，请联系 business-mimo@xiaomi.com。聊天体验（试用期间免费）获得批准的用户将在两周内获得免费的聊天访问权限。入口：ultraspeed.xiaomimimo.com 为确保在资源限制条件下的质量和公平性，适用以下规则：每个账户每天最多可以进入队列10次；每次会话限制为30分钟；会话闲置超过5分钟将自动释放。 3. 每秒1000个令牌：不仅仅是快速，而是范式的转变在1万亿参数（1T）规模上，打破每秒1000个令牌远不止是一款更快的打字机——它从根本上颠覆了AI应用范式。首先，速度本身开始转化为智能。以前，当面临难题时，你只能“等待一个答案并祈祷它是正确的。”现在，在相同的时钟时间内，模型可以并行运行数十条推理路径（最佳-之N / 树搜索），自动在后台验证和自我纠正——利用原始速度生成深入的思考，直接提升推理质量。第二，彻底释放编码代理的生产力上限。之前，让AI编写代码意味着开发者痛苦地在屏幕前等待，被推理延迟限制。在每秒1000个令牌的速度下，代码生成速度和生产效率经历了范式级别的加速。最重要的是，万亿参数模型现在可以进入实时决策循环。毫秒级的“思考-响应”循环使1T旗舰模型能够无缝连接到时间关键场景——高频量化交易信号生成、即时反欺诈拦截、智能竞标和实时互动对话。当这种力量应用于生死攸关的手术辅助和医疗影像分析时，AI的速度不再仅仅是效率的指标——它成为了与死神赛跑的筹码。在手术台上，AI在完成病变分析和风险预测中节省的每一秒为外科医生提供了更多的自由度。这加深了我们对速度的最终意义的信念：不仅仅是提升生产力，而是使科技帮助人类过上更好的生活。 4. 极端模型-系统共同设计实现1000+个令牌/秒的生成速度与1T旗舰模型并不是单一技术的突破——而是MiMo模型团队与TileRT系统团队之间深度合作和极端共同设计的成果。当前行业对类似极端速度的处理方式通常依赖于专业硬件——Cerebras的晶圆级集成或Groq的纯片上SRAM定制架构。我们选择了不同的道路：仅通过模型-系统共同设计，在商用GPU上实现更令人印象深刻的推理速度。在模型方面，我们应用了针对商用硬件带宽瓶颈的FP4量化，显著缩小模型大小并减少内存访问开销；同时，引入了基于块级掩码并行预测的高效预测解码方法DFlash，实质性地增加了接受的令牌长度。