更便宜、更快速且具文化意识，Avataar 的视频 AI 为印度的规模而生

与美国、欧洲和中国相比，印度的 AI 模型输出速度较慢。只有少数初创公司在发布模型，而它们大多数都是大型语言模型或语音模型。为了鼓励更多的发展，政府启动了印度 AI 使命，这是一个大约 12 亿美元的计划，其中一项是为选定的初创公司提供补贴 GPU 计算，以换取公开发布它们的模型。12 家入选该计划的初创公司之一，Avataar AI，推出了一种名为 Varya 的新视频模型，旨在理解本地上下文，例如识别不同的节日、美食和服装。该公司获得 Peak XV 的支持，专注于为电子商务创建视频工具，并未从头开始构建 Varya。它从阿里巴巴发布的公开视频生成模型 Wan 2.2 开始，并使用了一种称为蒸馏的技术——本质上是将模型的能力压缩成一个更精简、更快速的版本，优化用于 Avataar 的特定用例。结果是一个以四个步骤运行的模型，而 Wan 2.2 的运行需要 50 步，生产速度是其 10 倍，成本仅为其一部分。具体来说：使用 NVIDIA H200 GPU，Varya 可以在 45 秒内生成一个 5 秒的 720p 视频片段，而 Wan 2.2 则需要 1230 秒。Varya 最引人注目的方面可能是其价格。该公司计划在其托管服务上收取每秒 ₹0.48（$0.005）的费用——远低于 Veo、Kling、Luma 和 Runway 等模型，后者通常收取每秒 $0.10 或更多。这是一个大约 20 倍的价格差异。“印度是一个以视频为主的市场。我们在印度每个大型消费者互联网产品中都看到这一点：视频胜过文本。当前的 AI 视频模型对于在印度的大规模人群使用来说太昂贵。如果视频 AI 要接触到学生、老师、中小企业、创作者、企业和公共服务，成本必须大幅降低。成本是印度 AI 应用的最大解锁因素，”Peak XV 的董事总经理 Rajan Anandan 对 TechCrunch 说。图像和视频生成模型往往会忽略文化细微差别，并产生刻板印象或通用的输出——这是 TechCrunch 以前报道过的问题。Avataar AI 表示，它使用精心策划的数据训练 Varya，以识别包括食物、服装、建筑和节日在内的文化细微差别。Varya 将作为开放权重模型在印度的 AI Kosh 门户网站上发布——这是印度政府用于公开提供的 AI 模型和数据集的集中存储库——以及其训练数据，这意味着开发者可以自我托管或根据自己的需求进行修改。Avataar 还计划将该模型提供给其企业客户，并表示愿意与包括 Higgsfield 和 Adobe Firefly 在内的 видео 工具进行合作。现在，任何人都可以通过其网站使用文本提示或参考图像进行尝试。Varya 的推出反映了印度 AI 雄心中的一种基本权衡。行业资深人士指出，印度可以通过创建应用程序和强大的开发者生态系统来在 AI 领域留下深刻的印记，而不是在基础模型上竞争。这种务实的态度是有原因的：由于缺乏计算资源和有限的优质数据可用性，印度的模型开发速度落后于全球竞争对手。印度 AI 使命也是广泛政府推动关闭这一差距的一部分。去年，印度选定了 12 家初创公司（包括 Avataar AI）来开发 AI 模型，并为他们提供成本有效的计算资源。今年早些时候，IT 部长 Ashwini Vaishnaw 表示，印度计划到 2028 年吸引 2000 亿美元的 AI 投资，并在六个月内将其 GPU 能力增加一倍。当您通过我们文章中的链接进行购买时，我们可能会获得少量佣金。这不会影响我们的编辑独立性。Ivan 在 TechCrunch 报道全球消费科技发展的情况。他驻扎在印度，此前曾在《赫芬顿邮报》和《下一步网络》等出版物工作。您可以通过发送电子邮件至 im@ivanmehta.com 或通过 Signal 的 ivan.42 加密消息与 Ivan 联系或验证联系。查看个人简介