FUTO Swipe – 一种新的滑动输入法模型

快速、准确的滑动输入系统。今天可以在FUTO键盘中使用，它是我们的完全离线的Android键盘应用程序。或者下载模型并进行构建。这是一个服务器端演示，以保持这个网页小巧。在生产中，它运行在设备上，延迟更低。很长一段时间以来，好的移动滑动输入被隐私入侵的键盘应用程序或未经授权的私人库锁住。FUTO Swipe是我们的一系列开放模型和算法，旨在解决这个问题。我们主要为FUTO键盘开发这一模型，但也欢迎更广泛的社区使用FUTO Swipe模型。由于这是我们的一项长期投资，我们要求将归属信息显著显示给最终用户。阅读许可数据集在2024年8月，我们在swipe.futo.org域推出了一个数据集收集工作，收集QWERTY英语滑动输入。用户自愿访问他们手机上的网页，并获得关于数据集的说明和信息。经同意后，他们会被提供句子，主要来自维基百科，并被要求逐字滑动输入。最终，这产生了超过100万个滑动输入。我们过滤掉了一小部分低质量的滑动输入。2025年3月，我们在MIT许可下发布了100万个滑动数据集，目前可以在HuggingFace上找到。我们大量使用这些数据来训练我们的模型和评估不同的滑动输入系统。模型我们的架构包括三种模型类型。编码器模型是一个通用的与布局和语言无关的模型，主要用于一般情况下的滑动输入预测。然而，它不提供最先进的准确性。ContextLM模型是一个非常小的语言模型，为单一语言训练。它用于通过消除句子中前面的词所给出的无意义词来提高预测质量。它只需要文本数据进行训练。最后，解码器是一个特定于语言和布局的模型，学习布局的特性并实现领先的准确性。由于它需要特定布局和语言的滑动输入数据进行训练，目前我们仅有一个QWERTY英语解码器。使用这三种模型和300的光束宽度，我们在测试集上的前四名失败率仅为约4%。忽略超出词汇外的情况，错误率低于1%。注意：这些数字严重依赖基准，因此实际使用可能会有所不同，但我们相信我们可以与大科技的键盘匹敌。足迹编码器模型仅有635,140个参数，解码器额外增加304,155个。最大的模型是ContextLM，拥有150万个参数，但其中110万个仅是嵌入。这样我们得到了1,364,271个活跃参数，或2,494,767个总参数。这意味着模型的占用空间非常小，模型可以在低端设备上在毫秒内运行。此外，训练模型所涉及的环境成本也非常低，因为我们从未需要超过1个工作站GPU！ C++库模型本身只是从滑动到单词预测过程的一半。模型的预测本身并不非常有用，因此必须进行字典约束的光束搜索，以对一组单词进行评分并找到最可能的候选词。为此，我们发布了swipe-library，这是一个用C++编写的库，它处理整个推理、解码和光束搜索部分，让您可以轻松地从滑动路径转换为单词预测。制作一些酷炫的东西！...或在笔记本电脑触控板上想要使用FUTO Swipe构建吗？FUTO Swipe模型根据FUTO模型许可证提供，推理库则在GPL下提供。我们正在撰写一篇论文，将详细介绍有关训练和架构的更多信息。