TabFM：用于表格数据的零-shot基础模型

自我们推出TimesFM以来，人们在时间序列预测处理方式上发生了巨大的转变。现在，我们将这种“零-shot”的逻辑应用于表格数据。我们介绍了TabFM，一个旨在简化分类和回归工作流程的新基础模型。表格数据构成了企业数据基础设施的支柱，并驱动着大量关键的预测机器学习应用。从预测客户流失到识别金融欺诈，表格回归和分类任务无处不在。多年来，像AdaBoost、XGBoost和随机森林等监督树基算法在这一领域占据主导地位，提供了对结构化数据的强大性能。然而，部署这些传统模型的生命周期存在显著瓶颈。将XGBoost模型拟合到新数据集不仅仅是一次.fit()步骤的问题，它总是需要繁琐的人工 effort。数据科学家必须投入无数小时进行广泛的超参数优化和特定领域的特征工程，仅仅是为了从原始数据中提取可靠的信号。另一方面，最近在更广泛的机器学习领域的进展——尤其是大语言模型（LLMs）的演变——改变了我们与新任务的互动方式。LLMs通过上下文学习（ICL）展示了零-shot预测的非凡能力。这种技术使得预训练模型可以通过在输入上下文中提供示例和指令来学习新任务，而无需更新任何底层模型权重。今天，我们推出TabFM，这是一个专门为表格数据分类和回归设计的基础模型。通过将表格预测框架视为ICL问题，TabFM消除了手动模型训练、超参数调优和复杂特征工程的需要。我们很高兴地分享这种方法如何使用户在单次前向传递中生成对以前未见的表格的高质量预测。TabFM现已在我们的Hugging Face和GitHub代码库中可用。它是如何工作的传统的机器学习范式依赖于更新特定于给定数据集分布的模型参数。相比之下，ICL范式完全绕过了这一点。TabFM并不需要为每个新任务经历传统的训练阶段，而是将整个数据集——包括历史训练示例和目标测试行——作为一个统一的提示。该模型学习在推理时直接从上下文中解释列和行之间的关系。然而，将ICL应用于表格数据并不像对自然语言进行标记处理那样简单。标准语言模型处理一维、有序的序列，而表格在本质上是二维的，且固有地无序：交换两行或两列不会改变数据的基本含义。为了有效处理这些多样的表格结构，同时实现可扩展的零-shot预测，TabFM将TabPFN和TabICL等架构的优势综合成一种新颖的混合设计。下图可视化了这种结构，该结构依赖于三个关键机制：交替的行和列注意力：首先，通过一个多层注意力模块处理原始表格。与TabPFN类似，此步骤在列（特征）和行（示例）之间应用交替注意力。通过持续关注这两个维度，模型学习到丰富的表示，这些表示原生地捕获了复杂的特征交互和依赖关系。这种深度上下文化有效地执行了原本需要数据科学家费力制造的特征编造。行压缩：在这种上下文化之后，为每个单独行压缩的丰富、交叉注意的信息被压缩为一个单一的、密集的向量表示。上下文学习（ICL）：最后，一个专用的Transformer在这些压缩嵌入序列中运作。采用TabICL的高效方法，在这些压缩的行向量上执行注意力——而不是在原始、未压缩的网格上——大大降低了计算成本。这确保了预测步骤保持高度计算效率，即使对于更大的数据集。在大规模合成数据上训练构建基础模型的典型流程是使用训练在海量多样数据上的高容量神经网络。然而，在表格机器学习中一个主要障碍是高质量、多样化的表格数据集——尤其是反映真实工业数据分析所需的大型表——在开源领域极为稀缺。工业表通常包含专有的架构和敏感信息，使其无法被广泛用于预训练。因为可以生成任意大的合成表，所以它们实际上是以这种规模预训练基础模型的唯一可行选择。