美国禁止在人口普查数据中使用差分隐私

上周，美国商务部发布了一项命令，声明"噪声注入"将在所有由普查局和经济分析局发布的统计产品中被禁止。这意味着什么，为什么你应在意？背景：统计产品是从机密数据集中发布的一堆数字。通常，这些数据集包含机密信息，因此这些数字不能泄露该信息。美国普查是一个广为人知的例子：统计数据公开，但美国居民填写的每个表格的内容必须保密。科学家们开发了多种技术，能够在保护原始数据隐私的同时发布有用的统计信息。这个领域在统计界被称为防止信息泄露。以下是其中一些技术：抑制：移除不符合某些阈值的数据（例如，如果一个人数的计数低于5，则不发布）。粗化（或概括）：使数据属性不那么精确（例如，将一个县转换为其州，将出生日期转换为年龄范围等）。抽样：随机移除数据集中的一些记录。交换：从不同记录中提取属性并随机交换。贡献界限：通过限制个人对统计数据的最大影响来确保单个个体不能对统计数据“贡献过多”。噪声添加：向统计数据添加随机数字以隐藏其真实值。将这些技术结合使用可实现一个被称为差分隐私的定义。这个定义具有很多良好的基本属性，被广泛认为是科学家隐私保护的黄金标准。为了实现这一点，科学家们通常依赖贡献界限和精心调整的噪声添加的组合。从1990年到2010年，美国普查局主要依赖交换进行十年一次的普查。后来，他们意识到这种技术实际上非常不安全，很容易通过发布的统计信息重建个体记录。这是个坏消息，因为联邦法律要求普查局保持这些记录的机密性。因此，他们尝试了几种替代方法，并决定在2020年普查中采用差分隐私：这是那个在保持统计信息最有用的同时，防止这些攻击的方法。必须重申的是：选择差分隐私并不是因为数学很美好且令人信服，而是因为在减轻攻击的不同选项中，它是保持最大效用的选择。其确切的隐私参数之所以被选定，不是因为它提供了铁一般的可证明保证，而是因为它在达到可接受的隐私保护水平的同时，尽可能挤出了数据的最大效用。可悲的是，“在新发现的隐私约束下保留了最大效用”并不意味着“保留了与2010年普查一样多的效用”：这些数字的准确性降低了，而不准确的地方变得更加透明，因此无法忽视。这让许多人非常生气。人口统计学家和社会科学家再也无法忽视他们所使用的数据是噪声数据。这需要他们在概念和使用数据的方法上进行重大转变。那些利用普查数据实际重建记录的人再也无法做到这一点。人口统计学家们承认这已是常见做法。政治活动家也暗中知道这在选区划分中被利用。哦，这很多背景信息。那么命令中说了什么？政府现在决定噪声注入不再是可接受的信息泄露避免技术。该命令明显针对差分隐私，但似乎也影响涉及随机性的其他技术：文本明确提到，在处理时应始终优先考虑粗化，抑制应作为“最后的手段”。我不知道这个命令为何如此具体，也许他们想确保在美国普查工作中的科学家不能在不称之为差分隐私的情况下使用类似技术？该命令还小心地声明，它“不得被解释为与任何宪法、法定、规章或其他法律条文相冲突”。因此，围绕这些统计产品的保密义务仍然适用。这在实践中意味着什么？后果对效用或隐私，甚至可能是两者都会非常严重。很难夸大这一点：未来的统计发布要么相比于过去毫无用处，要么极其不安全。首先，从信息泄露避免工具箱中取走有用工具总是会导致更痛苦的隐私/效用权衡。这个研究领域的全部目的就是更好地理解和量化隐私风险，并开发出更好的工具，以在保留效用的同时减轻这一风险。对于统计学家...