アメリカが統計データのノイズを禁止した話
トランプ政権がやらかした話。
何が起きたか
米国商務省が「ノイズ注入(noise infusion)を Census Bureau と BEA の統計製品で全面禁止」する命令を出した。
Census Bureau(国勢調査局)は日本でいう総務省統計局みたいなもので、アメリカの人口・世帯・住居などを調査して公開する機関。10年に1回の国勢調査を担当していて、選挙区の区割りや連邦予算の配分にも使われる重要なデータを出している。
BEA(Bureau of Economic Analysis、経済分析局)はGDPや個人消費などの経済統計を出す機関。日本でいう内閣府の国民経済計算に近い。
どちらもアメリカの政策立案の根拠になる統計を扱っていて、研究者や行政が広く使っている。
参考:Banning noise will be a disaster for statistical data products
ノイズって何
国勢調査みたいな統計データを公開するとき、個人が特定されないよう数値にわざと誤差を混ぜるテクニック。Differential Privacy(差分プライバシー)の中核手法。
具体例で説明する。
人口3人の離島「ホゲ島」があるとする。国勢調査で以下のような統計が公開されたとしよう。
ホゲ島の30代男性:3人
ホゲ島の既婚男性:2人
ホゲ島の会社員男性:3人
ホゲ島の持ち家あり男性:1人
...この数値が全部正確だと、組み合わせることで「ホゲ島に住む30代・既婚・会社員・持ち家なしの男性は2人」みたいな情報が芋づる式に確定していく。統計を大量に突き合わせると連立方程式になって、最終的に「この人物は山田さんしかいない」まで絞り込めてしまう。
ノイズを入れると話が変わる。
ホゲ島の30代男性:5人(真値は3人)
ホゲ島の既婚男性:1人(真値は2人)
ホゲ島の会社員男性:4人(真値は3人)
...全部の数値に誤差が乗っているので、連立方程式を立てても解が一意に定まらない。「だいたい3人くらいいる」という傾向は読み取れるが、個人の特定には使えない。これがノイズの効果。
禁止したらどうなるか
代替手段は「粗粒化(coarsening)」か「非公開(suppression)」しかない。
粗粒化は市区町村単位を都道府県単位に丸めるみたいなやつ。非公開は件数が少なすぎるセルを丸ごと消す。
どちらも粗いツールで、少数民族や過疎地域のような母数が小さい集団のデータが全滅する。政策立案に使えるデータが消えるということ。
かといって正確な数値をそのまま出せば個人特定し放題になる。詰み。
本当の狙い
表向きの理由は「ノイズ入りデータは不正確で信頼できない」。
疑惑されているのはゲリマンダリング(選挙区操作)。正確な人口データがあれば自分たちに有利な選挙区を引きやすくなる。2030年の国勢調査に向けた布石では、という見方がある。
元記事の著者はもう一つの可能性も示唆している。差分プライバシーはプライバシーと有用性のトレードオフを数学的に明示する手法で、その不都合な現実を見えなくしたいだけかもしれない、と。
じゃあ日本は?
日本の国勢調査(総務省統計局)は差分プライバシーを未導入。
プライバシー保護の主な手段は統計法による守秘義務と調査票の廃棄処理。調査関係者が情報を漏らした場合の罰則(2年以下の懲役または100万円以下の罰金)が定められていて、集計後の調査票は完全に溶かして廃棄される。要するに「法律と運用で守る」という方針。
差分プライバシーの導入については総務省統計局でも研究・検討が進んでいて、論文も出ている。ただし実際の国勢調査への本番導入はまだ。
参考:公的統計に対する差分プライバシーの適用と有効性の評価に関する検討(統計局)
アメリカがせっかく先進的な手法を導入したのに政治的な理由で禁止した一方、日本はその手法にまだ追いついていない。どちらも違う意味で心配になる。
感想
統計データのプライバシー保護って地味なテーマだけど、仕組みを知ると「よく考えたな」と思う。ノイズを入れることで個人を守りつつデータとして使えるようにするバランス感覚はエレガント。
それを政治的な理由で潰すのは、技術的には完全に退行。アメリカ大丈夫か。