- 2021年は、医療データの活用を想定。分析精度に影響しないように、安全な加工を施す技術を競うコンテスト。
- NHANES(糖尿病のデータセット)を利用
- 属性値 + 糖尿病罹患フラグ の表データ
- 各チームが匿名加工し、有用性・安全性で評価した結果で競う
- 有用性:指定したデータ分析の精度
- 安全性:各チームからの攻撃結果
- 14チームが参加。匿名化:セコム、攻撃:NTT、総合:大阪大学のチームが優勝
-
許される加工:適切にサンプリングして、加工する
- 第一匿名化:サンプリング (レコード削除)
- 第二匿名化:一般化やシャッフル、ノイズ付与などの加工
-
評価指標
- 安全性
- メンバシップ推定 : 加工後データに、ある人が含まれるかどうかの推定
- レコード推定:メンバーに含まれる人が、加工後データのどの行か推定する
- 有用性
- ILOSS: 加工前後の行を比較して、誤差を一定以下にする制約
- OddsRate, ほか: 特定のデータ分析の誤差を一定以下にする、という制約
- 安全性
-
戦略
- 加工:レコード入れ替えベースの加工をしたい
- 分析精度に影響せず、行の変更ができるので
- ILOSSの誤差の範囲でデータを入れ替える
- 入れ替えができるレコードの組を探索する (有用性・レコード推定対策)
- 入れ替えできない/少ない組を優先して削除する(第一匿名化)
- 再識別:メンバシップ推定は無視 レコード推定はILOSSで
- メンバシップ推定は、指標の計算方法の都合、頑張らない方が有利
- レコード推定は、シャッフルへの対策を想定。入れ替えできる、できるだけ離れている、候補が少ない、etc...などの観点で、行番号を推定した(わからないものはランダム)。
- 加工:レコード入れ替えベースの加工をしたい
-
全体感想
- 指標に沿った加工を行なった
- 実用性には課題がある
- コンテスト指標に特化した加工が必ずしも実課題と合わないため
- 指標に沿った加工を行なった
-
実施した加工
- 特異なレコード削除
- 再識別対策
- クラスタリング&ランダム削除
- 類似レコードをまとめて、クラスタごとに一定割合を削除
- スワッピング
- レコード推定対策
- 囮レコード作成
- 削除レコードの一部を、提出データに含めて、メンバシップ推定対策
- 特異なレコード削除
-
検証
- 特異なレコードを正しく削除できていたか?の検証の実施
- 出現頻度が低い値の組み合わせが残っていた...
- スワッピングや囮レコードが有効だった
- 特異なレコードを正しく削除できていたか?の検証の実施
-
まとめ
- 指標が実用と離れているかも?
- ルールおさらい
- 加工:サンプリング + 加工 => 加工後データ
- データ分析へ影響を小さくしつつ、安全にする
- 攻撃:攻撃用テストデータ x 加工後データで照合して、100行程度を選択して推定する
- メンバシップ推定、レコード推定をする
- 加工:サンプリング + 加工 => 加工後データ
- 攻撃するときにやること
- 加工手法を推定・仮定して、その対策をする、という考え方
- 今回はルールを踏まえると、行入れ替えは適用されそう
- ILOSSの意味で類似しているレコードが候補
- 候補が複数ある場合、どれを選択するかが重要
- テスト->加工後データで、候補としてあげられる回数が少ないレコードを優先して選ぶ
- 上位チームには有効だった -> コンテストで好成績だった
- 定性的には、最大マッチングに含まれやすいレコードを選択した...かったが、理論保証はできていない
-
他のチームの加工はどこが優れているように見える? -> 攻撃優勝濱田さん
- 入れ替えと、入れ替えがやりやすい削除、のロジックが練られていた - 濱田さんのような攻撃は想定していた? -> 加工優勝玉井さん
- ここまでは考えられていなかった
- 手元で色々攻撃手法を試した
-
他チームの手法を見てどう思った? -> 総合優勝山月さん
- 攻撃:似たことは考えてはいた 最大マッチングとの関連は思い付かず
- 加工:入れ替えの工夫の仕方が重要だった。よく練られている
-
各チームの手法、どうでした? -> 主催の菊池先生
- 方針は想定通り...だが、詳細をよく考えられている
- 指標についてどう思った? -> みなさん
- そもそも行番号を当てる、というシナリオに、実要件との差がある気がする。安全性の評価になっている?
- 別チームの発表の中にデータ合成の話があったので、それを受けて考えてみた内容
- (TOPPAN-NSSOLチームですね!)
- 匿名化とデータ合成
- 匿名化:実際のデータから特定個人の識別リスクを軽減するように、情報を減らす
- データ合成:実際のデータの統計情報から、実在しない人のレコードを擬似的に作る
- 合成データへの期待
- 有用性:データ量、データの多様性、テストデータ(システム用)の確保の省工数化、PoC用のデータの利用、etc...
- 分析用途なら、症例としての特徴が保存されていれば、分析・活用には使える可能性がある
- システム構築用途なら、データの構造が保存されていれば、システム開発には利用できる(容易に準備できる)
- 要配慮個人情報なデータの取得際しては、1年がかりになることもある
- 特定個人の識別リスク、の評価は大変
- 安全性:プライバシー保護
- 有用性:データ量、データの多様性、テストデータ(システム用)の確保の省工数化、PoC用のデータの利用、etc...
- 実際の例1: Simulacrum
- がん患者の治療に関する合成データ
- 論文発表時に、分析スクリプトを提供すれば、生データで分析した結果を返す、というサービスもある
- いくつか研究事例が出始めている
- 検討中:第三者提供を回避するためのデータ合成
- 合成データで分析してもらう、というスキーム
- まとめ・気になっていること
- 合成データの公開vs合成データ生成モデルの公開
- 合成データのプライバシー保証
- DP-GANについて調べたら、ちょっと有用性に影響がありそう、という印象
- (司会高橋さん)DP x GANは相性悪め。他の研究が進んでいる、という印象
- JMDC事業構造:医療レセプトデータの蓄積・加工・活用・提供
- 健康診断等も含まれる
- 医療機関・製薬企業向け:疫学調査用のデータベース
- 薬剤や治療の効果や副作用、治療方法の探索
- 保健事業者向け:保険数理の計算用のデータベース 保健商品の開発
- 健康な人も含めて分析できる、という特異なデータベース
- データ受領プロセス
- 元データ -> 匿名加工(業務委託) -> JMDCで受領・活用
- 改正個人情報保護法(今後)
- 地方自治体にも「匿名加工情報」が導入される
- 地方からの収集が進む?加工・活用の応募をして、審査され流、という形式。説明性が重要になる。
- 比較
- 仮名加工情報:他のテーブルと照合して、識別性が回復する
- 匿名加工情報(日本):一般的に困難である、という基準で、元の個人情報が復元ができないようにする
- 匿名加工情報(GDPR):何人にとっても、復元ができないようにする
- レセプトデータ匿名加工 データ保護・ガバナンスの課題
- 本人への説明が困難なので、説明責任を果たすための正しい加工が必要
- 評価指標を決めてしまうと、それをハックしてしまう可能性がある。実質的な匿名性の担保がされない可能性がある
- 実質的な匿名性、とは?
- 前提:個人情報の定義について
- 本人に到達できること、が個人情報の要件ではない(超重要)
- 住所や電話番号があるから個人情報、ではない
- 本人に到達できないようにすればいい、というわけでもないはず
- 本人に到達できること、が個人情報の要件ではない(超重要)
- 議論
- 実質的な匿名性、とは?
- (伝統的な)プライバシーの保護、が目的、というわけではないはず
- 指標を作る、というものでもないはず - 合成データのプライバシー、をどう考えよう?
- 実質的な匿名性、とは?
- (寺田さん) 行番号の推定、が無意味なら、k匿名性も考えなくていいのでは?という考え方もある?
- (足立さん) 個人情報保護委員会も、必ずしもk=1だとダメ、という状態ではない。説明のために何を使うと適切か、という課題がある。
- (木村さん) k匿名性の確保により、有用性が大きく棄損する場合がある。状況に応じて適切な指標・技術を選べるようにしたい。
- (菊池さん) わかり良さ、実装しやすさの観点で、k匿名性は便利。k匿名化していないデータが、匿名加工情報として流通している事例もあり、この状態でわざわざk匿名化しなきゃ、とはなりずらい
- (高橋さん) k匿名化していない状態のデータで、インシデント・炎上した事例が発生すると、色々盛り上がるかも。まだ重要性が認知されていない。
- (玉井さん) 行番号推定ってどういう事情でコンテストで扱っている?
- (菊池さん) 2020年にメンバシップ推定もやってみた。難しいのでコンテストとして面白くなかった。2021年もメンバシップ推定は無視されていた。今後はうまくルールに実装していきたい
- (足立さん) 1.普段1000万人規模のデータを扱っている。個人のプロファイルがされないように、k匿名化的なことが求められることがある。2.画像だったら、属性推定? ユースケース・シナリオごとに、適切な指標・基準を考える必要がある
- (寺田さん) シナリオが同一でも、攻撃が変わると加工方法を変える必要があるはず。将来の危殆化的なことも考える必要がある。(アメリカ国勢調査はそんな観点で差分プライバシーを正当化・適用している)。ユースケースごとの加工検討、未知の攻撃への対処、についてどう考える?
- (木村さん) ユースケースに応じて、という観点よりも、漏洩時にどうするか、影響が最小化できているか、が重要、という認識。
- (足立さん) プライバシーインパクト、という観点。例えば、暗号化してあれば、漏洩時の報告・公表義務が緩和されることになっている。一次データの改竄(ノイズ付与など)は、正確性(インテグリティ)の保証の観点で通らないことがある。正確性のための担保に向けて、合成データを使うためには、パラダイムシフトが必要。
- (菊池さん) コンテストでは、攻撃・加工の手法を想定しきれているわけではない。未知の攻撃の検討は(専門者でも)大変。一般人基準で検討・加工されていれば、加工事業者の瑕疵はないことになっている。漏洩時のインパクト評価については、plausible deniability的な観点が必要?暗号化されていると、否定もできないので。
- さいごに
- (寺田さん) 今年もPWS2022, PWSCUP2022を開催するので、よろしくお願いします