Skip to content

Instantly share code, notes, and snippets.

@gghatano
Created March 4, 2022 02:40
Show Gist options
  • Star 1 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save gghatano/07d58c125b066f86a051c8859ba6ee33 to your computer and use it in GitHub Desktop.
Save gghatano/07d58c125b066f86a051c8859ba6ee33 to your computer and use it in GitHub Desktop.

PWS Cup2021 説明 菊池さん(明治大学)

  • 2021年は、医療データの活用を想定。分析精度に影響しないように、安全な加工を施す技術を競うコンテスト。
  • NHANES(糖尿病のデータセット)を利用
    • 属性値 + 糖尿病罹患フラグ の表データ
  • 各チームが匿名加工し、有用性・安全性で評価した結果で競う
    • 有用性:指定したデータ分析の精度
    • 安全性:各チームからの攻撃結果
  • 14チームが参加。匿名化:セコム、攻撃:NTT、総合:大阪大学のチームが優勝

総合優勝チーム 匿名化・再識別手法 山月さん(大阪大学)

  • 許される加工:適切にサンプリングして、加工する

    • 第一匿名化:サンプリング (レコード削除)
    • 第二匿名化:一般化やシャッフル、ノイズ付与などの加工
  • 評価指標

    • 安全性
      • メンバシップ推定 : 加工後データに、ある人が含まれるかどうかの推定
      • レコード推定:メンバーに含まれる人が、加工後データのどの行か推定する
    • 有用性
      • ILOSS: 加工前後の行を比較して、誤差を一定以下にする制約
      • OddsRate, ほか: 特定のデータ分析の誤差を一定以下にする、という制約
  • 戦略

    • 加工:レコード入れ替えベースの加工をしたい
      • 分析精度に影響せず、行の変更ができるので
      • ILOSSの誤差の範囲でデータを入れ替える
        • 入れ替えができるレコードの組を探索する (有用性・レコード推定対策)
        • 入れ替えできない/少ない組を優先して削除する(第一匿名化)
    • 再識別:メンバシップ推定は無視 レコード推定はILOSSで
      • メンバシップ推定は、指標の計算方法の都合、頑張らない方が有利
      • レコード推定は、シャッフルへの対策を想定。入れ替えできる、できるだけ離れている、候補が少ない、etc...などの観点で、行番号を推定した(わからないものはランダム)。

匿名化部門優勝 玉井さん(セコム)

  • 全体感想

    • 指標に沿った加工を行なった
      • 実用性には課題がある
      • コンテスト指標に特化した加工が必ずしも実課題と合わないため
  • 実施した加工

    • 特異なレコード削除
      • 再識別対策
    • クラスタリング&ランダム削除
      • 類似レコードをまとめて、クラスタごとに一定割合を削除
    • スワッピング
      • レコード推定対策
    • 囮レコード作成
      • 削除レコードの一部を、提出データに含めて、メンバシップ推定対策
  • 検証

    • 特異なレコードを正しく削除できていたか?の検証の実施
      • 出現頻度が低い値の組み合わせが残っていた...
      • スワッピングや囮レコードが有効だった
  • まとめ

    • 指標が実用と離れているかも?

再識別部門優勝  濱田さん(NTT)

  • ルールおさらい
    • 加工:サンプリング + 加工 => 加工後データ
      • データ分析へ影響を小さくしつつ、安全にする
    • 攻撃:攻撃用テストデータ x 加工後データで照合して、100行程度を選択して推定する
      • メンバシップ推定、レコード推定をする
  • 攻撃するときにやること
    • 加工手法を推定・仮定して、その対策をする、という考え方
    • 今回はルールを踏まえると、行入れ替えは適用されそう
      • ILOSSの意味で類似しているレコードが候補
      • 候補が複数ある場合、どれを選択するかが重要
        • テスト->加工後データで、候補としてあげられる回数が少ないレコードを優先して選ぶ
        • 上位チームには有効だった -> コンテストで好成績だった
        • 定性的には、最大マッチングに含まれやすいレコードを選択した...かったが、理論保証はできていない

PWSCUP-QA

  • 他のチームの加工はどこが優れているように見える? -> 攻撃優勝濱田さん

    • 入れ替えと、入れ替えがやりやすい削除、のロジックが練られていた - 濱田さんのような攻撃は想定していた? -> 加工優勝玉井さん
    • ここまでは考えられていなかった
    • 手元で色々攻撃手法を試した
  • 他チームの手法を見てどう思った? -> 総合優勝山月さん

    • 攻撃:似たことは考えてはいた 最大マッチングとの関連は思い付かず
    • 加工:入れ替えの工夫の仕方が重要だった。よく練られている
  • 各チームの手法、どうでした? -> 主催の菊池先生

    • 方針は想定通り...だが、詳細をよく考えられている
    • 指標についてどう思った? -> みなさん
      • そもそも行番号を当てる、というシナリオに、実要件との差がある気がする。安全性の評価になっている?

医療情報活用に向けあデータ合成と匿名化への考察 木村さん(愛媛大学)

  • 別チームの発表の中にデータ合成の話があったので、それを受けて考えてみた内容
    • (TOPPAN-NSSOLチームですね!)
  • 匿名化とデータ合成
    • 匿名化:実際のデータから特定個人の識別リスクを軽減するように、情報を減らす
    • データ合成:実際のデータの統計情報から、実在しない人のレコードを擬似的に作る
  • 合成データへの期待
    • 有用性:データ量、データの多様性、テストデータ(システム用)の確保の省工数化、PoC用のデータの利用、etc...
      • 分析用途なら、症例としての特徴が保存されていれば、分析・活用には使える可能性がある
      • システム構築用途なら、データの構造が保存されていれば、システム開発には利用できる(容易に準備できる)
        • 要配慮個人情報なデータの取得際しては、1年がかりになることもある
        • 特定個人の識別リスク、の評価は大変
    • 安全性:プライバシー保護
  • 実際の例1: Simulacrum
    • がん患者の治療に関する合成データ
    • 論文発表時に、分析スクリプトを提供すれば、生データで分析した結果を返す、というサービスもある
    • いくつか研究事例が出始めている
  • 検討中:第三者提供を回避するためのデータ合成
    • 合成データで分析してもらう、というスキーム
  • まとめ・気になっていること
    • 合成データの公開vs合成データ生成モデルの公開
    • 合成データのプライバシー保証
    • DP-GANについて調べたら、ちょっと有用性に影響がありそう、という印象
      • (司会高橋さん)DP x GANは相性悪め。他の研究が進んでいる、という印象

医療情報における匿名加工技術の商業的ニーズと課題 足立さん(JMDC)

  • JMDC事業構造:医療レセプトデータの蓄積・加工・活用・提供
    • 健康診断等も含まれる
    • 医療機関・製薬企業向け:疫学調査用のデータベース
      • 薬剤や治療の効果や副作用、治療方法の探索
    • 保健事業者向け:保険数理の計算用のデータベース 保健商品の開発
    • 健康な人も含めて分析できる、という特異なデータベース
  • データ受領プロセス
    • 元データ -> 匿名加工(業務委託) -> JMDCで受領・活用
  • 改正個人情報保護法(今後)
    • 地方自治体にも「匿名加工情報」が導入される
    • 地方からの収集が進む?加工・活用の応募をして、審査され流、という形式。説明性が重要になる。
  • 比較
    • 仮名加工情報:他のテーブルと照合して、識別性が回復する
    • 匿名加工情報(日本):一般的に困難である、という基準で、元の個人情報が復元ができないようにする
    • 匿名加工情報(GDPR):何人にとっても、復元ができないようにする
  • レセプトデータ匿名加工 データ保護・ガバナンスの課題
    • 本人への説明が困難なので、説明責任を果たすための正しい加工が必要
    • 評価指標を決めてしまうと、それをハックしてしまう可能性がある。実質的な匿名性の担保がされない可能性がある
    • 実質的な匿名性、とは?
  • 前提:個人情報の定義について
    • 本人に到達できること、が個人情報の要件ではない(超重要)
      • 住所や電話番号があるから個人情報、ではない
    • 本人に到達できないようにすればいい、というわけでもないはず
  • 議論
    • 実質的な匿名性、とは?
      • (伝統的な)プライバシーの保護、が目的、というわけではないはず
      • 指標を作る、というものでもないはず - 合成データのプライバシー、をどう考えよう?

パネルディスカッション

  • (寺田さん) 行番号の推定、が無意味なら、k匿名性も考えなくていいのでは?という考え方もある?
    • (足立さん) 個人情報保護委員会も、必ずしもk=1だとダメ、という状態ではない。説明のために何を使うと適切か、という課題がある。
    • (木村さん) k匿名性の確保により、有用性が大きく棄損する場合がある。状況に応じて適切な指標・技術を選べるようにしたい。
    • (菊池さん) わかり良さ、実装しやすさの観点で、k匿名性は便利。k匿名化していないデータが、匿名加工情報として流通している事例もあり、この状態でわざわざk匿名化しなきゃ、とはなりずらい
    • (高橋さん) k匿名化していない状態のデータで、インシデント・炎上した事例が発生すると、色々盛り上がるかも。まだ重要性が認知されていない。
    • (玉井さん) 行番号推定ってどういう事情でコンテストで扱っている?
    • (菊池さん) 2020年にメンバシップ推定もやってみた。難しいのでコンテストとして面白くなかった。2021年もメンバシップ推定は無視されていた。今後はうまくルールに実装していきたい
    • (足立さん) 1.普段1000万人規模のデータを扱っている。個人のプロファイルがされないように、k匿名化的なことが求められることがある。2.画像だったら、属性推定? ユースケース・シナリオごとに、適切な指標・基準を考える必要がある
  • (寺田さん) シナリオが同一でも、攻撃が変わると加工方法を変える必要があるはず。将来の危殆化的なことも考える必要がある。(アメリカ国勢調査はそんな観点で差分プライバシーを正当化・適用している)。ユースケースごとの加工検討、未知の攻撃への対処、についてどう考える?
    • (木村さん) ユースケースに応じて、という観点よりも、漏洩時にどうするか、影響が最小化できているか、が重要、という認識。
    • (足立さん) プライバシーインパクト、という観点。例えば、暗号化してあれば、漏洩時の報告・公表義務が緩和されることになっている。一次データの改竄(ノイズ付与など)は、正確性(インテグリティ)の保証の観点で通らないことがある。正確性のための担保に向けて、合成データを使うためには、パラダイムシフトが必要。
    • (菊池さん) コンテストでは、攻撃・加工の手法を想定しきれているわけではない。未知の攻撃の検討は(専門者でも)大変。一般人基準で検討・加工されていれば、加工事業者の瑕疵はないことになっている。漏洩時のインパクト評価については、plausible deniability的な観点が必要?暗号化されていると、否定もできないので。
  • さいごに
    • (寺田さん) 今年もPWS2022, PWSCUP2022を開催するので、よろしくお願いします
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment