gghatano/20220304_PWSイベント.md

## 20220304_PWSイベント.md

      
    Raw
  

              20220304_PWSイベント.md
            
          
    PWS Cup2021 説明 菊池さん(明治大学)


2021年は、医療データの活用を想定。分析精度に影響しないように、安全な加工を施す技術を競うコンテスト。
NHANES(糖尿病のデータセット)を利用

属性値 + 糖尿病罹患フラグ　の表データ


各チームが匿名加工し、有用性・安全性で評価した結果で競う

有用性：指定したデータ分析の精度
安全性：各チームからの攻撃結果


14チームが参加。匿名化：セコム、攻撃：NTT、総合：大阪大学のチームが優勝

総合優勝チーム 匿名化・再識別手法 山月さん(大阪大学)


許される加工：適切にサンプリングして、加工する

第一匿名化：サンプリング (レコード削除)
第二匿名化：一般化やシャッフル、ノイズ付与などの加工


評価指標

安全性

メンバシップ推定 : 加工後データに、ある人が含まれるかどうかの推定
レコード推定：メンバーに含まれる人が、加工後データのどの行か推定する


有用性

ILOSS: 加工前後の行を比較して、誤差を一定以下にする制約
OddsRate, ほか: 特定のデータ分析の誤差を一定以下にする、という制約


戦略

加工：レコード入れ替えベースの加工をしたい

分析精度に影響せず、行の変更ができるので
ILOSSの誤差の範囲でデータを入れ替える

入れ替えができるレコードの組を探索する (有用性・レコード推定対策)
入れ替えできない/少ない組を優先して削除する(第一匿名化)


再識別：メンバシップ推定は無視　レコード推定はILOSSで

メンバシップ推定は、指標の計算方法の都合、頑張らない方が有利
レコード推定は、シャッフルへの対策を想定。入れ替えできる、できるだけ離れている、候補が少ない、etc...などの観点で、行番号を推定した(わからないものはランダム)。


匿名化部門優勝　玉井さん(セコム)


全体感想

指標に沿った加工を行なった

実用性には課題がある
コンテスト指標に特化した加工が必ずしも実課題と合わないため


実施した加工

特異なレコード削除

再識別対策


クラスタリング&ランダム削除

類似レコードをまとめて、クラスタごとに一定割合を削除


スワッピング

レコード推定対策


囮レコード作成

削除レコードの一部を、提出データに含めて、メンバシップ推定対策


検証

特異なレコードを正しく削除できていたか？の検証の実施

出現頻度が低い値の組み合わせが残っていた...
スワッピングや囮レコードが有効だった


まとめ

指標が実用と離れているかも？


再識別部門優勝　 濱田さん(NTT)


ルールおさらい

加工：サンプリング + 加工 => 加工後データ

データ分析へ影響を小さくしつつ、安全にする


攻撃：攻撃用テストデータ x 加工後データで照合して、100行程度を選択して推定する

メンバシップ推定、レコード推定をする


攻撃するときにやること

加工手法を推定・仮定して、その対策をする、という考え方
今回はルールを踏まえると、行入れ替えは適用されそう

ILOSSの意味で類似しているレコードが候補
候補が複数ある場合、どれを選択するかが重要

テスト->加工後データで、候補としてあげられる回数が少ないレコードを優先して選ぶ
上位チームには有効だった -> コンテストで好成績だった
定性的には、最大マッチングに含まれやすいレコードを選択した...かったが、理論保証はできていない


PWSCUP-QA


他のチームの加工はどこが優れているように見える？ -> 攻撃優勝濱田さん

入れ替えと、入れ替えがやりやすい削除、のロジックが練られていた
-　濱田さんのような攻撃は想定していた？ -> 加工優勝玉井さん
ここまでは考えられていなかった
手元で色々攻撃手法を試した


他チームの手法を見てどう思った？ -> 総合優勝山月さん

攻撃：似たことは考えてはいた　最大マッチングとの関連は思い付かず
加工：入れ替えの工夫の仕方が重要だった。よく練られている


各チームの手法、どうでした？ -> 主催の菊池先生

方針は想定通り...だが、詳細をよく考えられている
指標についてどう思った？ -> みなさん

そもそも行番号を当てる、というシナリオに、実要件との差がある気がする。安全性の評価になっている？


医療情報活用に向けあデータ合成と匿名化への考察 木村さん(愛媛大学)


別チームの発表の中にデータ合成の話があったので、それを受けて考えてみた内容

(TOPPAN-NSSOLチームですね！)


匿名化とデータ合成

匿名化：実際のデータから特定個人の識別リスクを軽減するように、情報を減らす
データ合成：実際のデータの統計情報から、実在しない人のレコードを擬似的に作る


合成データへの期待

有用性：データ量、データの多様性、テストデータ(システム用)の確保の省工数化、PoC用のデータの利用、etc...

分析用途なら、症例としての特徴が保存されていれば、分析・活用には使える可能性がある
システム構築用途なら、データの構造が保存されていれば、システム開発には利用できる(容易に準備できる)

要配慮個人情報なデータの取得際しては、1年がかりになることもある
特定個人の識別リスク、の評価は大変


安全性：プライバシー保護


実際の例1: Simulacrum

がん患者の治療に関する合成データ
論文発表時に、分析スクリプトを提供すれば、生データで分析した結果を返す、というサービスもある
いくつか研究事例が出始めている


検討中：第三者提供を回避するためのデータ合成

合成データで分析してもらう、というスキーム


まとめ・気になっていること

合成データの公開vs合成データ生成モデルの公開
合成データのプライバシー保証
DP-GANについて調べたら、ちょっと有用性に影響がありそう、という印象

(司会高橋さん)DP x GANは相性悪め。他の研究が進んでいる、という印象


医療情報における匿名加工技術の商業的ニーズと課題 足立さん(JMDC)


JMDC事業構造：医療レセプトデータの蓄積・加工・活用・提供

健康診断等も含まれる
医療機関・製薬企業向け：疫学調査用のデータベース

薬剤や治療の効果や副作用、治療方法の探索


保健事業者向け：保険数理の計算用のデータベース　保健商品の開発
健康な人も含めて分析できる、という特異なデータベース


データ受領プロセス

元データ -> 匿名加工(業務委託) -> JMDCで受領・活用


改正個人情報保護法(今後)

地方自治体にも「匿名加工情報」が導入される
地方からの収集が進む？加工・活用の応募をして、審査され流、という形式。説明性が重要になる。


比較

仮名加工情報：他のテーブルと照合して、識別性が回復する
匿名加工情報(日本)：一般的に困難である、という基準で、元の個人情報が復元ができないようにする
匿名加工情報(GDPR)：何人にとっても、復元ができないようにする


レセプトデータ匿名加工　データ保護・ガバナンスの課題

本人への説明が困難なので、説明責任を果たすための正しい加工が必要
評価指標を決めてしまうと、それをハックしてしまう可能性がある。実質的な匿名性の担保がされない可能性がある
実質的な匿名性、とは？


前提：個人情報の定義について

本人に到達できること、が個人情報の要件ではない（超重要）

住所や電話番号があるから個人情報、ではない


本人に到達できないようにすればいい、というわけでもないはず


議論

実質的な匿名性、とは？

(伝統的な)プライバシーの保護、が目的、というわけではないはず
指標を作る、というものでもないはず
-　合成データのプライバシー、をどう考えよう？


パネルディスカッション


(寺田さん) 行番号の推定、が無意味なら、k匿名性も考えなくていいのでは？という考え方もある？

(足立さん) 個人情報保護委員会も、必ずしもk=1だとダメ、という状態ではない。説明のために何を使うと適切か、という課題がある。
(木村さん) k匿名性の確保により、有用性が大きく棄損する場合がある。状況に応じて適切な指標・技術を選べるようにしたい。
(菊池さん) わかり良さ、実装しやすさの観点で、k匿名性は便利。k匿名化していないデータが、匿名加工情報として流通している事例もあり、この状態でわざわざk匿名化しなきゃ、とはなりずらい
(高橋さん) k匿名化していない状態のデータで、インシデント・炎上した事例が発生すると、色々盛り上がるかも。まだ重要性が認知されていない。
(玉井さん) 行番号推定ってどういう事情でコンテストで扱っている？
(菊池さん) 2020年にメンバシップ推定もやってみた。難しいのでコンテストとして面白くなかった。2021年もメンバシップ推定は無視されていた。今後はうまくルールに実装していきたい
(足立さん) 1.普段1000万人規模のデータを扱っている。個人のプロファイルがされないように、k匿名化的なことが求められることがある。2.画像だったら、属性推定？　ユースケース・シナリオごとに、適切な指標・基準を考える必要がある


(寺田さん) シナリオが同一でも、攻撃が変わると加工方法を変える必要があるはず。将来の危殆化的なことも考える必要がある。(アメリカ国勢調査はそんな観点で差分プライバシーを正当化・適用している)。ユースケースごとの加工検討、未知の攻撃への対処、についてどう考える？

(木村さん) ユースケースに応じて、という観点よりも、漏洩時にどうするか、影響が最小化できているか、が重要、という認識。
(足立さん) プライバシーインパクト、という観点。例えば、暗号化してあれば、漏洩時の報告・公表義務が緩和されることになっている。一次データの改竄(ノイズ付与など)は、正確性(インテグリティ)の保証の観点で通らないことがある。正確性のための担保に向けて、合成データを使うためには、パラダイムシフトが必要。
(菊池さん) コンテストでは、攻撃・加工の手法を想定しきれているわけではない。未知の攻撃の検討は(専門者でも)大変。一般人基準で検討・加工されていれば、加工事業者の瑕疵はないことになっている。漏洩時のインパクト評価については、plausible deniability的な観点が必要？暗号化されていると、否定もできないので。


さいごに

(寺田さん) 今年もPWS2022, PWSCUP2022を開催するので、よろしくお願いします