差分プライバシーの哲学／ConsenSys Health

LayerX Labs Newsletter for Biz (2021/10/06-10/12) Issue #126

th_sat

Oct 15, 2021

今週の注目トピック

Takahiro Hatajima（@th_sat）より

アメリカ数学会の月刊誌より「差分プライバシーの哲学」の概要を紹介します。

あわせて、ブロックチェーンとコンフィデンシャル・コンピューティングによる治験の効率化に向けたConsenSys Healthの取り組みを紹介します。

Section1: PickUp

●アメリカ数学会が展望する「差分プライバシーをめぐる課題と未来」

米国の数学の学会であるアメリカ数学会（AMS：American Mathematical Society）が発行する会員制の月刊誌「Notices Of The American Mathematical Society」（November 2021号）にて、「差分プライバシーの哲学（The Philosophy of Differential Privacy）」と題する論考が掲載されている（著者は2人とも米国国勢調査局の元職員。1人は米国国土安全保障省所属）。本稿では、その概略について紹介したい。
差分プライバシーとは
- 2006年、コンピュータ科学者のグループが、機密データに基づく統計データの公表に対して数学的に証明可能なプライバシー保証を提供するアプローチとして、「差分プライバシー」を考案した。
- 差分プライバシーは、機密データに基づいて計算された統計データに、プライバシーを保護するノイズを注入するものである。
- このように、差分プライバシーは、データ公開に伴うプライバシーの損失、すなわち開示リスクの量を厳密に定義するものとして、コンピュータサイエンスのコミュニティから生まれたものだ。
- 現在のところ、差分プライバシーは、プライバシー保証を解除しようとする攻撃者についての仮定（攻撃者がどれだけの補助データを持っているか、どれだけのコンピュータパワーを自由に使えるか、今日のデータ公開と将来のデータ公開がどのように組み合わされるかなど）にプライバシー保証が依存しない唯一のデータプライバシーシステムであるとされる。
他のプライバシー保護手法との違い
- 差分プライバシーは、もう1つの一般的なプライバシーメカニズムである「k-匿名性」とは根本的に異なるものだ。
- 差分プライバシーは、秘密データベースと公開データの公表の関係に基づいているのに対し、k-匿名性はデータベース自体に適用されるメカニズムに基づいている。
- また、差分プライバシーとk-匿名性のもう一つの違いは、差分プライバシーが絶対的なプライバシーの保証を提供しないことだ（差分プライバシーは、𝜖のある値が「安全」で、他の値が「安全でない」とは言わない）。
差分プライバシーの種類
- 2006年に作られた差分プライバシーのバージョンは、「𝜖-差分プライバシー」と呼ばれている。たとえば、𝜖 = 0の場合、公開されたデータは、保護されている機密データとは何の関係もないため、役に立たない。一方、𝜖 = ∞の場合、公開されるデータにはノイズが加えられないため、プライバシー保護にならない。このように、一般的には、0 < 𝜖 < ∞ であり、政策立案者はその値を決定するという大変な仕事をしている。
- 2006年以降、様々な差分プライバシーの変種を開発しており、それぞれ定義が異なり、パラメータを追加したものもある。例えば「(𝜖, 𝛿)-差分プライバシー」では、𝜖と同様に𝛿の値は政策的な決定であり、適切な𝛿を把握するためにはさらなる研究が必要とされる（「𝜖-差分プライバシー」は、𝛿=0のときの「𝜖, 𝛿-差分プライバシー」の特殊なケース。最近のアプリケーションでは、10^-7 ≤ 𝛿 ≤ 10^-10が使われている）。
差分プライバシーを満たすメカニズム
- 異なるノイズ分布を用いる差分プライバシーメカニズムはたくさんあるが、「ラプラスメカニズム」と「ガウシアンメカニズム」が最も一般的だ。
- まず、「ラプラスメカニズム」は、平均が0のラプラス分布から引き出されたノイズを加えることで「𝜖-差分プライバシー」を満たす最も基本的なメカニズムだ。これに対し「ガウシアンメカニズム」は、平均がゼロ,分散が𝜎 ^2 のガウスノイズを加えることで(𝜖, 𝛿)-差分プライバシーを満たすメカニズムである。
- ラプラスメカニズムのチューニングパラメータは𝜖のみであるのに対し、ガウシアンメカニズムのユーザは𝜖と𝛿のバランスをとる必要がある。
データの有用性とプライバシーのトレードオフ調整
- 差分プライバシーの発明者たちは、公共の利益と私的なコストのバランスは、本質的に政策立案者に委ねられるべき公共政策の決定であり、数学者が推論して決定できるものではないと考えた。
- データ公開におけるプライバシーの損失と社会的利益のバランスをとることは、新しいことではなく、米国政府は、1840年に企業や事業所について収集した情報の保護を開始して以来、このようなトレードオフを行ってきた。
- 差分プライバシーにおける「プライバシーロスバジェット（𝜖）」は、このトレードオフを交渉するために、政策立案者に与えられたノブのようなものだ。差分プライバシーは、データ実務者に、特定の統計やデータ公開における潜在的なプライバシー損失の最大量を制御するために調整可能なノブを与えるものだといえる。
「プライバシーロスバジェット（𝜖）」の決定
- 差分プライバシーがデータ公開や統計をノイズで保護して不確実性を生み出すものだと理解できたとして、ノイズ量はどのように決定するのだろうか。
- この決定には、プライバシーと効用のトレードオフをどのように解釈すべきかを政策立案者に説明することができるプライバシー研究者や、個人のプライバシーと共通の利益について独自の感覚を持っているであろうデータ分析者の意見も反映されるべきである。
- しかし、差分プライバシーの開発初期において，研究者たちは，𝜖が1以下であれば理想的であり、εが2や3であれば情報が多すぎると述べていたという。今日、それらを振り返ってみると、当時の研究者は、データ公開による社会的利益とプライバシーの喪失とのバランスを取った経験がほとんどなく、ほとんど理論的なものであったといえる。
- とはいえ、データ参加者が𝜖の適切な値をどのように認識しているかについては、いまなお公表された研究はほとんどない。2020年国勢調査のデータリリースでは、国勢調査局は、人物ファイルに𝜖=17.14、住宅単位データに𝜖=2.47を決定し、それぞれに𝛿=10^-10を設定している。
- 𝜖と𝛿の選択には、公開される情報の種類・プライバシー保護に対する社会的認識・公開データの統計的精度など、様々な要因があるとされ、どのように選択するかという問題解決にはさらなる研究が必要であるとされている。
採用に向けた課題
- 差分プライバシーには「公表された統計にあまりにも多くのノイズを注入することで、実用的な目的には使えなくなる」と批判的な意見もある。その結果、学術誌や米国の裁判所では、データ実務者が公式統計や商業統計に差分プライバシーを使用すべきかどうかについて、議論がかわされている。
- 冒頭であげたように、差分プライバシーが発明されたのは2006年なので、まだ15年しか経っていない。比較対象として、公開鍵暗号は、1976年（Diffie-Helman鍵交換）、1977年（RSAアルゴリズム）、1978年（証明書）に発明された。そして、インターネット上で安全に情報を送るためのプロトコルであるsshやSSLが発明されたのは、それから17年後のことだ。同様に、差分プライバシーを研究cから生産へと移行させるに上では多くの課題が残っている。
- 課題の1つは、差分プライバシー研究の多くが非常に理論的であることだ。公開鍵暗号の例が示すように、新しい数学技術をアカデミックな世界から実際の世界に移行するには、かなりの時間がかかる。本番環境に対応した差分プライバシー・ライブラリの数は増えてきているが、実用的な差分プライバシー・システムを設計・構築・展開・維持するには、さらに時間を要する。
- また、差分プライバシーの採用は、様々なグループからかなりの抵抗を受けている。現代のプライバシーに関する概念は、数学的なものよりも、法律的・哲学的なものが圧倒的に多い。数学的には安全なデータなど存在しないとされるが、この数学的真理も、差分プライバシーの採用に伴うコストと困難さを物語っているとも言える。
差分プライバシーの未来
- 差分プライバシーが開発されてからの15年は、プライバシーの本質についての難しい真実をもたらした。政策立案者は、公共データの利益と個人のプライバシーへのコストのバランスを取るという要求を技術者に転嫁することはもはやできない。その一方で、差分プライバシーは、データ公開を安全にする「銀の弾丸」でもなければ、万能な方法でもない。
- 差分プライバシーは，個人の私的なデータが後に公開される計算に使用されたときに個人が被るプライバシーの損失を考慮するものであり、政策立案者・データ管理者・データ利用者に、公共の利益と個人のプライバシーという相反する事項のバランスをとるための強力なツールを提供する。
- 差分プライバシーはデータへのアクセスを奪うものであると認識している人もいるが、差分プライバシーはその逆である。いくつかの米連邦統計機関では、これまでプライバシーに関する懸念から利用できなかったデータを公開するために、差分プライバシーアルゴリズムを検討している。
- データアクセスを拡大するためにプライバシー損失予算を効率的に使用するためには、データ管理者とデータ利用者が協力して、差分プライバシー手法の導入を調整する必要があり、今後の研究・実践に期待したい。（文責・畑島）

●ブロックチェーンとコンフィデンシャル・コンピューティングによる治験の効率化に向けたConsenSys Healthの取り組み

今年8月のニュースレター（コンフィデンシャル・コンピューティング（Intel SGX）のヘルスケアへの応用）では、治験領域におけるコンフィデンシャル・コンピューティングの実用化に向けたConsenSys Healthの研究内容を紹介した
上記治験領域におけるコンフィデンシャル・コンピューティングの活用に向け、ConsenSys HealthはPoCを実施し、今月7日その成果について発表した。
従来から、治験において患者と治験プロジェクトをマッチングさせることは、製薬会社から病院に至るまで、大きな課題となっている。
特に特定の健康記録や人口統計学的な条件に基づいて、適切な患者を見つけることは難しく、時間がかかっている。
この作業には多額の費用がかかり、治験の進行を遅らせ、失敗する主な原因の一つとなっており、結果として新しい治療法の開発や健康状態の改善が進まないという課題が発生している。
また、治験に参加する意思のある患者が適切な治験プロジェクトを見つけられないことも多く発生しているとConsenSys Healthの最高科学責任者であるSean T. Manion氏は述べている。
具体的にはがん患者の50％近くが治験に参加することを望んでいるが、実際に参加できるのはわずか5％しかおらず、新たな治療法へのアクセスが制限されているという。
治験のマッチングやリクルートが遅々として進まない大きな理由の一つは、そのようなプロセスが患者のプライバシーに関わる法律や規制によって大きく制限されているためである。
ConsenSys Healthでは、Intelのコンフィデンシャル・コンピューティングを実現するIntel SGXと、ConsenSys Healthのブロックチェーンを活用した連合学習システムであるElevated Computeを連携させることで、この課題に取り組んでいる。

出典：https://consensyshealth.com/wp-content/uploads/2021/09/HIMSS-2-sided-slick.v.9.1.pdf

治験プロジェクトと患者のマッチングにおいては、ブロックチェーンによるデータの有効な監査証跡とIntel SGXによるプライバシー保護を含めたアプローチにより、治験に適した可能性のある個人を、プライバシーを保護した状態で特定することが可能になる。

出典：https://consensyshealth.com/wp-content/uploads/2021/09/HIMSS-21-Slides-1.pdf

これにより、より迅速で安価な治験が可能となり、新しい治療法の発見が早まることが期待されている。
PoCではConsenSys Health社がヘルスケアに関する合成データを用いてIntel SGXチームと共同で作業を実施した。
Ice Lakeに搭載されたIntel SGXの最新バージョンと、それ以前のバージョンを比較も実施し、新バージョンでは、Enclaveのサイズ（一度に処理できるデータ量）が大幅に増加しており、プライバシーを保護したまま、より高速でより多くのデータ処理が可能になったことが確認された。
また、大手製薬会社と協力して、取り組み領域における課題とソリューションの検証も実施された。
PoCの結果、ConsenSys Health社は、Intel SGXを使用したプライバシー保護アプローチが、必要なプライバシー保護を維持しつつも、既存アプローチよりもはるかに高速であることを確認した。
これにより、治験のマッチングを大幅に改善するだけでなく、治験に関連する他の多くの潜在的なユースケースにおいても、連携したアプローチを使用することで、患者のプライバシーを犠牲にすることなく、スピードアップとコスト削減を実現できることが確認された。
治験のようにプライバシーの保護とデータの利活用が極めて重要な領域において、コンフィデンシャル・コンピューティングなどのプライバシー保護技術の実用化が進むことが期待される。（文責：野畑）

LayerX Labsでは、次世代プライバシー保護・セキュリティ技術Anonifyの正式提供に向けトライアルパートナーの募集を開始、合わせて公式ウェブサイトを公開しました。

「Anonify」の公式ウェブサイトはこちら

「Anonify for Insurance」ホワイトペーパーはこちら

LayerXではエンタープライズ向けブロックチェーン基盤を基本設計、プライバシーの観点から比較したレポートを執筆し、公開しています。

基本編のダウンロードはこちら

プライバシー編ダウンロードはこちら

Section2: ListUp

1. プライバシー・セキュリティ

●最高データ責任者の在任期間はなぜこれほど短いのか CDOに求められるのは専門知識だけではない｜DIAMOND ハーバード・ビジネス・レビュー

https://www.dhbr.net/articles/-/8035?page=3

●IoT機器、脆弱性放置12万台　サイバー攻撃の恐れ

https://www.nikkei.com/article/DGXZQOUC057WW0V00C21A8000000/

●JIPDEC、個人情報の取扱いにおける事故報告集計結果を公表

https://privacymark.jp/news/other/2021/1005.html

●「警察によるAI使用禁止」を欧州議会が決議、顔認証技術や行動監視が対象

https://gigazine.net/news/20211007-parliament-ban-facial-recognition/

●Facebook、合成データスタートアップAI.Reverieを買収

https://venturebeat.com/2021/10/11/facebook-quietly-acquires-synthetic-data-startup-ai-reverie/

●総務省｜報道資料｜「郵便局データの活用とプライバシー保護の在り方に関する検討会」の開催

https://www.soumu.go.jp/menu_news/s-news/01ryutsu14_02000111.html

2. 中銀デジタル通貨

●デジタルユーロが適切に設計・使用される場合、欧州の決済システムを大幅に改善できる一方、プライバシー・セキュリティや財務リスク、監督、およびインフラストラクチャの観点から課題は無視できないとしている

https://www.8btc.com/article/6696196

●McKinseyが、CBDCとStablecoinの2層構造システムが長期的に持続可能かと問うている。

その上で、方向性を占う論点として、単一のデジタル通貨がグローバル通貨として登場する可能性はどの程度あるか、決済の完全なトレーサビリティーにどこまで抵抗するか、などを挙げている。
他の論点としては、「従来の銀行に頼ることなく身近な銀行サービスを受けることにどの程度抵抗を感じるか」「環境への影響を劇的に軽減するプロトコルの革新がどのくらい早く実現するか」等。

https://www.mckinsey.com/industries/financial-services/our-insights/cbdc-and-stablecoins-early-coexistence-on-an-uncertain-road

●G7による「リテール中央銀行デジタル通貨（CBDC）に関する公共政策上の原則」の公表について：金融庁

https://www.fsa.go.jp/inter/etc/20211014/contents.html

●Accentureなど、Digital Pound Foundationを設立

https://www.theblockcrypto.com/linked/120533/digital-pound-foundation-launches-aiming-to-promote-a-uk-cbdc