合成データはプライバシーの銀の弾丸ではない／合成データにおけるプライバシーと有用性のトレードオフ

LayerX Labs Newsletter for Biz (2021/09/29-10/05) Issue #125

th_sat

Oct 08, 2021

今週の注目トピック

Takahiro Hatajima（@th_sat）より

「合成データはプライバシーの銀の弾丸ではない」とする記事・ペーパーの概略を紹介します。

あわせて、合成データに用いられる技術とユースケースそしてプライバシーと有用性のトレードオフを解決するコンセプトについて紹介します。

Section1: PickUp

●合成データをめぐる期待と課題

人工衛星・医療・ロボット・自動車業界向けに合成データを生成するデータスタートアップのRendered.aiが$6Mを調達した。また、Microsoft AI Researchは、巨大な合成顔データセットと、合成データのみを用いた顔分析手法を発表した。この合成プロセスには、テクスチャ・髪の毛・服などが含まれ、1枚のベース画像から異なる人物を無限に作り出すことができるという。
このように、合成データをめぐるトピックを目にする機会が増えている。合成データ関連プレイヤーも数多く、エコシステムマップが作られるほどになっている。

adhiguna mahendra @adhigunamahend1

Can Synthetic data bridge the AI training data gap in production? diginomica.com/can-synthetic-… My empathetic answer is NO. But I use a synthetic data generator for: 1. Demo and impressing people. 2. Create a dataset for education purposes. 3. Testing scenarios. #DataScience #Data

一方で、「合成データはプライバシーの銀の弾丸ではない」とする記事（①）も出ているほか、同様に「合成データはプライバシー保護の聖杯には程遠い」とするペーパー（②）も発表されていることから、その概要を紹介したい。
まず、合成データとは、実際のデータを用いて、そのデータの統計モデルを構築し、そのモデルを使って、まったくの人工的なデータセットを作成することができるものとされ、元のデータとは全く関係ないものの、同じ性質を持っている点が特徴だ。（①）
ユーザーデータには、個人識別情報（PII）が含まれていることが多いが、合成データセットは、元のデータの統計的特性を保持することが約束されていると同時に，「個人データを含まない」ため、「個人を特定できる情報の保護を可能にする」とされている。（出所）
生成モデルから作成された合成データは、元のデータセットの統計的特性を保持すると同時に、プライバシーを保護してデータを公開するための画期的なソリューションとして喧伝されている。（②）
そのため、AIモデルの学習に合成データセットを利用するケースが増えており、金融サービスや保険会社が、不正行為の検出やマネーロンダリング防止規則の施行のためのシステム開発に利用しているとされる（①）。2024年には、AIやアナリティクスプロジェクトの開発に使用されるデータの60％が合成データで生成されると言われている（出所）。
こうした合成データにも、利用上の課題がいくつか指摘されている。まず、合成データは、実世界のデータを模倣することができるだけで、正確なレプリカではないため、元のデータが持っている外れ値をカバーしていない可能性がある。また、モデルの品質は入力データおよびデータ生成モデルの品質と高い相関関係があるため、入力データのバイアスを反映している可能性がある。（出所）
加えて、プライバシーに関する懸念も指摘されている。まず、統計的に外れた人の場合には、個々の記録を匿名化して実際の人と関連付けることが可能な場合が多いことが分かったとのこと。そのため、合成データセットが元のデータの特徴を高い精度で保持し、ユースケースに対するデータの有用性を維持している場合、敵対者が個人に関する機密情報を抽出することが可能になるという（②）。
また、データセット内の個人を確実に特定できないようにするための基準である差分プライバシーを達成することは、合成データの有用性に影響を与えずにはできないとのこと（②）。
合成データのプライバシー上の利点に関する主張を裏付ける一般的な論拠は、合成データが「人工的なデータ」であるため、実際のレコードと合成レコードの間に直接的なリンクが存在しないというものだが、上記であげた課題からは、合成データがその人工的な性質にもかかわらず，元のデータのすべてのレコードをリンケージや属性推論から保護しないことが示されている（②）。
合成データのユースケースは広く想定されているが、合成データの可能性を最大限に引き出すためには、このようなプライバシーに関する問題を解決する必要があり、有用性とプライバシーのバランスをどのようにとるか、動向を注視したい。（文責・畑島）

●ディープフェイク技術による価値創出 - Accenture Labs

Accenture Labsが発表した合成データの価値に関するレポートから、合成データに用いられる技術とユースケース、そしてプライバシーと有用性のトレードオフを解決するためにAccenture Labsが開発したAPAT（Automated Privacy Assessment Tool）のコンセプトについて紹介する。
2020年初頭、デジタルアーティストのDenis Shiryaevが、ある動画をYouTubeにアップロードした。
一見電車が停車場に入っていく様子を撮影しただけの、比較的シンプルな映像に見えるが、実際にはこの映像は1895年に35mmフィルムで記録された「ラ・シオタ駅への列車の到着」の映像を4K解像度、60フレーム/秒にアップグレードしたものだった。

出典：A Historic Short Film From 1895 And Made It Into 4K And 60FPS Using AI

2019年3月、イギリスに本社を置くエネルギー会社の重役が上司から電話を受け、22万ユーロをハンガリーの業者に急いで送金するように頼まれた。
しかし、その上司が指定した銀行口座に送金したところ、実は上司ではないことが判明した。彼が聞いた声は本物の上司の声を精巧に再現したものだった。

出典：A Voice Deepfake Was Used To Scam A CEO Out Of $243,000

これらの事例はすべて、機械学習のフレームワークであるGAN（Generative Adversarial Network）という同じ技術を用いて作られている。
GANは2つのニューラルネットワークが基本的にゲームでお互いを打ち負かそうとするように設定されているため敵対的(Adversarial)と呼ばれる。
まず「ジェネレーター」と呼ばれるニューラルネットがコンテンツを作成し、それが2番目の「エバリュエーター」と呼ばれるニューラルネットに送られる。
一方のニューラルネットはもう一方のニューラルネットを欺くようなデータを生成し、もう一方のニューラルネットはその出力が現実的かどうかをテストする。
「エバリュエーター」が本物の例と偽物の例の違いを見分けることができれば、「ジェネレーター」はもう一度試す。
これを、「エバリュエーター」が生成された事例と偽物を正しく識別することができなくなるまで続けることで本物によく似た偽のデータを作り出す。
GANによるディープフェイク技術により、完全に偽の映像、あたかも本物のように作成することができるため、悪用される懸念も指摘されている。
しかし、同時に多くの企業にとってGANとその関連技術は新たな価値をもたらす。
一つ目のユースケースは消費財（Consumer packaged goods）の製品開発における合成データの活用である。
消費者向けパッケージ商品の業界では、新製品の処方をテストするには時間とコストがかかっている。
規制の変更、消費者の嗜好の変化、サプライチェーンの変化などにより、製品に使用する成分は常に刷新が求められるが、そのような新しい「レシピ」の可能性がある場合には、相当なテストが必要となる。
専門家は、特定の特性、機能、性能を実現するために成分を選び、加工し、組み合わせて、それぞれの組み合わせを物理的にテストしなければならない。
特に歯磨き粉のような製品は、何千もの成分の中から何十もの成分を選んで作られている。
Accenture Labsでは、合成データを利用してこのプロセスを高速化する取り組みを進めている。
GANが、リアルなデータを基準とした本物と区別のつかない偽の映像を生成するのと同様に、合成データによって、製品の性能要件を満たしつつ、新しい組み合わせを発見する可能性を秘めている。
もう一つのユースケースとしてAIシステムの改善が挙げられる。
AIを搭載した自動運転車が安全に運転できるようになるためには、何百万ものシナリオでトレーニングする必要がある。
実際のテスト走行では、横断歩道の歩行者など、頻繁に出てくるシナリオもあれば、高速道路を走っているときに目の前のトラックから何かが落ちてくるようなシナリオもテストする必要がある。
後者のようなケースは非常に稀であり、何千マイルも走行していても、そのシナリオを生で見ることができる可能性は低い。
合成データは、このような「エッジケース」のシナリオに対応できるようにシステムを訓練するための重要な要素となっている。
また、合成データは、様々な条件を反映させるために実際の走行テストデータを補強するためにも使用できる。
季節、照明、交通状況、天候など、さまざまな条件で異なるバージョンを収集するのではなく、実際のデータを補強することで、さまざまな可能性に対応したシステムを訓練することが可能となる。
さらに、合成データは機密性の高いデータの分析における活用も期待されている。
ヘルスケア分野はその最たるもので、企業はヘルスケア情報を活用する上で、規制要件（HIPAAなど）や、GDPRなどのデータプライバシー規制を遵守しなければならず、極めて大きな負担となっている。
このような課題に対して、合成データを活用することで、実際のデータセットから得られる統計情報を保持しつつ、元のデータを含まないより大きな偽のデータセットを生成することができる。
既存のデータセットから合成データを生成するには、いくつかの異なる方法があり、より一般的な手法から、特定のドメインに特化した手法（medGANおよびehrGANフレームワークは、医療記録の生成または補強に特化）まで様々存在する。
有用性とプライバシーの保護を両立する合成データを生成するために、「正しい」手法を選択することは難しい。
「新しい」データの統計的特性が元のデータとあまりにも異なる場合、有用性は失われてしまう一方、元のデータと全く同じ統計的特性を持つ合成データセットを作成しても、プライバシーの価値が損なわれてしまう可能性がある。
つまり、合成データであっても、他の匿名化手法と同様に、有用性とプライバシーの保護のトレードオフが生じてしまうことが多い。
Accenture Labsでは、このような課題を解決するために、APAT（Automated Privacy Assessment Tool）を開発した。
APATは、データセットのプライバシーレベルと、それが予測タスクに使用された場合の有用性を評価する。
これにより企業は、合成データを含むさまざまなデータの匿名化手法を評価し、特定のタスクのニーズに最も適した手法を選択することができる。
また、適切に生成された合成データはプライバシーを保護するため、グループや組織を超えたデータの共有やコラボレーションを促進することができる。
冒頭で述べた事件（ディープフェイク技術が従業員を騙して詐欺師にお金を送らせるのに使われた）のように、他のテクノロジーと同様、悪意を持った人もディープフェイク技術を活用することができる。
ディープフェイクの悪用による影響や倫理的な側面も考慮しつつ、製品開発、ヘルスケア、エンターテインメント業界など、あらゆる分野における様々な課題のソリューションとして活用が進んでいくことが期待される。（文責：野畑）

LayerX Labsでは、次世代プライバシー保護・セキュリティ技術Anonifyの正式提供に向けトライアルパートナーの募集を開始、合わせて公式ウェブサイトを公開しました。

「Anonify」の公式ウェブサイトはこちら

「Anonify for Insurance」ホワイトペーパーはこちら

LayerXではエンタープライズ向けブロックチェーン基盤を基本設計、プライバシーの観点から比較したレポートを執筆し、公開しています。

基本編のダウンロードはこちら

プライバシー編ダウンロードはこちら

Section2: ListUp

1. プライバシー・セキュリティ

●TMIプライバシー＆セキュリティコンサルティング・サイバー保険代理店事業に関する紹介動画をYouTubeにてリリース

https://prtimes.jp/main/html/rd/p/000000023.000051651.html

●“米国の連邦捜査官がGoogleに対し、特定の名前、住所や電話番号を検索した者の識別符号を提供させる令状を出していたと、誤公開された裁判文書で発覚。ACLUのJennifer Granick氏は、検索履歴を根こそぎ調べることを可能にするのは、憲法修正第一条の保護法益を脅かすと指摘。”

kokumօtօ @__kokumoto

米国の連邦捜査官がGoogleに対し、特定の名前、住所や電話番号を検索した者の識別符号を提供させる令状を出していたと、誤公開された裁判文書で発覚。ACLUのJennifer Granick氏は、検索履歴を根こそぎ調べることを可能にするのは、憲法修正第一条の保護法益を脅かすと指摘。

forbes.comExclusive: Government Secretly Orders Google To Identify Anyone Who Searched A Sexual Assault Victim’s Name, Address And Telephone NumberIn 2019, federal investigators in Wisconsin were hunting men they believed had participated in the trafficking and sexual abuse of a minor.

●Facebook、オープンソースの差分プライバシーライブラリ「Opacus」を公開

深層学習モデルをトレーニングするPyTorchライブラリ。従来の「マイクロバッチ」アプローチと比較して、より優れた効率性を提供。

https://analyticsindiamag.com/facebook-releases-an-open-source-differential-privacy-library/

https://opacus.ai/

https://arxiv.org/abs/2109.12298

●データ・スタートアップのRendered.ai、$6Mを調達

https://techcrunch.com/2021/10/05/rendered-ai-raises-6m-to-scale-physics-based-synthetic-data-developer-platform/

●Microsoft AI Research、巨大な合成顔データセットと、合成データのみを用いた顔分析手法を発表

https://www.marktechpost.com/2021/10/04/microsoft-ai-research-introduces-a-huge-synthetic-face-dataset-along-with-a-face-analysis-method-using-synthetic-data-alone/

●米FDA、医薬品の承認申請や臨床研究におけるリアルワールドデータの評価ガイダンスのドラフト

https://www.fda.gov/regulatory-information/search-fda-guidance-documents/real-world-data-assessing-electronic-health-records-and-medical-claims-data-support-regulatory

●準同型暗号を用いたプライバシー重視のデータコラボツールを開発するDuality Technologiesが約33億円調達

https://jp.techcrunch.com/2021/10/06/2021-10-05-duality-nabs-30m-for-its-privacy-focused-data-collaboration-tools-built-using-homomorphic-encryption/

●コンフィデンシャルコンピューティング： AWS の視点

https://aws.amazon.com/jp/blogs/news/confidential-computing-an-aws-perspective/

●DeepMind社、2015年にNHS患者の健康データを使用したとして集団訴訟受ける

https://artificialintelligence-news.com/2021/10/01/deepmind-class-action-lawsuit-nhs-health-data-scandal/

●アクセンチュア、「生成モデルに基づく合成データにおけるプライバシーと実用性のトレードオフを定量化するためのフレームワーク」を題材として、博士課程に年間15,609ポンドの非課税奨学金を支給

https://www.findaphd.com/phds/project/a-framework-for-quantifying-the-privacy-utility-trade-off-in-generative-model-based-synthetic-data/?p134714

2. デジタルガバメント・スマートシティ

●総務省｜報道資料｜「クラウドサービス提供における情報セキュリティ対策ガイドライン（第3版）」（案）に対する意見募集の結果及び「クラウドサービス提供における情報セキュリティ対策ガイドライン（第3版）」の公表

https://www.soumu.go.jp/menu_news/s-news/01cyber01_02000001_00121.html

●総務省｜放送分野の視聴データの活用とプライバシー保護の在り方に関する検討会｜放送分野の視聴データの活用とプライバシー保護の在り方に関する検討会（第4回）

https://www.soumu.go.jp/main_sosiki/kenkyu/viewership_data/02ryutsu04_04000189.html

3. 中銀デジタル通貨

●ラオス、デジタル通貨検討　日本の新興ソラミツが支援: 日本経済新聞

https://www.nikkei.com/article/DGXZQOUB015B80R01C21A0000000/

●日本銀行｜主要中央銀行による中央銀行デジタル通貨（CBDC）の活用可能性を評価するためのグループが報告書「CBDC：システム設計と相互運用性」「CBDC：利用者ニーズと普及」「CBDC：金融安定に対する影響」を公表

https://www.boj.or.jp/announcements/release_2021/rel210930e.htm/

●Visa、CBDCやStablecoinといったデジタルマネー通貨むけ相互運用性プラットフォーム「Universal Payment Channels（UPC）」ホワイトペーパーを発表。

ハブ＆スポークモデルで動作するUniversal Payment Channel（UPC）を提案するもの。
クライアントはUPCハブに登録した上で、他のクライアントにトランザクションをルーティングする。
このとき、UPCハブは、中央の仲介者のように信頼される必要は無いとしている。
UPCプロトコルは、タイムロックおよびハッシュロックを用いて、3者（支払人・ハブ・受取人）のカウンターパーティリスクを最小化。
メリットは、①数百万〜数十億のユーザーやトランザクションにスケーリングできる、②UPCハブに最小限の責任を課すことでクロスボーダー決済の手数料を軽減できること

https://arxiv.org/pdf/2109.12194.pdf

●Visaによるデジタル通貨むけ相互運用性プラットフォーム「Universal Payment Channels（UPC）」のテストコントラクト

https://ropsten.etherscan.io/address/0xadb1f7e78a3ac3d0a006961f95d96bbb0ec14326#code

●香港HKMA、中銀デジタル通貨「e-HKD」（デジタル香港ドル）のテクニカルホワイトペーパーを発表

https://www.hkma.gov.hk/media/gb_chi/doc/key-functions/financial-infrastructure/e-HKD_A_technical_perspective.pdf

●ナイジェリア中銀、デジタル通貨「eNaria」に関する規制ガイドラインを発表。

ユーザーは、作成するeNairaウォレットを自己運用するのか、受託者として運用するのかを開示するオプションを持つとしている

https://dailytrust.com/cbn-releases-regulatory-guidelines-on-enaira

●FRBによる米ドルの国際的役割に関するペーパー。

民間や公共セクターへのデジタル通貨の急速な普及により米ドルへの依存度が低下する可能性があるとしつつも、米ドルが優位に立っている状況がテクノロジーだけで変化するとは考えにくい、とのこと

https://www.federalreserve.gov/econres/notes/feds-notes/the-international-role-of-the-u-s-dollar-20211006.htm

4. デジタル証券

●Société Généraleグループのデジタル資産とブロックチェーンベースのプロジェクトに特化した投資子会社SG-Forge、Ethereumブロックチェーン上で発行した債券を担保としてMakerDAOでDaiを借りる旨を、MakerDAOコミュニティに提案。

パブリックチェーン上で証券トークンの形で発行されたカバードボンドトークンのリファイナンスを目的とするもので、住宅ローンを担保としたフランス法上のCovered Bond「OFHトークン」を担保として、最大2000万Daiと引き換える旨。
伝統的な資本市場活動と、DeFiエコシステムを組み合わせる試み。
SG-Forgeは、ブロックチェーンに登録されたデジタルネイティブ金融商品である証券トークンの発行・管理・取引を行うエンドツーエンドのサービスを、発行者および適格投資家に提供することを目的として取り組んでいる。
SG-Forgeのサービスは、証券トークンの発行・保管・取引のために設計されたオープンソースフレームワークCAST（Compliant Architecture for Security Tokens）に準拠。CASTは、2019年以来、SGによる証券トークン発行や、フランス中銀との証券トークン決済などで利用されている。

https://forum.makerdao.com/t/security-tokens-refinancing-mip6-application-for-ofh-tokens/10605

●日本銀行｜「ISOパネル（第4回）：デジタルトークン識別子（DTI: ISO 24165）が持つ可能性」の聴講者募集