米NISTの「政府データセットの非識別化」/大阪メトロによる駅の乗降データ外販、トヨタ紡織による利用者の動きや感情などのデータ提供
LayerX PrivacyTech Newsletter (2022/11/02-11/08) #177
今週の注目トピック
Takahiro Hatajima(@th_sat)より
米NISTが発表した「政府データセットの非識別化(第3草案)」の導入部分について紹介します。
併せて、データ利活用最前線として、大阪メトロによる駅の乗降データ外販、トヨタ紡織による利用者の動きや感情などのデータ提供などをご紹介します。
Section1: PickUp
●米NISTが「政府データセットの非識別化(第3草案)」を発表
米国の米国国立標準技術研究所(NIST)が、「政府データセットの非識別化(第3草案)」を発表した。この文書は、非識別化を使用することを希望する政府機関に対する具体的なガイダンスを提供するものだ。ここでいう「非識別化」とは、データセットから識別情報を削除し、残りのデータを特定の個人に結びつけないようにすることである。差分プライバシーのような形式的なプライバシー手法と比較した場合に、「従来型の非識別化が抱える固有の限界」についてユーザーに注意を促すものとしているため、以下では、その一部を概括的に紹介したい。
以下、「2. Introducing De-Identifcation」からの引用(https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-188.3pd.pdf)
1990年代には、調査から得られた個人の回答や行政記録などのデータ・ファイルを一般公開することが大幅に増加した。当初は、氏名や社会保障番号など明らかに個人を特定できる情報(=直接識別子と呼ばれる)を取り除いただけのものが公開されていた。その後、研究者によって、残ったデータ(=準識別子または間接識別子と呼ばれる)を他の情報と照合することによっても、個人のデータを再識別することが可能であることが発見された。2000年代に入り、理論計算機科学と暗号学の研究により、個人の個人情報を含むデータベースに対するクエリから生じる個人のプライバシー損失の数学的定義に基づく、「差分プライバシー」の理論が開発された。この「差分プライバシー」は、プライバシーとプライバシー損失の定義が数学的証明に基づいているため、プライバシー保護のための形式的モデルと呼ばれている。このことは、これらのアルゴリズムの使用によって生じるプライバシーリスクの量を数学的に制限できるということを意味している。
プライバシーの形式的モデルは、個人識別情報の非識別化処理によって提供されるプライバシー保護量を定量化することができる。差分プライバシーでは、この測定はプライバシーロスと呼ばれる数値の形で行われる。これは、個人を特定できないようにしたデータを公開した結果、敵対者がその個人について何か新しいことを知るかもしれないという追加のリスクを定量化するものである。差分プライバシーのような形式的なモデルでは、複数のデータ公開のプライバシー損失を組み合わせて、組み合わせた公開の個人に対する総リスクを定量化することができるのに対して、「k-匿名性」のような従来型のモデルにはこの機能が無い。
差分プライバシーは、数学的演算の結果が報告される前に、その結果にノイズ(ランダムな値)を加えることによって、身元と属性の両方の開示を制限するものである。k-匿名化とは異なり、差分プライバシーは情報理論に基づいており、何がプライベートなデータで何がプライベートでないかの区別はしない。そのため、差分プライバシーでは、値を直接識別子・準識別子・非識別子に分類する必要はない。その代わり、差分プライバシーでは、レコード内のすべての値が識別可能である可能性があると仮定している。
差分プライバシーの数学的定義は、あるデータセットの分析結果が、ある個人のデータがあってもなくてもほぼ同じになることを要求している。この定義は、クエリの結果にランダムなノイズを加え、そのノイズが個人の寄与を覆い隠すようにすることで満たされる。同一性の程度はパラメータε(イプシロン)で定義される。パラメータεが小さいほど、より多くのノイズが追加され、一個人の寄与を区別することが難しくなる。
なお、差分プライバシーアルゴリズムの使用は、プライバシーが保たれることを保証するものではない。データ処理またはデータ公開によってもたらされるプライバシーリスクの量が、数学的な特定の範囲内に収まることを保証するものである。
これに対し、k-匿名化(およびそれに続く改良)は、2つの重要な欠点を抱えている。
第一に、これらは専門家が識別情報と非識別情報を区別して準識別子の集合を決定することを必要とする。この作業はある文脈では困難か不可能である可能性がある。そのため、もし識別情報が準識別情報としてマークされていなければ、結果として得られるk-匿名化データセットはデータ対象者の再識別を防ぐことができない。
第二に、k-匿名化は、compositionalではないため、複数のk-匿名化データが公開された場合の累積的なプライバシー損失を定量化できず、複数の公開によってプライバシーが壊滅的に損なわれる可能性がある。組織はこのことを念頭に置き、蓄積されたリスク全体を評価するよう努める必要がある。この発見は、そのまま前述の「差分プライバシー」の発明につながっている。
最後に、「エグゼクティブサマリー」からの一部を紹介して締めくくりとしたい。
<このように、従来の手法で「非識別化」されたデータから個人を再識別することが可能なプライバシー攻撃が出現していることが、多くの研究によって明らかにされている。近年では、高解像度の非識別化された位置情報データが商業的に利用可能になったため、再識別化がジャーナリストや活動家によって、機密情報を知る目的で使用されているとされる。これらの攻撃は、位置情報データが利用可能になるにつれてより巧妙になっており、従来の形式のプライバシーモデルの欠点を浮き彫りにしている。> (文責・畑島)
●データ利活用最前線
LayerXのPrivacyTech事業部では、「プロジェクトマネージャー 兼 事業開発」「リサーチエンジニア」および「データアナリスト」を積極採用中です!
LayerXでは、最先端のプライバシー保護技術Anonify(アノニファイ)によるパーソナルデータ活用ソリューションの正式提供を開始しました。
「Anonify」の公式ウェブサイトはこちら
Section2: ListUp
1. プライバシー・セキュリティとデータ利活用
●ネット広告、プライバシー配慮型に転換 Googleやメタ
https://www.nikkei.com/article/DGXZQOUC29BV40Z20C22A8000000/
●第223回 個人情報保護委員会
上半期における個人データの漏えい等事案を踏まえた個人データの適正な取扱いについて(注意喚起)
https://www.ppc.go.jp/aboutus/minutes/2022/20221109/
●第224回 個人情報保護委員会
「顔認識技術における個人情報の適切な利用に関する原則及び期待」に係る決議(当委員会仮訳)
https://www.ppc.go.jp/aboutus/minutes/2022/20221116/
●IIJなどIT各社、プライバシー保護強化〜業界団体設立や認証取得
https://www.nikkei.com/article/DGKKZO65978610U2A111C2TEB000/
2. 今週のLayerX
●dbtを中心に据えた データ分析とプロダクト開発
プライバシー保護技術Anonifyの裏側にある、地道なデータ管理・品質担保の努力が垣間見える資料です。
https://speakerdeck.com/osuke/dbtwozhong-xin-niju-eta-detafen-xi-topurodakutokai-fa
●Trustfulだからこそ自分の課題に真摯に向き合えると感じた、LayerX相互フィードバックの紹介
https://note.com/taddy0919/n/n3d5ed7c801f5
●【LayerX松本勇気×Luup岡田直道】サービスグロースにつながる意志決定は「熱量あるトップダウン」で - エンジニアtype | 転職type
https://type.jp/et/feature/21140/
●どこへ行く?どう進む?LayerX羅針盤と経理とバクラクのはなし
> LayerX羅針盤と経理の仕事がどのようにリンクしているかを3つ例を挙げて紹介します。
https://note.com/satoko_h/n/nb937cd16f126
●インフキュリオン、「Embedded Finance Week 2022」を12月14日(水)から16日(金)まで3日間にわたり開催
LayerX、日本コカ・コーラなど各業界のトップランナーが集結
https://prtimes.jp/main/html/rd/p/000000052.000031359.html
●【LabTech Talk vol.60】「機械学習」という技術で価値を創出する技術 株式会社LayerX 松村優也
https://labtechtalk-event221118.peatix.com/view
●LayerX CEO福島の「新時代の現場主義」を日経ビジネスさんに掲載いただきました。
>「大企業とスタートアップのセットはうまくいかない」という風潮はなぜ生まれたのか。その要因と、LayerXが三井物産らとの新会社で始めた“ある試み”を明かします。
https://business.nikkei.com/atcl/gen/19/00433/102400007/
●めんどくさい
“今回はマーケティングと #インサイドセールス の連携に関する挑戦についてお話しします。
LayerX の”高レベルの当たり前”を模索する姿勢を垣間見ることができる&どの会社でも実践できるものになっています”
https://note.com/mj_layerx/n/na187478a4cb3
●Notion・zapier・slackで定例会議の議事録生成を自動化したら定例作業が1つ撲滅された話|numashi/LayerX バクラク申請・経費精算 PM|note
https://note.com/numashi_biz/n/nddb0baa29d8d
●新米エンジニアの僕が、1年間で任されたことをサクッとまとめたみた
https://note.com/akino_27/n/n37e19ab2bca7
製品紹介・デモのご依頼に向けたお問い合わせは、こちらの「お問い合わせフォーム」よりお願いします
Disclaimers
This newsletter is not financial advice. So do your own research and due diligence.
発行者:株式会社LayerX(東京都中央区日本橋堀留町1丁目9−8 人形町PREX 2階)
お問い合わせ先:div-privacy-tech@layerx.co.jp