【GDPR】匿名化に関する10の誤解

GDPR
この記事は約13分で読めます。

 2021年4月に、スペインのデータ保護当局であるaepd(Agencia Española de Protección de Datos)とEDPSが、「10 MISUNDERSTANDINGS RELATED TO ANONYMISATION」(匿名化に関する10の誤解)という共同文書を公開しています。

 この文書の公表目的が以下のように説明されていました。

 近年の技術発展により、質の高いデータに対する需要は確実に高まっている。そのような中、個人の基本的権利を損なうことなくデータを共有する手段として、官民を問わず匿名化が検討されている。しかし、匿名化の普及に伴い、匿名化に関する誤解も広まっている。

 この文書の目的は、匿名化に関するいくつかの誤解に対する認識を高め、この技術に関する主張を検証せずに受け入れるのではなく、確認するよう読者に動機付けることである。

AEPD-EDPS joint paper on 10 misunderstandings related to anonymisation

 この文書は、サクッと読めてしまえるぐらいの量ですが、個人的には「そうそう」と思う内容もあれば、「そう考えるんだ~」と思うところもあり、勉強になりました。

 「そう考えるだ~」と思ったものの一つは、「暗号化を仮名化の1種」として説明していることです。

 「pseudonymisation」(仮名化)の説明にある、「…追加的な情報の利用なしには、…」の追加的な情報とは「対応表」のようなものしかイメージしていなかったのですが、確かに暗号化方法(復号方法)という情報も、個人データに戻すことができる「additional information」と言え、「確かに…」と感じました。

一方、日本の個人情報保護法における「仮名加工情報」は「…他の情報と照合しない限り…」と「照合」となっており、こちらは「対応表」のようなものだけを想定しているようで、暗号化はあくまで安全管理措置の一つであり、仮名加工とは別の概念として整理しています。

 「そう考えるだ~」と思ったもう一つの事は、「再識別リスクの閾値を設定したリスクベースドな匿名化」の考え方で説明していたことでした。

 製薬業界では、臨床試験データの非識別化を行う際の考え方の1つとして「再識別リスクの閾値を設定したリスクベースの匿名化」が持ち出されることがありました(カナダのKhaled El Emam教授の考え方がベース)。欧州の医薬品の規制当局であるEMAも、この考え方で医薬品の承認過程の透明性を向上させようという動きがあったのですが、GDPRとの関係でなかなか進んでこなかった経緯がありました(詳細は割愛しますが、詳しく知りたい方は、「Policy 0070」、「phase2」、「IPD」といったキーワードで検索して下さい)。

 そのような中で、EUのデータ保護当局がこのような考え方をベースに「匿名化」を説明しているものをこれまでに見たことがなかったので意外に感じました(単なる私の勉強不足でしょうが)。GDPRにおける「EDPB-EDPSの考える匿名化」は、どちらかというと(そのようなものは存在しないといいつつ)絶対的な匿名化しか認めていないイメージ(binaryな考え方)でした。

 スペイン国内のデータ保護法や、スペイン国内だけで利用可能な行動規範(ここで軽く紹介しています)には、GDPRでは解釈が難しい医学研究や医薬品の研究・開発・安全性管理を認めるルールが存在していたりします。そのようなこともあって、スペインの規制当局は、医学研究や医薬品産業への造詣が深いのかもしれないと、勝手に想像しております。

 それでは前置きはこれぐらいで、本文を見ていきます。

匿名化に関する10の誤解

前文

 匿名化とは、個人データを匿名化することである。

 欧州連合(EU)のデータ保護法、特に一般データ保護規則(GDPR)によると、匿名データとは「識別された、または識別可能な自然人に関連しない情報、またはデータ主体が識別できない、または識別できなくなるような方法で匿名化された個人データ」のことである。個人データを含むデータセットには、直接および間接の識別子が含まれることがあり、これによって個人が識別されたり、識別可能になったりする。直接識別子は、名前や識別番号など、個人を参照する特定の情報である。間接識別子(準識別子とも呼ばれる)とは、データセットに含まれる個人を再識別する目的で、その個人について知っている誰かが、単独で、または他の準識別子と組み合わせて使用する可能性のあるあらゆる情報(例えば、ある瞬間の地理的位置や、あるトピックに関する意見など)である。再識別可能性とは、あるデータセットにおいて、匿名化されたデータをデータ照合や類似の技術を使って個人データに戻すことによって、個人を再識別できる可能性である。データセットの有用性とは、その情報が意図された目的(例えば特定の疾病に関する調査研究)にとってどれだけ有用であるかを示す尺度である。

 長年にわたり、不完全な匿名化処理や不正な匿名化処理が行われた結果、個人が再特定されてしまった例がいくつかある。例えば2006年、ある映画ストリーミング・サービスは、50万人の顧客による1,000万件の映画ランキングを含むデータセットを匿名であると主張して公表したが、敵対者がデータセット内のその契約者の記録を特定するためには、その契約者に関するわずかな知識しか必要ないことが後に判明した。 匿名化に不備があったもう一つの例として、2013年、ニューヨーク市のタクシー・リムジン委員会は、1億7,300万件以上の個々のタクシー利用が記載されたデータシートを公表し、送迎場所、時間、そして匿名化されたはずの免許証番号が記載されていた。このデータセットは正しく匿名化されておらず、元の免許証番号やタクシーの運転手まで特定することが可能だった。

 匿名データは、医療、人口統計、マーケティング、経済、統計、その他多くの分野の研究において重要な役割を果たしている。しかし、この関心と同時に、関連する誤解も広がっている。この文書の目的は、匿名化に関するいくつかの誤解について一般の認識を高め、この技術に関する主張を検証せずに受け入れるのではなく、確認するよう読者に動機付けることである。

 この文書では、このような10の誤解を挙げ、事実を説明し、さらに深堀するための参考文献を提供する。

ここでは「参考文献」は割愛しております。

ご関心のある方は、原著からご確認下さい。

誤解1:「仮名化は匿名化と同じ」

事実:仮名化は匿名化と同じではない

 GDPRは、「仮名化」を「追加情報を使用することなく、個人データを特定のデータ主体に帰属させることができなくなるように個人データを処理することであって、当該追加情報が別に保管され、かつ、当該個人データが識別された自然人または識別可能な自然人に帰属しないことを確実にするための技術的および組織的措置に服することを条件とする」と定義している。つまり、「追加情報」を使用することで個人を特定することができるため、仮名化された個人データも個人データであることに変わりはない

 一方、匿名データは特定の個人と関連付けることはできない。データが真に匿名となり、個人が特定できなくなれば、そのデータはGDPRの適用範囲外となる。

誤解2:「暗号化は匿名化である」

事実:暗号化は匿名化技術ではないが、強力な仮名化ツールにはなり得る

 暗号化プロセスでは、秘密鍵を使用して情報を変換し、悪用されるリスクを低減すると同時に、一定期間の機密性を保持する。元の情報にアクセスできる必要があるため、暗号化アルゴリズムが適用する変換は、復号化として知られる可逆性を持つように設計されている。復号化に使用される秘密鍵は、前述の「追加情報」(誤解1参照)であり、個人データを読み取り可能にし、結果として本人確認を可能にする。

 復号化に使用される秘密鍵は、前述の「追加情報」(誤解1参照)であり、個人データを読み取り可能にし、その結果、識別を可能にする。

 理論的には、暗号化されたデータの暗号鍵を削除すれば匿名化されると考えられるが、そうではない。復号鍵が「消去された」あるいは「不明」と言われたからといって、暗号化されたデータが復号できないと考えることはできない。暗号化されたデータの機密性には、特に長期的には多くの要因が影響する。暗号化アルゴリズムや鍵の強度、情報漏洩、実装する問題、暗号化データの量、技術の進歩(量子コンピューティングなど)などがその一例である

誤解3:「データの匿名化は常に可能である」

事実:再識別リスクを事前に定義された閾値以下に下げる一方で、特定の処理に有用なデータセットを保持することは、常に可能であるとは限らない。

 匿名化とは、再識別リスクの低減と、想定された目的に対するデータセットの有用性を維持することとの間の適切なバランスを見出そうとするプロセスである。しかし、データの状況や性質によっては、再識別のリスクを十分に軽減できないこともある。これは、可能性のある個人の総数(「データ主体の世界」)があまりにも少ない場合(例えば、欧州議会の705人の議員だけを含む匿名データセット)、データのカテゴリーが個人間であまりにも異なり、これらの個人を特定することが可能な場合(例えば、あるウェブサイトにアクセスしたシステムのデバイス・フィンガープリント)、あるいは、データセットに多くの人口統計学的属性や位置情報が含まれている場合などに起こりうる状況である。

誤解4:「匿名化は永遠に続く」

事実:匿名化処理には、将来的に元に戻されるリスクがある。時間の経過とともに状況が変化し、新たな技術開発や追加情報の入手が可能になると、以前の匿名化処理が損なわれる可能性がある。

 匿名化されたデータセットの再識別を試みる攻撃者が利用できるコンピューティングリソースや新しい技術(または既存の技術を応用する新しい方法)は、時とともに変化する。現在、クラウド・コンピューティングは、数年前には考えられなかったようなレベルと価格で、手頃なコンピューティング能力を提供している。将来的には、量子コンピュータが、現在「合理的な手段」と考えられているものをも変えてしまうかもしれない。

 また、(個人情報流出などで)長年にわたって追加データが開示されることで、以前は匿名だったデータを特定された個人に結びつけることが可能になる。非常にセンシティブなデータ(犯罪記録など)を含む何十年も前の記録が公開された場合、個人または親族に深刻な不利益を与える可能性がある。

誤解5:「匿名化は常にデータセットの再識別確率をゼロにする」

事実:匿名化プロセスとその実装方法は、再識別リスクの可能性に直接的な影響を与える。

 堅牢な匿名化プロセスは、再識別化リスクをある閾値以下に低減することを目指す。このような閾値は、既存の緩和策(一般公開の文脈では存在しない)、再識別された場合の個人のプライバシーへの影響、攻撃者がデータを再識別する動機や能力など、いくつかの要因によって決まる。

 個人データ保護の観点からは100%の匿名化が最も望ましいが、場合によっては不可能であり、再識別の残余リスクを考慮しなければならない。

誤解6:「匿名化は測定できない二項対立の概念である」

事実:匿名化の度合いを分析・測定することは可能である。

 「匿名データ」という表現は、データセットが単に匿名か匿名でないかのラベルを貼ることができるかのように認識することはできない。どのようなデータセットであっても、そのレコードが再特定される確率は、そのレコードをどの程度特定できるかによって決まる。どのような強固な匿名化プロセスであっても、再識別化のリスクは評価される。

 データが高度に一般化されている特殊なケース(例えば、ある年の国ごとのウェブサイトの訪問者数をカウントするデータセット)を除けば、再識別化のリスクがゼロになることはない。

誤解7:「匿名化は完全に自動化できる」

事実:匿名化プロセスにおいて自動化ツールを使用することは可能であるが、プロセス全体の評価におけるコンテキストの重要性を考慮すると、専門家による介入が必要である。

 「匿名化は完全に自動化できる」どころか、元のデータセットの分析、意図された目的、適用する技術、出来上がったデータの再識別リスクの分析が必要である。

 直接識別子の特定と削除(「マスキング」とも呼ばれる)は、匿名化プロセスの重要な一部であるが、それ以外の(間接的な)識別情報源(一般的には準識別情報による)については、常に慎重な分析が必要である。直接的な識別子を見つけることはある程度容易であるが、間接的な識別子は必ずしも明らかではない。

 逆に、完全に自動化されたプロセスでは、異なる文脈における準識別子を識別したり、特定の変数に特定の技法を適用してデータの有用性を最大化する方法を決定したりすることはできそうにない。

誤解8:「匿名化はデータを無用のものにする」

事実:適切な匿名化処理によって、データは与えられた目的に対して機能し続ける。

 匿名化の目的は、データセットに含まれる個人を特定できないようにすることである。匿名化の技術は、結果として得られるデータセットの使用方法を常に制限する。例えば、生年月日を1年ごとに区切ることで、再特定のリスクを減らすと同時に、データセットの有用性を減らす場合もある。これは匿名データが無用の長物となることを意味するのではなく、むしろその有用性は目的と許容できる再識別リスクに依存する。

 一方、個人データを本来の目的を超えて永久に保存し、他の目的に役立つようになる機会を待つことはできない。管理者によっては、データセットから個人データを切り離し、廃棄する一方、残りのデータセットには有用な意味を残す匿名化が解決策となる場合もある。例えば、ウェブサイトのアクセスログを匿名化することで、アクセス日時とアクセスしたページだけを残し、誰がアクセスしたかの情報は残さないようにすることができる。

 「データ最小化」の原則は、特定の目的を達成するために個人データを処理する必要があるかどうか、あるいはその目的が匿名データでも達成できるかどうかを管理者が判断することを求めている。

 場合によっては、データを匿名化することが意図した目的に合致しないという結論に至ることもある。このような場合、管理者は個人データを処理(および仮名化などの使用)してGDPRを適用するか、またはデータをまったく処理しないかのいずれかを選択しなければならない。

誤解9:「他者が成功させた匿名化プロセスに従うことで、我々も同等の成果を得ることができる」

事実:匿名化プロセスは、処理の性質、範囲、文脈、目的、および自然人の権利と自由に対するさまざまな可能性と重大性のリスクに合わせて調整する必要がある。

 匿名化はレシピ通りに適用することはできない。なぜなら、コンテキスト(データ処理の性質、範囲、文脈、目的)は状況や組織によって異なる可能性が高いからである。匿名化処理は、データが限られた数の受信者にしか利用できない場合には、再識別リスクはある閾値を下回るかもしれないが、データが一般に利用できるようになると、再識別リスクはその閾値を満たすことができなくなる。

 異なるデータセットは異なる文脈において利用できるかもしれない。これらのデータは、再識別リスクに影響する匿名データと相互参照することができる。例えば、スウェーデンでは納税者の個人情報の詳細が公開されているが、スペインでは公開されていない。したがって、スペイン人とスウェーデン人の情報を含むデータセットが同じ手順で匿名化されたとしても、再識別リスクは異なる可能性がある。

誤解10:「このデータが誰を指すかを知ることにリスクも関心もない」

事実:個人データはそれ自体、個人自身にとっても第三者にとっても価値がある。個人の再識別は、その権利と自由に重大な影響を与える可能性がある。

 匿名化に対する攻撃には、意図的な再識別化の試み、意図しない再識別化の試み、データ侵害、データ公開などがある。誰かが個人を再識別しようとする可能性は、最初のケース(意図的な再識別化の試み)にのみ関係する。好奇心からであれ、偶然であれ、あるいは実際の関心(科学研究、ジャーナリズム、犯罪活動など)によってであれ、誰かがデータセット内の少なくとも一人の個人を再識別する可能性を無視することはできない。

 再識別が個人の私生活に与える影響を正確に評価することは困難である。例えば、映画の好みという一見無害な文脈でデータ主体が再識別されることで、その人物の政治的傾向や性的指向が推測されるかもしれない。しかし、このような特にセンシティブなデータはGDPRの下において特別な保護が与えられている。


 以上、「匿名化に関する10の誤解」でした。

 ガイドラインなどの小難しい文書を読むより、よほど分かりやすいかもしれません。

タイトルとURLをコピーしました