【GDPR】匿名化と仮名化に関するガイダンス（アイルランドデータ保護当局）

　2019年6月に、アイルランドのデータ保護当局であるDPC（Data Protection Commission[英語]、AN COIMISIÚN UM CHOSAINT SONRAÍ[アイルランド語]）が、匿名化と仮名化に関するガイダンス（Guidance on Anonymisation and Pseudonymisation）というガイダンス・ノートを公表しています。

Anonymisation and pseudonymisation | Data Protection Commission

People in the EU have a fundamental right to privacy; it is important for organisations that proc

　匿名化と仮名化の定義や考え方は、世界的にも微妙な違いがあるようですが、データ保護法がGDPRで統一されているEUの中でも、微妙なニュアンスの違いを見せることがありますが、ここでは、アイルランドのデータ保護当局のガイダンスで示されている匿名化・仮名化の考え方を見ていきたいと思います。

ガイダンス中に出てくる「singling out」という用語を、ここでは「特定」と訳しています。

本来のニュアンスと少し異なるかもしれませんが、適切な日本語訳が分かりませんでした。

ご了承ください。

匿名化と仮名化に関するガイダンス

匿名化と仮名化に関するガイダンス

　欧州市民はプライバシーに対する基本的権利を有しており、個人データを処理する組織はこの権利を認識することが重要である。匿名化および仮名化は、効果的に実施されれば、データ主体個人のプライバシー権を保護し、組織が正当な目標とプライバシーの権利のバランスをとるために使用することができる。

　このガイダンスノートは、これらの技術の使用に関する情報を提供することを目的としている。

キーポイント

不可逆的かつ有効に匿名化されたデータは「個人データ」ではなく、そのようなデータに関してデータ保護の原則を遵守する必要はない。仮名化されたデータは依然として個人データである。
「匿名化」されたデータの作成と同時にデータソースが削除されない場合、「匿名化」されたデータから個人を識別するためにデータソースが使用される可能性がある場合、そのデータは「仮名化」されただけであり、関連するデータ保護法の主体である「個人データ」であると考えられる。
データ管理者またはその他の者が直接的または間接的にデータ主体を識別するために合理的に使用しうるすべての方法を考慮して、データ主体が識別されない、または識別可能でない場合、データ保護の観点から「匿名化」されたデータとみなすことができる。

　「匿名化する前の個人データを削除しないと、定義上の『匿名化』とならない可能性があり、依然、『仮名化』でしかなく、それ故に個人データのままである」という考え方は、個人的には理解できますが、現実的には相当厳しいですね。

　日本の個人情報保護法では、令和2年改正の過程で「匿名加工情報を作成した場合、作成前の個人データとの対応表は削除しなければならない」ということが明確にされましたが、加工前の個人データの削除までは求められていません。

個人データとは何か？

　個人データとは、識別または識別可能な個人に関するあらゆる情報を意味する。この個人は「データ主体」とも呼ばれる。

　識別可能な個人とは、直接または間接的に、特に氏名、識別番号、位置情報、オンライン識別子などの識別子、またはその個人の身体的、生理的、遺伝的、精神的、経済的、文化的、社会的アイデンティティに固有の1つ以上の要素を参照して識別できる個人を指す。

　上記の定義は、一般データ保護規則（GDPR）とアイルランドデータ保護法2018の文言を反映している。したがって、データから、またはデータと他の特定の情報との組み合わせからデータ主体を識別することができないように匿名化された生存する個人に関するデータは、GDPRまたはデータ保護法2018の適用を受けず、個人データと同じ処理制限の対象とはならない。

仮名化とは何か？

　データの「仮名化」とは、データの識別特性を仮名に置き換えること、言い換えれば、データ主体を直接識別できない値に置き換えることを意味する。

　GDPRおよび2018年データ保護法では、仮名化とは、(a)そのような追加情報が別個に保管され、(b)個人データが識別可能な個人に帰属しないことを保証するための技術的および組織的措置が講じられることを条件として、追加情報を使用することなく個人データを特定のデータ主体に帰属させることができなくなるような方法で個人データを処理することと定義されている。

　仮名化には多くの用途があるが、間接的な手段による識別が可能であるため、多くの場合、データ主体の識別に対する限定的な保護しか提供しないため、匿名化とは区別されるべきである。仮名が使用される場合、多くの場合、基礎データまたは関連データを分析することによってデータ主体を特定することが可能である。

匿名化および仮名化の用途

　不可逆的に匿名化されたデータは「個人データ」でなくなり、そのようなデータの処理はデータ保護法を遵守する必要がなくなる。原則的に、これは組織がデータを当初取得した目的以外の目的に使用できること、また無期限に保管できることを意味する。

　データの性質や背景、あるいはデータが収集され保持される用途のために、データを効果的に匿名化できない場合もある。このような場合であっても、組織は次のような匿名化または仮名化の技術を使用することができる。

データ主体に対する保護を改善するための「プライバシー・バイ・デザイン」戦略の一環として。
データ処理業者や他のデータ管理者とデータを共有する際のリスク最小化戦略の一環として。
従業員が個人データにアクセスする際に、不慮のデータ侵害が発生しないように。
データ主体に対するデータ侵害のリスクを最小限に抑えることを目的とした「データ最小化」戦略の一環として。

　匿名化が実施される場合であっても、リスクは内在する。前述したように、仮名化は匿名化とは異なるため、同一視すべきではない。例えば、eプライバシー指令は、多くの場合、個人データではなく情報に適用される。最後に、効果的な匿名化が行われたとしても、データセットの公開はプライバシーに影響を及ぼす可能性があり、関係する個人の有用性を考慮する必要がある。

識別－識別可能性のテスト

　データが十分に匿名化されてデータ保護法の適用範囲から外れたかどうかを判断するためには、定義の2番目の要素であるデータ主体の識別をより詳細に検討する必要がある。

　データ保護に関する第29条作業部会（現在は欧州データ保護委員会（EDPB）に継承）は以前、個人が識別される、または識別可能である場合について以下のようなテストを提案している：

一般論として、自然人は、ある集団の中で、その集団の他のすべての構成員から「識別」される場合に、「識別可能」であるとみなされる。したがって、識別可能な自然人は、その人がまだ識別されていないにもかかわらず、識別することが可能な場合に「識別可能」である。

　従って、個人を識別するために名前を付ける必要はない。グループ内の他の誰かについてはありえないが、個人とその個人に関するデータを結びつけることを可能にする他の情報がある場合、その個人は「識別可能」である。

　個人をグループ内の他の誰かから区別できるかどうかを判断する際には、保持される情報にどのような「識別子」が含まれているかを検討することが重要である。

　識別子とは、特定の個人と密接に関係し、その個人を特定するために使用できる情報の断片である。このような識別子には、データ主体の名前や画像のような「直接的」なものから、電話番号、電子メールアドレス、データ管理者がデータ主体に割り当てた固有の識別子のような「間接的」なものまである。その結果、直接の識別子を削除しても、データセットが匿名化されるわけではない。識別子ではないデータも、ユーザーの識別や区別につながるコンテキストを提供するために使用されることがある。実際、この種の一連のデータは、それだけで個人を識別し、特定するのに十分かもしれない。しかし、個人に関するデータに識別子が含まれているからといって、データ主体が識別可能な個人となるわけではない。これは文脈的要因による。ある子供の生まれ年に関する情報によって、その子供を家族の中で特定することはできるかもしれないが、同じ生まれ年の子供が大勢いる場合、その子供を学校のクラスの他の生徒と区別することはおそらくできないだろう。同様に、個人の姓に関するデータは、その個人を職場の他の人と区別することはできても、その姓が一般的であれば、一般集団の中で識別可能な個人を特定することはできないかもしれない。

　一方、一見、個人の識別子を取り除いたように見えるデータでも、公開されている他の情報や特定の個人・組織の情報と組み合わせることで、個人と結びつけることができる場合がある。これは特に、連結されたデータの組み合わせに特徴がある場合に発生する。例えば、上記のケースでは、特定の誕生日を持つ子どもがクラスに1人いた場合、その情報だけで識別が可能となる。

識別可能性と匿名化

　「識別可能性」の概念は、匿名化のプロセスと密接に関連している。データセットから直接の識別子がすべて取り除かれ、データ内で個人が「識別可能」でなくなったとしても、データ主体をデータセット内の情報に関連付けることが可能であれば、そのデータは依然として個人データである。

GDPRの前文26は、個人を識別可能か否かを判断する際、「[…]自然人を直接または間接的に識別するために、管理者または他の者によって、特定するなど、合理的に使用される可能性のあるすべての手段を考慮すべきである」と規定し、個人を識別するために「合理的に使用される可能性のある」手段か否かを判断する際、「[…]処理時に利用可能な技術および技術開発を考慮し、識別に要する費用や時間など、すべての客観的要因を考慮すべきである」と規定している。前文26はまた、データ保護の原則は匿名情報には適用されないことを明確にしている。

　従って、データ保護のためにいつデータが匿名化されるかを判断するには、データ主体を再特定するためにどのような手段や利用可能なデータセットが使用され得るかを検討する必要がある。匿名化技術が成功したとみなされるためには、データ主体を識別することが不可能であることを証明する必要はない。むしろ、データ主体が識別されうる可能性が低いことが、個々のケースの状況や技術の状況から証明できれば、データは匿名化されたとみなすことができる。

　再識別が行われる可能性のある様々な方法について以下に説明する。

　匿名化の際にデータソースが削除されない場合、通常、データソースと匿名化データの両方を保持するデータ管理者は、匿名化データから個人を識別可能な立場にある。このような場合、匿名化されたデータがデータ管理者の手元にある間は、匿名化処理によってデータソースを持っている者でも個々のデータ主体が特定できなくならない限り、匿名化されたデータは依然として個人データとみなされなければならない。

識別リスク

　匿名化データから個人が再識別される可能性を定量化することは通常不可能である。しかし、どのようなリスクが存在するかを考えることは、匿名化データからデータ主体が識別される可能性があるかどうかを評価するのに役立つ。有用性のある匿名化技術は、個々のデータ主体が特定されること、データセット間の記録のリンクやデータのマッチング、データセットから個人に関する情報が推論されることを防ぐことができる。

特定（Singling out）

　ある個人に関するデータを、データセットの他のすべての情報から区別することが可能な場合、「特定（Singling out）」が行われる。例えば、個人の身長を記録したデータセットで、身長が190cmの人が一人しかいない場合、その個人は特定される。また、同じ個人に関連する異なるデータがデータセットの中でつながっていて、一人の個人がユニークな値の組み合わせを持っている場合にも発生する可能性がある。例えば、身長や生年が同じ人が大勢いるにもかかわらず、身長160cmで1990年生まれの人がデータセットの中に一人しかいないような場合である。

データのリンク

　データセット中の識別子のリンクは、個人を識別可能にする可能性を高める。例えば、「ジョン」と「スミス」という名前だけでは、ある大企業の顧客を他の顧客と区別することはできないかもしれない。「スミス」は、大企業の顧客の一人を他のすべての顧客と区別することはできないかもしれないが、2つの情報がリンクされていれば、「ジョン・スミス」がユニークで識別可能な個人を指す可能性がはるかに高くなる。データセットの中でリンクされている識別子が多ければ多いほど、それらに関連する人物が特定されたり識別されたりする可能性が高くなる。

　匿名化されたデータから個人が識別される可能性のある主なリスク要因は、1つ以上の他のデータソースからのデータが匿名化されたデータと結合または照合されるリスクである。これは特にデータが仮名化されている場合に関連する。仮名によってマスキングされたデータと他の利用可能なデータとを直接比較することができるため、データ主体が識別され、あるいは識別されなくなる可能性があるからである。研究者は何度も、わずか数個の非識別情報を組み合わせることで、非常に正確な再識別が可能であることを明らかにしてきた。

　データ保護の原則の一部でもあるデータの最小化と収集技術は、データ照合が成功するリスクを減らすのに役立つ。GDPRは特にデータ最小化の原則を定めており、処理される個人データは適切で、関連性があり、処理目的との関連で必要なものに限定されるべきであるとしている。

推論

　場合によっては、あるデータセットに含まれる2つの情報の間に、明示的な関連性がないにもかかわらず、関連性を推論できることがある。例えば、あるデータセットに、ある企業の従業員の年功序列と給与に関する統計が含まれている場合、このようなことが起こりうる。このようなデータはデータセットに含まれる個人の給与を直接示すものではないが、2つの情報の間に推論が導き出され、個人を識別可能なものにすることができるかもしれない。このようなことが可能な場合、データ保護法が引き続き適用され、適切に保護されるべき組織が考慮すべき再識別のリスクが残る。

データが「匿名化」されるのはどのような場合か？

　上に述べたように、データ管理者またはその他の者がデータ主体を識別するために使用する可能性のある合理的な方法を考慮して、データ主体が識別できなくなった場合、データはデータ保護の観点から「匿名化」されたとみなすことができる。データ管理者は、匿名化技術の有効性を評価する際、後者の条件を十分に考慮する必要がある。

　データ管理者が生データ、または「匿名化」プロセスを逆行させてデータ主体を識別するために使用できるキーまたはその他の情報を保持している場合、データ管理者による識別はほとんどの場合可能であると考えなければならない。従って、データは「匿名化」されたものではなく、単に「仮名化」されたものであり、個人データであることに変わりはなく、データ保護法に従ってのみ処理されるべきである。

　データが匿名化され、元のデータを使用しても匿名化されたデータから識別可能な個人を特定できない場合、そのデータは完全に匿名化されており、個人データとはみなされない。これは、データが統計的に集計された形式である場合や、データにランダムなノイズが加わり、元のデータと匿名化されたデータとのリンケージが完全に妨げられるような場合に起こりうる。

　匿名化処理が施されたデータセットから個人が絶対に識別されないと断言することはできない。将来、現在よりも高度なデータ処理技術が開発され、現在の匿名化技術が損なわれる可能性がある。また、より多くのデータセットが公開され、データセット間の相互比較が可能になるだろう。これら両方の進展により、匿名化技術が採用されているにもかかわらず、データセット間で個人の記録がリンクされる可能性が高くなり、最終的には識別可能な個人を識別できるようになる。

　しかし、組織の義務は、個人が識別されるリスクを抑えるために、あらゆる合理的な試みを行うことである。特定のケースでどの程度の匿名化が必要かを評価する際には、技術の現状とそのような人が現在利用可能な情報を考慮した上で、誰か（「侵入者」または「内部者」のいずれか）が個々のデータ主体を識別するために使用する可能性のある合理的な方法をすべて考慮すべきである。現在、合理的なレベルの保護を提供する匿名化のアプローチは、将来にわたって識別を防ぐ可能性があるが、これは時間をかけて監視し評価する必要がある。

　どのような方法が侵入者に使用される可能性が「合理的に」高いかを決定する際、組織はまず、侵入者候補が誰であるかを検討すべきである。組織はまた、個人データの機密性、潜在的な侵入者やデータにアクセスする可能性のある第三者にとっての価値も考慮すべきである。潜在的な侵入者がデータ主体を識別しようとする動機が高ければ高いほど、組織は識別のために極端な手段を用いることを期待すべきである。最後に、組織は匿名化されたデータと比較するために、潜在的な侵入者がアクセスできる可能性のある他のデータについて検討すべきである。このようなデータは、選挙人名簿や電話帳のような一般に入手可能な情報か、侵入者が個人的に知っているデータから得られるかもしれない。

誰が「侵入者」になりうるか？

　「侵入者」という言葉は、匿名化データへのアクセスを意図していない個人を指すためだけに使用されるわけではない。データへのアクセスは許可されているが、匿名化データから意図的または不注意にデータ主体が識別されるかもしれない。匿名化されたデータを世間一般に公表することを意図している場合、匿名化が有効であることを保証するために組織に課される負担はより大きくなる。なぜなら、後になって識別が可能であることに気づいた場合、公表を撤回することは事実上不可能であり、受領者の意図や行動は元のデータ生成者の監督を超える可能性があるからである。

　場合によっては、データを一般に公開するのではなく、特定のグループと共有するためにデータを匿名化したいと考えることがある。このような場合、識別が起こる合理的な可能性があるかどうかを判断する際に、そのグループが利用できる他の情報や技術的ノウハウを考慮すべきである。

　学術的または組織的な環境においては、匿名化されたデータの共有に関する合意に、再識別の防止を目的とした拘束力のある約束を含めることが可能であろう。これによってデータ主体が識別される可能性が低くなるため、そうでない場合よりも詳細なデータの共有が可能になる。

　組織内で使用するためにデータを匿名化する場合、匿名化されたデータを一般に公開する場合ほど厳密な識別可能性テストを課す必要はないかもしれない。なぜなら、匿名化されたデータに誰がアクセスできるか、またアクセスするための条件を組織が管理できる可能性が高くなるからである。これらの条件が適切に設計されていれば、識別のリスクを軽減するのに役立ち、匿名性を維持しながら、より詳細な情報をデータに含めることができる。

　しかし、匿名化されたデータを組織内またはデータの使用について拘束力のある制限を設けたグループ内で共有する場合でも、組織は、これらのグループ外からの侵入者によってデータにアクセスされたり、不適切に共有されたりするリスクを考慮すべきである。匿名化データを内部使用のために準備する場合はすべて、偶発的な公表の可能性、およびそのようなデータへの不正アクセスを防止する物理的・技術的セキュリティ対策に留意しなければならない。偶発的な公表や不正アクセスの可能性がより高い場合は、このような方法で匿名化データを入手した侵入者が個人を識別する可能性を制限するために、より大きな注意を払わなければならない。

識別が試みられる可能性はどの程度か？

　匿名化されたデータから個人を識別しようとする可能性が高ければ高いほど、データの匿名化には注意が必要である。しかし、それ自体が匿名化やデータ処理に関するその他の措置が必要ないと考える理由にはならない。このリスクの評価には、潜在的な侵入者にとっての情報の価値、潜在的な侵入者の範囲、意図された受領者の範囲を超えてデータが共有されるリスクなど、幅広い要素が関係する。金融情報やヘルスデータが匿名化されている場合、他の個人が匿名化されたデータから個人を識別しようとするインセンティブが比較的高い可能性があるため、特に注意が必要である。

　関連する問題は、識別が不注意に行われる可能性があるかどうかである。この可能性が最も高いのは、データ主体について個人的な知識を持つ侵入者が匿名化データを所有するようになった場合である。個人的な知識を持つ者による識別のリスクについては後述する。このような不注意による識別が可能かどうかを検討し、個人情報を持つ者が識別されるリスクを最小化するためにデータの匿名化方法を変更するか、個人情報を持つ者が匿名化データに接触できないように匿名化データの流通を制限することによって、このような可能性を最小化するための措置を講じるべきである。

　しかし、データに関する個人的な知識が要因でない場合でも、使用される匿名化技術やデータの文脈によっては、再識別、再リンク、推論が重大なリスクとして残る可能性があることを常に念頭に置くべきである。

侵入者は他にどのようなデータにアクセスできるだろうか？

　上記で述べたように、識別は異なるデータセットの照合によって行うことができる。匿名化技術を選択する際には、他にどのようなデータが公開されているか、または匿名化されたデータにアクセスできる可能性のある集団が、識別を可能にする可能性があるかを考慮すべきである。このような情報には以下が含まれる：

土地登記簿、選挙人名簿などの公的登記簿、または一般にアクセス可能な職業登録簿。
インターネットまたはオンライン・データベースに含まれる検索可能な情報。このカテゴリーの情報には、新聞記事、ブログ記事、オンライン・ディレクトリー、または過去のデータ漏洩で公表されたデータが含まれる。
匿名化されたフォーマットで公表される統計データ。データ主体を特定するために、特定の匿名化されたデータと組み合わされる可能性がある。これは、同じデータ主体に関する研究または統計出版物の場合に特に懸念される。
匿名化されたデータへのアクセスが与えられている特定の組織または個人が利用可能な情報。

個人的知識

　場合によっては、その個人情報がなければ識別が不可能であったとしても、データに接した人の個人的知識によって、その人がデータ主体を識別できることがある。例えば、ある医者が匿名化された医学雑誌の研究を読むと患者の一人を特定できるかもしれないし、ある村の住民が匿名化された犯罪件数に関連する個人を特定できるかもしれない。

　その結果、個人または集団の個人的知識によって、その個人または集団がデータ主体に関する匿名化された情報に個人情報をリンクさせることによって、データ受領者の職業上の秘密が要因となっている場合であっても、データ主体に関する新しい情報を発見できる可能性がある場合には、特別な注意が必要である。

　このような状況において、匿名化プロセスが識別を防ぐのに十分強固であるかどうかを評価する際には、個人的な知識を持つ者が匿名化データにアクセスできる可能性があるかどうかを考慮すべきである。関連する個人情報を持つ個人が、その個人情報を使用してデータ主体を特定しようとする可能性が低い場合、例えばそうすることは職業上の義務に抵触するため、匿名化されたデータにアクセスできるという事実は、必ずしもそのデータが匿名化されているとは見なされないことを意味しない。

どのような匿名化技術を用いるべきか？

　適切な匿名化技術の決定は、上記の関連するリスク要因のすべてと、匿名化されたデータの意図する目的を考慮して、ケースバイケースで行わなければならない。組織は、匿名化されたデータを使用する目的に必要なすべての情報を保持する必要性と、データセットに詳細な情報が含まれることによって生じる識別リスクとのバランスを取る必要がある。個人データを効果的に匿名化できない場合、それらは依然として個人データとみなされ、扱われなければならない。

　データ保護法は匿名化のための特定の技術を規定していないため、どのような匿名化プロセスを選択するにしても、それが十分に強固なものであることを保証するのは、個々のデータ管理者の責任である。本書は、利用可能な匿名化技術のすべてを包括的に説明するものではなく、個々のケースについて詳細なガイダンスを与えることはできない。組織は、第29条作業部会の匿名化技術に関する意見書（意見書05/2014）、特にその技術的付属書を参照し、関連する可能性のある匿名化技術に関する詳細な情報を得るべきである。

　組織はまた、設計およびデフォルトによるデータ保護（GDPR第25条）、および個人データ処理のセキュリティ（GDPR第32条）に関する義務にも留意すべきである。

　大まかに言えば、匿名化技術には2つの種類がある：「ランダム化」と「一般化」である。「マスキング」や「仮名化」など、特定の識別子を除去することのみを目的とした技術も、識別のリスクを低減する役割を果たすことがある。多くの場合、これらの技法は、異なるタイプの識別リスクと闘うために、併用するのが最も効果的である。

ランダム化

　ランダム化技術とは、データの価値を失うことなく、個人とデータとのつながりを断つためにデータを変更することである。この種の技術は、匿名化データの意図した目的に正確な情報が必要でない場合に使用できる。ランダム化技術は、匿名化されたデータから推論されるリスクや、他の利用可能なデータセットが同じランダムな値を使用していない限り、データセット間のデータ照合のリスクを軽減するのに役立つ。

　ランダム化には、侵入者がデータと個人を結びつける能力を制限するために、データに「ノイズ」、すなわちランダムな小さな変化を加えることが含まれる。例えば、個人の身長を記録するデータベースでは、個々のデータ主体の身長にわずかな増減を加えることで、その増減の範囲内においてのみデータが正確であると言うことができる。加算するノイズのスケールを、生の値のスケールと一致させることが重要であり、このプロセスによって、実際の結果とまったくかけ離れた結果が生じないようにする必要がある。例えば、個人の身長のデータベースでは、1cmから10cmの間を加減算することで、許容可能なレベルの匿名性を達成できるかもしれないが、1mを加減算すると、有用なデータが得られないかもしれないし、場合によっては、そのデータが誰を指しているのかが明白になってしまうかもしれない。

　「入れ換え」（Permutation）もランダム化手法の一種である。これは、個人の記録間で特定のデータを入れ替え、個人に関連する異なる情報を結びつけることによって、個人の識別をより困難にするものである。例えば、個人の身長の場合、データにランダムなノイズを加える代わりに、異なる個人の身長値を移動させ、その個人に関する他の情報との関連性をなくす。これは、匿名化されたデータベース内の身長値の正確な分布を保持する必要があるが、身長値とデータ主体に関する他の情報との相関関係を保持する必要がない場合に役立つ。

医学研究に用いるデータが「ランダム化」されていたら役に立ちませんね・・・

一般化

　一般化とは、データの粒度を小さくし、より正確でないデータのみを開示することである。これは、より多くの人々が同じ値を共有する可能性が高いため、個人を特定できる可能性が低くなることを意味する。例えば、データ主体の年齢を含むデータベースを調整し、個人がどの年齢の帯域（18～25歳、25～35歳、35～45歳など）に属するかだけを記録するようにすることができる。

　これは「k-匿名化」と呼ばれるプロセスで行うことができ、データ主体に関連する各値がデータセット内で少なくとも最小数（k）の他者と共有されるようにする。これにより、情報の帯に適切なサイズを選択することができる。例えば、各値が少なくとも5人の個人によって共有されることを望む場合、データ内の個人の地理的分布に応じて、町ではなく県や郡で位置を示すことを選ぶかもしれない。

　しかし、一般化されたフィールドにリンクされているデータで、個人を特定することができる場合、このテクニックは弱くなる可能性がある。例えば、あなたのデータベースにはダブリンに住む5人の個人がいるかもしれないが、そのうちの1人だけが身長1.9m以上であった場合、位置情報データだけが郡レベルに一般化されていれば、その個人は識別可能である。匿名化技術に関する第29条作業部会の意見書の技術的付属文書には、このリスクを軽減するために組織を支援するために使用できる多くの技術が議論されている。

マスキング

　マスキングは、他の匿名化技術を補完するのに有効である。マスキングとは、データから明らかな、あるいは直接的な個人識別子を取り除くことである。匿名化の前提条件として、匿名化されたデータセットの中に直接または明白な識別子が含まれていないことが必要である。このような情報には、名前、住所、画像などが含まれる。

　マスキングだけでは識別のリスクが非常に高いため、通常は匿名化とはみなされない。なぜなら、このような技術では、マスキングされていない元のデータをすべて見ることができるため、データ照合技術がデータ主体者の身元を明らかにするために使用される危険性があるからである。

匿名化技術としての仮名化

　仮名化は、単独で使用される場合、マスキングと同様のリスクを伴い、元の変更されていないデータの多くが仮名化されたデータに含まれるため、データ照合技術によって個々のデータ主体が識別される可能性がある。さらに、仮名が再利用される場合、同一個人に関連する異なる記録の連結が可能になるため、識別リスクがさらに高まるというデメリットもある。

　しかし、仮名化には、データ中に直接識別可能な個人を保存することなく、同一人物に関連する異なる記録をリンクできるという利点がある。これは特に縦断的研究、または同じデータ主体に関して異なる時期に収集されたデータをリンクする必要があるその他の目的において有用である。状況によっては他の手法と組み合わせて、匿名化されたデータを同一個人にリンクさせることも可能であるが、その場合、既存の匿名化されたデータを考慮して、識別リスクが存在するかどうかを匿名化される新しいデータセットごとに検討しなければならない。仮名化によって個人が特定される可能性があることを考慮する。

　仮名化は決して匿名化の有用な手段とはみなされるべきではないが、データセットの「連結可能性」を減らすためのセキュリティ強化策と考えることはできる。

個人データを匿名化できるのはどのような場合か？

　データを匿名化するプロセスは、それ自体がデータを「処理」していると見なされるため、組織が個人データを匿名化してデータ保護法の適用範囲外にしたい場合は、関連法に従って公正に行わなければならない。

　例えば、データを匿名化する場合、組織は通常、GDPR第5条(1)（b）が規定する「目的限定」の原則に従う。

　組織は個人データを収集する際、データ収集の目的のひとつが将来の使用のためにデータを匿名化することである場合、データ主体に通知すべきである。これが行われていない場合、そのような匿名化は、GDPRの下で多くの制限を受ける、当初取得した目的以外の目的のためのデータの「追加処理」と見なされる可能性がある。また、データの匿名化は、データの収集目的のひとつに付随するものであり、問題とならない場合もある。例えば、データが取得された目的のためにアクセスされる際に、匿名化が組織内部で使用される場合、この匿名化は明確な目的ではない。

　GDPR第5条1項(b)および第89条1項が定める目的制限の例外として、公益のための保存目的、科学的または歴史的研究目的、統計目的のためのデータ処理がある。このような目的のために使用される個人データは、個人データが処理された当初の目的と矛盾するものとは見なされない。

　個人データの匿名化が効果的に実施されれば、データ主体が被る危害のリスクを軽減することができるため、データ主体がデータの匿名化を阻止する権利を持つことはないと思われるが、その有効性は個々のケースで評価されなければならない。

部分的に匿名化されたデータベースからの個人データの抽出

　部分的に匿名化されたデータセットを取得し、それを処理して個人データを抽出することは、通常、個人データの取得と見なされる。したがって、この個人データの処理はデータ保護法の適用範囲となり、個人から直接取得したのではない個人データに関する様々な義務が生じる。組織が部分的に匿名化されたデータセットにおいて個人を識別できる場合、その組織がデータ管理者であるための他の基準を満たしていれば、データ管理者とみなされる可能性がある。

　例えば、前文61およびGDPR第14条では、個人に関する個人データの処理に関する情報は、個人以外のデータソースから個人データを取得した場合、その状況に応じて、合理的な期間内にデータ管理者から個人に対して提供されるべきであると定めている。

　データを匿名化するプロセスの一環として、組織は匿名化プロセスの有効性を検証し、その成否を判断すべきである。このテストでは、プロセスが完了した時点で識別できるもの、攻撃者や侵入者が再識別するために必要な労力、匿名化されたデータの全体的な「有効性」を検討し、匿名化の労力を増やすことで匿名化プロセスの有効性がどれだけ向上するかを測定する。ほとんどの場合、組織は元のデータを保持しているため、ペンテストの過程で個人を識別しても、通常、その個人に関する新たな情報が明らかになることはなく、そのような処理は個人データの取得とは見なされない。

匿名化とデータ保持

　GDPR第5条(1)(e)は、個人データの処理目的に必要な期間を超えて、個人を識別できる形で個人データを保持しないことを求めている。「識別が可能な形で」という文言は、完全に匿名化されたデータを保持する可能性を指している。

　第5条(1)(e)はまた、個人の権利と自由を保護するために適切な技術的・組織的措置を実装することを主体として、公益のための保存目的、科学的・歴史的研究目的、または第89条(1)に従った統計目的のためにのみ個人データを処理する限りにおいて、個人データをより長期間保存することができると定めている。

データの保持

　上述の通り、データ主体を識別する合理的な可能性を排除するために匿名化されたデータは個人データではなく、個人データを必要な期間のみ保持する義務は適用されない。ただし、組織がこのような理由で匿名化データを保持する場合、その識別可能性の状態を継続的に見直す必要がある。特に、匿名化されたデータを個人と結びつけることができるような新しい情報を組織が入手する可能性がある。

　個人に関するデータを継続的に匿名化して保管する場合、組織は、異なる時期に匿名化されたデータ間のリンケージが、匿名化されたデータセットのいずれかに含まれる個人を識別可能なものにしないよう注意すべきである。特に、仮名が使用されている場合、その都度新しい仮名が選択されない限り、異なる匿名化データセット間のレコードのリンケージが可能になる可能性がある。また、匿名化されたデータからデータ主体を特定することが可能になるため、キーが保持されている場合、仮名では匿名化が困難になる。キーが保持されない場合でも、仮名化によってデータ対象者が特定され、リンケージや推論が可能になるため、これを有効な匿名化として信頼すべきではない。

データソースの削除

　上記の通り、(i)ソースデータが保持され、(ii)ソースデータの使用により部分的に匿名化されたデータから個人が識別可能になる場合、部分的匿名化プロセスを経たデータが個人データでなくなることはない。データ生成者が匿名化されたデータを保持するつもりであっても、それが不要になれば、元のデータを削除する必要がある。元データが削除されるまでは、組織は部分匿名化または仮名化されたデータを個人データとして扱う義務がある。個人は引き続きこのデータに関して権利を行使することができる。データソースが破棄された後、組織は匿名化の有効性を再度検討し、場合によってはテストする必要がある。

主体によるアクセスと訂正

　データ主体はGDPRおよび2018年データ保護法の下で様々な権利を有しており、これにはGDPR第15条に基づき、組織が保有する自己の個人データに関する詳細を要求する権利、および自己の個人データにアクセスする権利が含まれる。

　データ主体はまた、GDPR第16条および第17条に基づき、データ管理者に誤った情報を訂正させたり、特定の状況下で個人データを削除させたりする権利を有する。このような要求に対応する際のデータ管理者の義務については、データ主体からの要求への対応および個人データの保管とマネジメントに関するガイダンスで詳しく説明している。組織は、これらのガイダンスのページを参照して、これらの要求への対応についての詳細を確認する必要がある。

　組織が個人データを収集し、その後匿名化した場合、データ主体がその権利を行使できるように、個人データを識別可能な形式で一定期間保持する必要がある場合がある。College van burgemeester en wethouders van Rotterdam v. M.E.E. Rijkeboer（Case C-553/07）において、欧州司法裁判所は、個人データへのアクセス権には、そのような要求ができるようにデータを一定期間保持することが必要であるとした。しかし、GDPRの前文64では、管理者は、アクセスを要求するデータ主体の身元を確認するためにあらゆる合理的な手段を用いるべきであるが、管理者は「潜在的な要求に対応できるようにすることのみを目的として」個人データを保持すべきではないとしている。