TEHDASとは
TEHDAS(Towards the European Health Data Space)という組織をご存知でしょうか?
TEHDASはEHDS(European Health Data Space)の実現に向け、欧州における公衆衛生とヘルスリサーチ・イノベーションに役に立つヘルスデータの二次利用のコンセプトを開発・促進するサポートをしているプロジェクトです。
このプロジェクトには、EU加盟国21カ国とその他欧州4カ国から、様々な立場の組織・団体(規制当局、国営のデータ管理組織、大学、学会、民間企業、市民団体など)がパートナーまたはアドバイザーとして参加し、欧州委員会や関連する欧州諸国からの資金提供を受けて、2021年2月1日から活動しています(予定では2023年8月1日まで)。
このプロジェクトの目標は「将来、欧州の市民、地域社会、企業が、ヘルスデータの保存場所に関係なく、安全でシームレスなアクセスの恩恵を受けるようになること」とされておりますが、特に以下のことに焦点を当てているそうです。
- EHDSに関する対話に、他の欧州プロジェクトや政策立案者を参加させること
- 欧州におけるヘルスデータの二次利用の持続可能性を確保すること
- 欧州諸国間のヘルスデータの二次利用における国境を越えた協力のためのガバナンスモデルを開発すること
- ヘルスデータの二次利用のための信頼性、互換性、アクセスを促進すること
- ヘルスデータの二次利用における市民(個人)の役割を明確にし、研究や政策立案におけるヘルスデータの利用についての対話に参加させること
TEHDASのプロジェクトの成果は、欧州委員会のEHDSに関する立法提案に求められる要素を提供するとともに、提案後の欧州全体での対話の支援に繋がるものとなります。
すなわち、EHDSの立法から社会実装までを、欧州のすべてのステークホルダーが一緒に考え、進めて行くためのプロジェクトと言えると思います。
TEHDASの活動は、いくつかに分かれて進められているのですが、今回はWork Package 6(Excellence in Data Quality)の活動の一環として2022年5月18日に公表された成果物である「(Deliverable 6.1)European Health Data Space Data Quality Framework 」について、その実装にむけたTEADASからの提案の概要について紹介したいと思います。
なお、このData Quality Frameworkの考え方は、2022年10月10日にEMA(European Medicines Agency)から公表されたガイドライン案である「Data Quality Framework for EU medicines regulation」にも強く影響を与えています。
EMAにおけるデータの質に対するフレームワークを理解する上でも、またEHDSにおけるデータの質に対するフレームワークを理解する上でも、このTEHDASの成果物を見ておくことは有益かと思います。
本文
それでは本論に入っていきます。
なお、いつものことですが、ちゃんと内容を理解したい方は是非原文をご覧ください(今回はだいぶ端折っています)。
提案
いきなりですが、この文書の成果として出された「提案」を以下に示します。
- データの「目的適合性」と、データが表す現実をどれだけよく反映しているかに焦点を当てた、データ品質の機能する定義を採用する。
- 信頼性(Reliability)、関連性(Relevance)、適時性(Timeliness)、一貫性(Coherence)、網羅性(Coverage)、完全性(Completeness)を、データの質の測定可能な次元(Dimension)として採用し、DQF(Data Quality Framework)に組み入れるべきである。
- 定期的な監査、よく整備されたDQF、データ処理に関連する明確な手順に関して、加盟国全体の機関レベルでの透明性に焦点を当てることを促進する。
- 国の管轄機関は、データ保有機関の品質保証の手順やEHDSのDQFに準拠したデータセットについて監査を行うべきである。
- データ保有者は、データ収集に関するデータの起源の情報や関連性および網羅性を含む収集データに関するメタデータと同様にデータの作成手順を公表する義務を負うべきである。
- イニシアティブは、継続的な改善、優れた実践の奨励、品質評価のためのツールキットの設計・開発・実施に焦点を当て、データの品質に焦点を当てた作業を支援するためにリソースを割り当てるべきである。
- 中長期的には、データの質を測定するための欧州全体のアプローチに沿って、データ管理者やデータ機関の調整を支援するベンチマークプロセスの開発を促進する。
結論的には上記の提案が全てと言えるのですが、もう少し文書の中身を見ていきます。
興味のある方は、引き続き以下をご覧ください。
背景・方法
このTEHDAS Task 6.1の活動目的は、「リアルワールドのヘルスデータの二次利用のためのEHDSデータ品質保証(Data Quality Assurance Framework)のフレームワークの開発」です。
その目的を達成するために、この活動ではデータ品質に関する知識を調査・統合し、優れたプラクティスを特定し、最終的には提案できるよう、以下の3つの手法を並行して走らせ、検討を進めています。
- テーマ別ワークショップとパートナー会議
- 既存のデータ共有イニシアティブの分析
- 文献のシステマティックレビュー
結果
主に以下の点からQDFを整理しようとしています。
- データ品質の定義
- データソースのレベルおよび組織レベルで適用されるデータ品質の主要な次元
- データ品質のベンチマークと評価のためのメカニズムおよびモデル
データ品質の定義
OECDやISOにおけるデータ品質の定義には、「fit for purpose(目的適合性)」について言及されています。
TEHDASの文脈(すなわちEHDSの文脈)では、ヘルスリサーチ、政策決定、規制(上の意思決定)の3つが主要な利用方法と考えられるため、これらの利用に適合していることが、研究目的でのデータの二次利用の定義に取り込まれるべきだと考えられたようです。
その結果、EHDSの目的のために提案されたデータ品質の定義は、以下のようにされました。
データの質とは、ヘルスリサーチ、政策立案、規制に関するユーザーのニーズに対して目的に適合しており、データが表現しようとする現実を反映していること。
「相互運用性(Interoperability)」はデータの高品質な再利用のための必須条件ですが、品質にとって重要な機能ではないと考えられているようです。
データ品質の主要な側面
データ品質の定義は、測定されるデータ品質の次元と、それらが測定されるレベルの定義がなければ、ほとんど意味がないとされています。
例えば、データソースレベルでは適時性が重要ですが、組織レベルでは透明性が重要になります。
ここでいう「レベル」は、「組織のレベル」と「データソース」のレベルの2つに区分されています。
一方、「次元(Dimension)」については世界では様々なものが提唱されていますが、例えばデータソース・レベルの次元としては、信頼性(Reliability)、関連性(Relevance)、適時性(Timeliness)、一貫性(Coherence)、網羅性(Coverage)、完全性(Completeness)の6つが選択されています。
データソースレベルの次元
データソースレベルでは以下の6つが最も重要な次元としてみなされています。
評価指標 | 定義 |
---|---|
信頼性(Reliability) | 評価する対象をどれだけ忠実に反映しているか、また、それが経時的にも一貫しているかどうか |
関連性(Relevance) | EHDSの利用者のニーズを満たしている |
適時性(Timeliness) | 合理的な期間内に収集し、合意した日付(例:意思決定者の決定時に近い日付)に収集・報告されている |
一貫性(Coherence) | 経時的にもデータ保有者間でも一貫性があり、他のデータソースと組み合わせたり比較することができる |
網羅性(Coverage) | データが母集団やイベントを適切にカバーしている度合い(=代表性) |
完全性(Completeness) | その変数にどの程度データがあるか? |
ちなみに、EMAが2022年10月10日に公表した「Data Quality Framework for EU medicines regulation(案)」では、網羅性(Coverage)と完全性(Completeness)がExtensivenessという概念に統合され5つの評価指標で整理されました。
なお、EUのData Quality Framework for EU medicines regulation(案)については以下に記載しております。
組織レベルのデータ品質次元
組織レベルでは、透明性が重要です。
項目 | 規制に関する事項 | 法的執行(推奨) | 法的執行(必須) |
---|---|---|---|
データ収集 | 定期的な監査 | ✓ | |
評価制度と公表(宣伝) | ✓ | ||
データ公開 | メタデータ・カタログ | ✓ | |
データ・コレクションをミラーリングした合成データセットの構築 | 変数レベルでの質に関する視覚的分析の公表 | ✓ | ||
データ提供 | 加工手順の明確化(ガイドラインの公開) | ✓ | |
意味のある再利用を妨げないー優先的な手順としての仮名 | ✓ | ||
監査可能なソフトフェア | ✓ |
これは組織レベルでのデータ品質の要素を説明するもので、データ保有者が監査される次元を明確にする必要があります。したがって、次元が重要になります。データ品質評価フレームワークの観点から、次元はデータ品質を評価する際に問われる主要な質問として要約されています。
- データ品質評価フレームは存在するか?
- 品質保証の手順について、定期的な監査が行われているか?
- 明確なデータ処理手順が運用され、ガイドラインが公開されているか?
- メタデータ・カタログは公開されているか?
さらに提案されたことは、データ利用者のフィードバックをデータ品質の次元に組み込むこと、特にデータの誤りを修正するためのツールとして組み込むことでした。
ユーザーはデータ収集における品質の様々な次元について知る必要があります。これはリンクされたデータソースにも、個々のデータソースでも同じです。
データ品質評価とベンチマーキング
データ品質は組織レベルで評価されるべきであり、EHDSのノードがデータ品質評価手順の透明性を確保し、実施する責任を負うべきという合意が得られるとともに、データ品質評価手続きは国のデータ品質改善努力と密接に関連させべきという点でも同意が得られているようです。
データ品質フレームワーク(DQF)の最低基準
データ品質イニシアティブの実施にはソフトローアプローチに焦点を当てなければならないことが認識されたようで、その理由としては、データの品質管理を義務化することはあまりにも困難であるという認識によるところが大きいようです。
また、患者やサービス利用者から最初に情報を収集する最前線での品質向上に焦点を当てるべきであるということで合意されたようです。
規制は、国レベルでは、教育や情報提供、自己評価や監査によるベストプラクティスの推進といった方向性で考慮されるべきという考えのようです。
ベンチマーキングモデル/システム
データ品質評価が先で、ベンチマーキングはその後で良いということが合意されているようです。
というのも、ベンチマークは中長期的な目標になり得ますが、最初の焦点は評価の立ち上げと実行であり、ベンチマークは標準化に関する他の作業が行われた後になるかもしれないからです。
よって、ベンチマークを最初のフェーズに含めることは困難であり、自己評価で使用されるための次元の運用に焦点を当てることが、重要な最初のステップとみなされています。
データライフサイクルにおける品質評価
品質評価は、以下のようなデータのライフサイクルの中で分けて考慮されることがあります。
- データ収集
- データ公開
- データ発見
- データアクセス
- データ利用
- データ分析
- 完了
以上、結論の中だけを見ても所々端折っていますが、これらの議論を元に、最初に示した「提案」の内容に繋がっております。