【EMA】RWDのデータソースのメタデータ・カタログの使用に関するグッドプラクティスガイド(案)について(前半)

医療データ
この記事は約27分で読めます。

 2022年9月にEMAは、「Good Practice Guide for the use of the Metadata Catalogue of Real-World Data Sources」という名前のガイドを公表しました。

 EMAが「ガイドライン」ではなく、「ガイド」といったものを公表するのは珍しいのではないかと思いますが、このガイドは同時期に公表され、下でも紹介した「Data Quality Framework for EU medicines regulation」と強い関係がある文書です。

 リアルワールドデータ(RWD)の利活用に関する研究は世界中で行われていますが、課題の一つが「データの質」に関するものです。

 データの質は「Fit-for-Purpose」の考え方をする上でも非常に大事な要素なので、データの質を評価する方法と、データの質を標準化した形で文書化する方法が求められてきました。

 そこでEMAは、データの質を評価するためのフレームワークとして「Data Quality Framework for EU medicines regulation」を提示し、もう一方の「データの質の定型的な文書化」の方法を示したのが、今回ご紹介するガイドとなっています。

 両文書とも案として公表され、2022年11月までパブコメが求められていました。今も(2023年2月現在)、案のままの状況です。

 ちなみにFDAも、RWDの質の文書化の方法について検討して、一部ガイダンスに組み入れられ始めています。

 RWDのメタデータやデータカタログについての検討が進められている状況もあるので、今回はこのガイドを見ていきたいと思います。

 ただ全体を一つの記事にすると長すぎたので、ユーザーガイドを区切りに前半と後半の2部構成にしました。

 続きは後半としてこちらに記載しております。

 それでは、早速本文に入っていきましょう。


Good Practice Guide for the use of the Metadata Catalogue of Real-World Data Sources

目次(前半・後半を含めた全体の目次)

略語集
用語解説

  1. はじめに
  2. 本書の目的
  3. カタログの形式
  4. データソースの適切性を評価するためのカタログの使用
     4.1. データソースの信頼性・妥当性
     4.2. カタログを用いたデータソースの適合性評価
     4.3. 使用例
      4.3.1. 研究の計画
      4.3.2. 試験プロトコールの評価
      4.3.3. 試験報告書の審査
      4.3.4. 試験計画書又は試験報告書の作成
      4.3.5. 複数のデータソースのベンチマーク
      4.3.6. 研究で使用したデータソースの分析
    ユーザーガイド
  5. メタデータのリストと定義の説明
     5.1. 「データソース」を特徴付けるメタデータ
      5.1.1. データソース – 管理上の詳細情報
      5.1.2. データソース – 収集されたデータ要素
      5.1.3. データソース – 定量的な記述事項
      5.1.4. データソース – データのフローと管理
      5.1.5. データソース – 用語集と標準化された辞書
  6. データソースカタログへのデータソースの登録
  7. データソースカタログの情報のメンテナンス
    参考文献

略語集

CDMCommon Data Model
EMAEuropean Medicines Agency
ENCePPEuropean Network of Centres for Pharmacoepidemiology and Pharmacovigilance
ETLExtract, Transform, Load
EU EUDPREuropean Union Regulation (EU) 2018/1725 on the protection of natural persons with regard to the processing of personal data by the Union institutions, bodies, offices and agencies and on the free movement of such data
EU PAS RegisterEuropean Union electronic register of post-authorisation studies
FAIRFindable, Accessible, Interoperable, and Reusable
FDAFood and Drug Administration
GDPRRegulation (EU) 2016/679 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation)
HARPERHARmonized Protocol template to Enhance Reproducibility
HMAHeads of Medicines Agencies
IDidentification
IMIInnovative Medicines Initiative
MINERVAMetadata for data dIscoverability aNd study rEplicability in obseRVAtional studies
OMOPObservational Medical Outcomes Partnership
RWEReal-world evidence
SIFPDStructured Process to Identify Fit-for-Purpose Data
TEHDASTowards the European Health Data Space

用語解説

  • カタログ:データセットに関する説明の集合体。データセットに関する説明の集合で、体系的に配置され、個々のデータセットのパラメータに関する情報にオンラインポータルを通じて電子的にアクセスできるユーザー指向の公開部分から構成される。
  • 共通データモデル(CDM):データの共通構造とフォーマット。例えば、ローカルデータに対してプログラムを効率的に実行するために、異なるローカルデータベースに対して同じ解析コードを効率的に実行するといった相互運用を可能にするデータの共通構造とフォーマット。
  • コントリビュータ: メタデータ・カタログにコンテンツを提供する機関。
  • データ品質:ヘルスリサーチ、政策決定、規制に関連するユーザーのニーズに対する目的適合性(fitness for purpose)を定義するデータソースの属性のセット
  • データソース:特定の組織・団体によって維持されているデータセット。データソースは、レコードを構成する集団、データソースにレコードを作成するきっかけ、データソースで使用されるデータモデルによって特徴付けられている。
  • データセット:電子ヘルスデータの構造化された集合体。
  • データの特性:定量的な指標を含む、データソースの特徴の要約。
  • データ保有者:自然人または法人で、医療・介護分野の事業体または団体、あるいはこれらの分野に関連する研究を行っている者、また、EUの機関、団体、事務所、当局であって、この規則、該当するEUの法律またはEUの法律を実施する国の法律に従って、あるいは非個人データの場合には製品および関連サービスの技術設計の管理を通じて、特定のデータを登録、提供、アクセス制限、交換することも含めて利用可能にする権利や義務を有している者を指す。
  • ETL(Extract, transform, load):データをあるフォーマットから別のフォーマットに変換するための反復可能なプロセスで、例えばソースの固有フォーマットから共通データモデルフォーマットへ変換することなどが挙げられる。このプロセスでは、標準化された辞書へのマッピングが加えられる。通常、自動化されたスクリプトのセットとして実装される。
  • FAIR(findable, accessible, interoperable, and reusable)原則:
    • 検索性(findable):分析に使用される(医療)データベースは、科学的見地から、将来の参照と再現性のために永続的であるべきである。目的、ソース、語彙と用語、アクセス制御機構、ライセンス、同意など、データベースの包括的な記録が利用可能であるべきである。
    • アクセス性(accessible):標準化され、十分に文書化された方法によってデータにアクセスできること。
    • 相互運用性(interoperable):組織、ソフトウェアアプリケーション、デバイスがサポートするプロセスを通じて、これらの組織、ソフトウェアアプリケーション、デバイス間でデータの内容を変更することなく情報や知識を交換し、相互に有益な目標に向かって相互作用する能力。
    • 再利用性(reusable):データが再利用可能であるためには、データのライセンスが他者によるデータの利用を明示的に許可する必要があり、データの出所(データがどのように存在するようになったかの理解)が特定され必要に応じて更新される必要がある。
  • 機関:データ保有者や研究を行う研究機関など、1つ以上のデータソースに関連する組織。
  • メタデータ:データセットに関する情報を記述したデータの集合。具体的には、データセットの生成、場所、所有権、主要変数、データ収集の形式(コード化、構造化、非構造化)などを記述した情報は、利用できる曝露・アウトカム情報を正確に特定・検証するために必要である。メタデータには、データの出所と期間も含まれ、対象となるデータを定義する入力、システム、 プロセスが明確に文書化されている。最後に、メタデータにはデータの保存、処理プロセス、アクセス、およびガバナンスの詳細が含まれる。
  • 基礎となる集団:データソースに情報を提供する可能性のある地理的な場所にいる個人の集団。これは、管理上の特性、疾病、病状、またはその他の関連する特性によって定義される集団である。
  • 用語(集医学用語。国際標準(例:ICD、ATC)または国・地域固有の体系もしくは修正版である場合がある。

1. はじめに

 規制当局の意思決定において、適切なデータソースの特定がますます必要になってきている。

 データに対するニーズが複雑化する一方で、実際のデータソースに関する標準化された情報や統計は不足している。メタデータは、特定の目的のためにデータを使用する際に、その意味をより明確に理解し、より高い信頼性と品質を達成するために他のデータを特徴付ける記述的なデータである。完全かつ正確なメタデータ情報の標準的かつ電子的なセットを利用することは、特定の研究に適した データソースを特定し、研究プロトコールや研究計画書に使用予定のデータソースの記述を容易にし、研究結果のエビデンス能力を評価することに寄与する。

 Heads of Medicines Agencies-European Medicines Agency (HMA-EMA) 合同ビッグデータタスクフォースは、勧告Ⅲ「データの発見力を高める-データソースの選択に関する規制当局の意思決定のための主要なメタデータを特定し、現在の欧州医薬品疫学・ファーマコビジランスセンターネットワーク(ENCePP)のリソースデータベースを強化し、最も適切なデータへの道しるべとし、FAIR原則(Findable, Accessible, Interoperable and Reusable)の使用を促進する (Enable data discoverability. Identify key meta-data for regulatory decision making on the choice of data source, strengthen the current European Network of Centres for Pharmacoepidemiology and Pharmacovigilance (ENCePP) resources database to signpost to the most appropriate data, and promote the use of the FAIR principles (Findable, Accessible, Interoperable and Reusable), HMA-EMA, 2020)」の一部として「メタデータの特定によるデータ発見性の促進」を勧告している。

 この使命を果たすため、EMAは2020年11月、「医薬品開発におけるリアルワールドデータの利用強化:Metadata for Data Discoverability and Study Replicability” (MINERVA; EU PAS Register number EUPAS39322)」の研究を実施した。この研究の主な目的は、リアルワールドデータソースに関する一連のメタデータを定義することであり、幅広い合意に達するための関係者の関与と、メタデータとパイロットに基づく推奨事項を説明したグッドプラクティスガイドの開発を含んでいる。

 MINERVA研究の結果とENCePPコミュニティやその他の関係者の協議に基づき、EMAはリアルワールドデータソースのメタデータを提供する電子カタログを開発中である。このカタログには2つの目的がある。1)規制目的での適切なエビデンスを生成するためのデータソースの発見を容易にすること、すなわち特定のリサーチ・クエスチョンを調査するのに適したデータソースの初期段階での特定を促進すること、2)研究プロトコールで使用することが提案されているデータソースや研究報告書で言及されているデータソースの適合性に関する情報への素早いアクセスを提供することによって、試験プロトコールと研究結果の評価を支援すること、の2つである。

 リアルワールドデータソースのメタデータカタログの利用に関するグッドプラクティスガイドは、リアルワールドデータソースのEUメタデータカタログの利用に関する推奨事項と併せて、規制当局、研究者、その他の利害関係者に提供するために作成された。

2. 本書の目的

 本グッドプラクティスガイドは、特定のリサーチ・クエスチョンに適したリアルワールドデータソースを特定し、研究プロトコールでの使用や研究報告において言及される予定のデータソースの適合性を評価するために、EUメタデータカタログの使用に関する推奨事項を提供することを目的としている。

 また、HMA/EMAがList of metadata for Real World Data cataloguesで発表した、EMAカタログで使用することを想定したすべてのメタデータ要素の詳細な説明を提供し、カタログへのデータの追加とメンテナンスのためのユーザーをガイドしている。

 カタログの公開は2023年後半を予定している。

3. カタログの形式

 カタログの構造は、MINERVAカタログ・パイロット・プロジェクトに基づくものである。データソースは、データ保有者である特定の組織によって保有されているデータコレクション(あるいは、リンクされたデータコレクションの集合)である。データソースは、潜在的にレコードを供給することができる基礎となる集団、データソースにレコードを作成するきっかけとなるイベント、およびデータモデルによって特徴付けられる。データを生み出す仕組みは、データソースによって様々である。したがって、カタログは、既存のデータソースの多様性を把握し、データの発見を容易にすることができるように以下のセクションに分けられる:特性、集団、データ要素、データフローと管理、用語集。

 このカタログは、質的情報と量的なメタデータ(例:集団の人数や背景分布)で構成されている。

 このカタログは、データ管理のグッドプラクティスに沿っている。

  • FAIRの原則に則り、データはFindable、Accessible、Interoperable、Reusableであり、EUのPAS登録や将来開発される他のカタログとも相互運用が可能である。
  • データ保有者によるメタデータの初期収集のためにコントロールされたデータ入力プロセスが実施され、 データ保有者と EMA との信頼関係によりメタデータの定期的な更新が予定されている。
  • データソースのデータ保有者が、対応するメタデータを編集できるようにするとともに、各データ入力の帰属を適切なバージョン管理によって追跡可能にし、データ保有者によるメタデータのコピー作成と更新を可能にすることによって、変更管理と再現性がサポートされている。
  • データソースの定量的なメタデータは、集団全体およびアクティブな集団のレベルで提供される。
  • 個人データは、欧州のデータ保護法、特に、規則(EU)2018/1725(EUDPR)および規則(EU)2016/679(GDPR)を適用して処理される予定である。この点に関して、EMAは必要に応じて処理活動の記録とデータ保護通知を公開する。インシデント管理システム、災害復旧計画、品質保証室など、品質管理プロセスが整備されている。

4. データソースの適切性を評価するためのカタログの使用

4.1. データソースの信頼性・妥当性

 研究で利用するデータソースの適切性を評価する際には、一次データ収集による研究と、患者モニタリング、 医療費償還、品質管理、その他の管理目的など別の目的のために既に収集されたデータを二次利用する研究との違いを考慮する必要がある。一次データ収集では、研究自身が収集したデータに関連するすべての品質管理の手順を適用し、管理する。二次データ収集では、既に収集されたデータの利用は、どのデータが最初の目的のために収集され、どのように生成されたかといったデータ品質や、データがどのようにコード化され、分類され、検証され、保存されたかといったデータプロセスの多くの局面に係わる既存のプロセスに依存する。

 従って、データソースの適切性の評価では、データの質について2つの大まかな側面を区別する必要がある;

  • エラー、欠損データ、不自然な値の検出と修正、フォーマット、コード、 値、時間的要素、基礎となる数字の検証と妥当性確認、各人に対する固有の識別番号の存在、人の入退室に関する標準的プロセスの記録などに基づく一次データの信頼性に関する質;この質の側面は、特定の研究での使用から切り離されたデータソースの特徴である。
  • 適切な疫学的・統計的手法の適用により、特定のリサーチ・クエスチョンに情報を提供する適切かつ有効なエビデンスをもたらすデータソースの関連性に係わる質;この側面は、研究に必要なデータの有無、集団に含まれるN数、集団の特性、コーディング用語、 データ要素の利用可能性と完全性、データの期間など、データソースの形式と内容に関する適切な情報が必要となる。この質の側面はリサーチ・クエスチョンに一部依存し、一部のデータ特性(一部のデータ要素や集団の年齢層など) はある研究には必要だが他の研究には不要な場合がある。

 リサーチ・クエスチョンに答えるためのデータソースの長所と限界、及びそれらが特定の研究に対するデータソースの適性に及ぼし得る影響を理解するために、いくつかのデータ品質フレームワークが提案されている。これらのデータ品質フレームワークは、含まれる特定の次元(これらの次元を説明するために使用される粒度や名称は様々)及びそれらを評価するために使用される方法に関して異なっており、いくつかのフレームワークはデータの信頼性と関連性の両方を扱うか、これらのうちの1つだけを扱っている。欧州では、TEHDAS(Towards European Health Data Space)プロジェクトが、信頼性(Reliability)、関連性(Relevance)、適時性(Timeliness)、一貫性(Coherence)、網羅性(Coverage)、完全性(Completeness)という、データソースレベルで最も重要と考えられる6つの次元を設定し定義している。

4.2. カタログを用いたデータソースの適合性評価

信頼性(Reliability)

 メタデータ・カタログは、データソースの適合性を初期評価するための情報を提供する。信頼性の以下の側面に関する情報が提供される。

  • データ管理。データ検証の可能性(要素 C2.7、C2.9、C8.5、C8.5.1)、CDM へのマッピング(D1.2.1.1、D1.2、D1.2.1、 D1.4 及び D1.7) を含む。
  • データソースのETLプロセス及びステータス(B7.1~B7.5)
  • 取得した認定規格(C3.1、C3.1.1)
  • データの取得と管理、データ品質のチェック、結果の検証に関するガバナンスの詳細(C2.3)
  • データの収集・記録プロセス(C4.3)、リンケージ情報(B5.2, B.5.2.1, B5.3, B4.1)
  • データソースで使用されている全ての用語集
  • データソースについて記述した出版物へのリンク(例:検証、データ要素、代表性)。

 信頼性のより詳細な評価、例えば記録や値の検証、参照値や妥当な値に対するデータバリデーション、 その他の計算のためには、生データや 計算資源へのアクセスが必要であろう。このような評価はデータ保有者が行い、定期的に更新することが望ましい。データ保有者は、評価や研究の再現を支援するために、評価の方法と結果を一般に公開し、相談に応じるべきである。

関連性(Relevance)

 メタデータカタログは、研究デザインに基づき、特定のリサーチ・クエスチョンを知らせる有効な証拠を生成するための データソースの関連性の初期評価にも適している。例えば、Structured Process to Identify Fit-for-Purpose Data(SIFPD)のステップ3や、Population, Intervention, Comparison, Outcome and Time horizon(PICOT) フォーマットを実施するために利用できる。またカタログは、HARmonized Protocol template to Enhance Reproducibility (HARPER) で推奨するデータソース一覧表に記載すべきデータ要素 も提供している。関連性の評価は、以下の変数の両可能性によりサポートされる。

  • 設定:県(郡)(C1.5)、地域(C1.5.1)、データソースの種類(C5.1 および C5.1.1)、ケアセッティング (C1.14)
  • 集団:集団全体およびアクティブな集団規模(C7.1)、対象地域においてデータソースがカバーする集団の割合(C1.11.2)、データが収集されていない集団の説明(C1.11.1)、年齢層(C1.8)、社会的属性情報(C6. 7)、ライフスタイル要因(C6.8)、家族リンケージ(C6.6、C6.6.1)、妊娠および新生児に関するデータの有無(C1.9)、登録のきっかけ(C1.6、 C1.6.1) および登録解除(C17.1、 C1.7.1) 、全個人の最初と最後の記録の期間の中央値 (B6.3) およびアクティブな個人( B6.3.1)
  • 曝露:処方および/または調剤(C6.13)、ATMPs(C6.16)、避妊(C6.17)、ワクチン(C6.19)、その他の注射剤(C6.19)、医療機器(C6.20)、処置(C6.21)、医薬品(C6.15.1)と適応(C6.18)、バイオマーカー(C6.26)に関してのデータの利用可能性
  • アウトカム:入退院(C6.10)、ICU入室(C6.10.1)、死亡および死因(C6.11)、臨床測定(C6.23)、遺伝データ(C6.25)、患者生成データ(C6.27)、ヘルスケア利用状況 (C6.29), 診断コード(C6.9)、特定疾患(C1.10)、疾患情報(C1.10.1)に関するデータの利用可能性
  • 時間要素:データソースが構築された日付(C4.5)、最初の収集日(C1.12)および最後の収集日(C1.13)、 データソースに取り込まれた個々人の最初と最後の利用可能な記録の期間の中央値 (B6.3)およびアクティブな個々人に関する最初と最後の利用可能な記録の期間の中央値(B6.3.1)

 EU PAS登録へのリンクにより、同じデータソースで実施された研究を特定することもでき、実施可能な解析の評価が可能である。

 適切なエビデンスを提供するためには、適切な疫学的・統計的手法を研究デザインに適用し、 リアルワールドデータソースから生成されたデータの解析と解釈を行う必要がある。これらの方法はメタデータカタログでは扱われていないが、他のガイダンス、例えば ENCePP Guide on Methodological Standards in Pharmacoepidemiology, 10th Rev. (2022)に記載されている。

4.3. 使用例

4.3.1. 研究の計画

使用例:研究者は、計画された研究に適したデータソースを特定したい。

 適切なデータソースを特定するためのプロセスは、6つの連続したステップを踏むことができる(図1)。

  1. 最初のステップでは、研究者はカタログを検索し、リサーチ・クエスチョンの仕様を満たす関連データソースを特定する。また、特定のデータソースの使用にあらかじめ関心がある場合は、そのデータソースのレコードにアクセスし、利用可能な情報を参照する。この検索では、まず事前に定義されたPICOT基準(4.1項参照)の評価に有用なデータ要素を使用し、適切と思われるデータソースを特定することができる。
  2. 第2段階では、研究者は候補となる各データソースのレコードにアクセスし、集団、曝露、アウトカム及び交絡変数に関するデータの利用可能性に関するより詳細な情報(定量的メタデータを含む)を選別し、そのデータソースがリサーチ・クエスチョンの解決に関連する可能性があることを確認する。
  3. 第3段階として、研究者はデータソースのガバナンス、利用可能性及び入手可能性に関する情報(C2.3)を参照し、それらが利用可能かどうか、またその利用に関わる条件、研究者が集約された情報を受け取る資格あるいは生データを入手する資格があるかどうかを判断する。
  4. 第4段階として、研究者はメタデータをスクリーニングし、特定の研究に関連するデータソースの重要な品質上の観点に基づいて、各候補データソースの信頼性を予備的に評価する(3.1 節参照)。データソースとその検証について記述された出版物を抽出し、参照することができる。これらの変数のいくつかが欠損していると、適切な品質管理プロセスの存在に疑念が生じたり、データ保有者が品質管理に十分な注意を払っているかどうかが疑われたりする可能性がある。
    この段階で、研究者は候補となるデータソースの最初のリストを作成する必要がある(特定のデータソースを前もって選択していない場合)。
  5. 第5段階では、研究者は同じデータソースで実施され、現在の研究と(テーマや研究デザインについて)類似したリサーチ・クエスチョンを扱った研究のEU PAS 登録へのリンクを利用する。計画中の研究と類似したトピックやデザインの研究を選択した後、研究者は研究情報にアクセスし、以下を行う。
  • PICOT基準に関して、データソースの適切性を確認する。研究計画書や研究報告書がアップロードされていれば、データベースの使用期間、データソースに由来するアクティブな研究参加者の数(本研究のサンプルサイズ算出に有用な情報を提供)、研究に使用したデータ要素(例:曝露およびアウトカム変数、交絡因子)、変数の定義および用語(および用語のマッピングの必要性)、データのカテゴリーへの変換およびそのデータで実行できる分析、といった、より細かい情報を抽出することが可能かどうか。
  • 研究プロトコールや研究報告書(もしあれば)で、関心のある疾患やアウトカム、その重症度を特定するために使用されたアルゴリズム(例えば、該当する場合は希少疾患のある人)、そのアルゴリズムで使用されたプロンプトやコンテンツを確認する。
  • データソースが、対象となるすべての変数(疾患の診断、重症度、治療、交絡変数など)を特定するのに最適でないという限界が認められる場合、そのデータソースの使用を再検討するか、場合によってはデータリンケージによって、そのデータソースから得られた情報を別のデータソースで補完する戦略を考案する必要がある。
  • ピアレビュー・ジャーナルに掲載された研究でデータソースが用いられているかどうかを調べ、研究の限界についてコメントする。

    特定の研究に対するデータソースの信頼性と関連性に関して不確実性が残る場合は、トピックや研究デザインの点で類似した研究の研究者に連絡して、追加情報を収集することができる。

    同じデータソースを使用した過去の研究が見つからない場合は、別の関連するデータソースについて利用可能な情報を調査することが望ましい場合がある。
  1. ここまでの手順がうまくいった場合、対象となるデータソースのデータ保有者に連絡を取り、そのデータソースを特定の研究に利用することの可能性と利用条件について話し合う。

4.3.2. 試験プロトコールの評価

使用例:ある研究のために提出されたプロトコールにデータソースが記載されており、評価者は、使用が提案されたデータソースの適合性を詳細に理解する必要がある。

 ユーザーは、そのデータソースがカタログに登録されているかどうかを確認することができる。プロトコールで既に利用可能な情報、不足している情報、または検証が必要な情報に応じて、ユーザーはカタログのさまざまなセクションにアクセスする。報告書に記載された研究集団の代表性を検証するため、ユーザーは地理的範囲、データソースの種類、ケア環境、データソースに人を登録するトリガーなどの定性的情報だけでなく、対象地域においてデータソースがカバーする集団の割合や、年齢区分ごとのアクティブな患者の推定サンプルサイズなどの定量的メタデータも検証することが可能である。

 データ要素のセクションでは、評価者はデータソースに集められた曝露、アウトカム、共変量に関する情報を見つけたり、研究のために抜き出すことは提案されておらず、研究に含めることが有用と思われるものを特定するかもしれない。

 また、変数を定義するために使用される語彙、データ収集のプロセス、CDM、ETL仕様、リンケージ戦略など、プロトコールの評価を支える技術的な情報も調査することができる。

 データソースの検証の程度や患者とのコンタクトの可能性から、製薬会社に研究を求めている規制当局の評価者は、追加のデータ検証を要求する必要性や可能性に関する情報を得ることができる。同じデータソースを使用し、EUのPASに登録された試験へのリンクにより、そのデータソースが使用されたユースケースとその長所と短所をさらに文書化することができる。

特定の場合を除き、データソースをメタデータ・カタログに登録する法的義務はありません。

しかしながら、データソースに関する公開情報がないと科学的信頼性や研究結果に対する国民の信頼性に影響を及ぼす可能性があるため、データソース保有者はそのデータソースを登録し、その記録を公衆衛生または規制目的で使用する場合には常に更新することが期待されます。

データソースユーザーが契約上の合意に基づいてデータソースを利用する場合、データソースをメタデータカタログに登録・更新することを契約に含めることができます。

4.3.3. 試験報告書の審査

使用例:あるデータソースが研究報告書または出版物に記載されており、読者はその結果を解釈するために、研究で使用されたデータソースの適合性を理解する必要がある

 このプロセスは、上述の試験プロトコールの評価プロセスに類似している。主な相違点は、試験報告書にはデータソースに由来する研究集団の特性に関する結果及び一般的に 定量的な情報が含まれているということである。従って、評価者は、試験報告書とメタデータカタログに記載された情報の相違を特定し、必要に応じて調査することができる。

 研究集団の記述、報告書に含まれるデータソースに由来するサンプルサイズ、分析に含まれる変数 の性質およびカテゴリー、ならびに提供されたコーディングシステムに対して、何らかの検証を行うことができる。また、データソースの特徴を把握することは、研究結果の解釈や、研究者自身の解釈から独立した研究の長所と限界の理解にも役立つ。

4.3.4. 試験計画書又は試験報告書の作成

使用例:研究者が研究プロトコールや研究報告書を作成する際、その研究で使用される、または使用予定のデータソースを記述する必要がある。他の出版物や他の文書で見つけたデータソースに関する情報は異質であり、研究で使用または使用予定の複数のデータベースの特性を比較することは困難である。

 研究者はメタデータカタログから各データソースに関する標準化された情報を抽出し、登録されたデータソースに関する公開情報への参照を提供することができる。研究者は、プロトコールの「方法」の項に、カタログに登録されているデータソースの識別番号とそのリンクを記載するか、または報告することができる。

 データソースがメタデータカタログに登録されていない場合、この登録はプロトコールまたは報告書の作成と同時に行うことができる。契約上の合意によりデータソースの利用を得た場合は、研究開始前にデータソースの登録または記録の更新を行うことをこの合意で規定することができる。

4.3.5. 複数のデータソースのベンチマーク

使用例:データ保有者やデータ利用者は、特定のデータソースの特性を、同じ集団を全体的または部分的にカバーする他のデータソースと比較したい場合がある。

 異なるデータソースは、主目的が異なったり、異なるデータ要素を含んでいたり、異なる集団グループを対象としていたりする。しかし、同じ国や地域で行われたいくつかの分析で得られた結果の異質性を理解するために、あるいはあるデータソースをゴールド・スタンダードとされる別のものと比較して検証するために、比較を行えることは重要である。この目的のために、メタデータ・カタログは以下を提供する。

  • 各データソースの特性について調和された記述であり、例えば対象となる年齢層における差異を比較することができる。
  • 異質性の原因を特定するための層別分析が可能な、共通の変数および変数カテゴリーに関する情報。
  • 同一人物に関するデータを一致させ、交絡因子などに関する追加情報を提供するための同一データソースへのリンケージ(またはデータソース間のクロスリンケージ)の可能性など、他のデータソースとのリンケージの可能性についての情報。

4.3.6. 研究で使用したデータソースの分析

使用例:研究者、統計家、分析者は、データ変換や統計解析のプログラミングにおいて、他の人の経験を参考にしたいと考えている。

 もし研究が CDMで実装されるなら、分析者はカタログの中でデータソースからCDMへのETL手順の仕様を見つけることができるだろう。データ保有者がデータソース全体をCDMに変換したか、あるいはその抽出部分のみを変換したかに関わらず、この情報はプログラマーがスタディスクリプトを開発する際のサポートとなる。EU PAS登録へのリンクを利用して、分析者は同じデータソースで実施され、EU PAS登録に登録されている試験の詳細情報にアクセスし、同じトピックや試験デザインを調査した試験を選択することも可能である。これらの研究のプロトコールや統計解析計画には、それぞれのデータソースにおける研究の変数をどのように運用するかについての情報が含まれている場合がある。また、詳細なプログラミングスクリプトは、GitHubリポジトリなどの公開リポジトリで入手できる場合がある。

 分析者は、分析終了時に、分析スクリプトを公開リポジトリに記録し、EU PAS登録にそのリンクを提供することで、透明性と品質管理を可能にし、再現性を促進することも求められる。


 以上が前半でした。

 続きの後半は以下になります。

タイトルとURLをコピーしました