2023年2月にFDAは、「Considerations for the Design and Conduct of Externally Controlled Trials for Drug and Biological Products」というガイダンス案を公表しました。

Considerations for the Design and Conduct of Externally Controlled

Considerations for the Design and Conduct of Externally Controlled Trials for Drug and Biological Products

　すなわち、リアルワールドデータ（RWD）などを外部対象として試験デザインを設計したり、実施する時のガイドラインであり、業界としては待ちに待っていたガイダンス（案）と言えます。

　2023年5月2日までパブコメ募集をしてから修正の上で固定されるようですが、今回は一足先にこのガイダンス案を見ていきたいと思います。

　ちなみに、個人的な感想としては、非常に内容が整理されたおり、要求している内容も極めて妥当であり、良くできたガイダンス案だと感じました。

Considerations for the Design and Conduct of Externally Controlled Trials for Drug and Biological Products (DRAFT GUIDANCE)

I. はじめに

　本ガイダンスは、医薬品の安全性と有効性のエビデンスを得るために、外部対照試験の利用を検討する治験依頼者と治験責任医師に対する推奨事項を示している。外部対照試験は、プロトコルに従って評価する治療法を受けている試験参加者のアウトカムと、同じ治療を受けていない試験参加者の集団のアウトカムと比較する。外部対照群には、以前から治療を受けている人、受けていない人のグループ（ヒストリカル・コントロール）、または同時期に別の環境で治療を受けている人、受けていない人のグループ（コンカレント・コントロール）が含まれることがある。

このガイダンス案の中では、以下の３つの単語は同じ意味で用いられています。

・clinical trials
・clinical studies

・clinical investigations

　本ガイダンスでは、潜在的なバイアスによる試験結果の妥当性に対する脅威についての議論を含め、医薬品の有効性と安全性を検討するための外部対照試験のデザインと解析に関する考慮事項を取り上げている6。様々なデータソースが外部比較試験の対照群となり得るが、本ガイダンスでは、他の臨床試験やレジストリ、電子カルテ（EHR）、医療請求などのリアルワールドデータ（RWD）のソースからの患者レベルデータの使用に焦点を当てている。また本ガイダンスでは、FDAとのコミュニケーションや外部対照試験からのデータに対するFDAのアクセス確保に関する考慮事項が説明されている。

外部対照群がRWDの使用を含む可能性があることから、FDAは、規制上の意思決定におけるリアルワールド・エビデンス（RWE）の使用に関するガイダンスを発行するという21st Century Cures Actの要件を満たすために本ガイダンスを発行しています。特に、FD&C法505条（c）に基づいて既に承認されている薬剤の新効能の承認のサポート、あるいは製造販売後の試験要求のサポートまたは充足のために役立つRWE使用の可能性について評価するものです。

　本ガイダンスは、患者レベルのデータではなく、要約レベルの推定値を使用するなど、他のタイプの外部対照については触れていない。また、本ガイダンスは、ナチュラルヒストリーを用いた研究のデザインと解析の詳細や、外部対照試験で用いることができる様々なデータソースの信頼性と関連性については触れていない。最後に、本ガイダンスは、従来の無作為化比較臨床試験において対照群を補完するために外部対照データを使用する際の考慮点についても議論していない。

　一般に、FDAのガイダンス文書は、法的強制力のある責任を規定するものではない。その代わりに、ガイダンスはトピックに関するFDAの現在の考えを記述しており、特定の規制または法的要件が引用されていない限り、推奨事項としてのみ見なされるべきである。ガイダンスにおけるshouldの使用は、何かが提案または推奨されているが、必須ではないことを意味する。

II. 背景

　臨床試験を実施する目的は、対象疾患に対する薬剤の効果を、疾患の自然経過の変化、プラセボ効果、バイアスの入った観察などの他の影響から見分けることにある。臨床試験は、参加者を治療群またはプラセボ（または他の対照）群にランダムに割り当てるもので、適切に実施すれば、こうした影響に関する比較群の相似性を最適に導き、群間で観察される結果の違いが対象治療に起因するかどうかについて結論づけることができるようにするものである。しかしながら、何十年もの間、FDAは外部対照の一種であるヒストリカル・コントロールを含む他の種類の対照の潜在的価値を認めてきた。これらの他の種類の対照を用いた臨床試験は、適切な場合には、連邦食品医薬品化粧品法（FD&C Act）の第505条（d）に基づき有効性に関する実質的証拠を示すために通常必要となる適切かつ十分に管理された臨床試験として機能しうる。

　外部対照試験では、比較する治療法について試験集団の無作為化を行わないことから、測定される結果に影響を与えうる既知の要因に関して、治療群及び対照群の集団は可能な限り類似している必要がある。これらの因子は、セクションIIIでより詳細に議論されるが、重要なベースライン特性（例えば、人口統計学的因子、併存疾患）、疾患属性（例えば、重症度、症状、罹病期間）、対象治療のフォローアップ開始、併用療法、および収集した臨床観察が含まれる。重要なことは、外部対照群を比較対象として臨床試験を実施することを選択する前に、治験依頼者と責任医師は、そのような試験デザインによって、薬物の効果を関心のあるアウトカムに影響を与える他の因子から区別し、規制要件を満たすことができる可能性を検討すべきである。

　外部対照試験デザインの適合性は、疾患の異質性（例：臨床症状、重症度、予後）、調査中の医薬品の予備的なエビデンス、関心のあるアウトカムを確認する方法、試験の目的が優越性か非劣性かを含む問題から、ケースバイケースで評価する必要がある。注目すべきは、疾患の自然史が明確に定義され、介入がない場合や利用可能な治療法では疾患が改善しないことが知られている場合、過去の情報が対照群として機能する可能性がある点である。例えば、腫瘍学分野では、介入なしに腫瘍の縮小が起こることは稀であるという理解が確立されているため、客観的な奏効率がしばしば単群試験のエンドポイントとして使用される。

外部対象試験デザインでの非劣勢アプローチは推奨されていません。

参考：Non-Inferiority Clinical Trials to Establish Effectiveness

　しかし、多くの状況において、外部対照群によって目的の薬剤の有効性を信頼性高く実証できる可能性は低く、スポンサーは疾患の有病率にかかわらず、より適切なデザインを選択すべきである。例えば、外部対照試験のデザインを使用するかどうかを検討する場合、治験依頼者は、疾患のナチュラル・ヒストリー、試験集団の予後の違い、治療割り付けの知識（盲検化の欠如）、又は併用療法の違いなどの他の要因に起因する結果から医薬品の効果を区別することができる証拠を得ることが可能かどうかを判断する必要がある。

外部対照試験に適さないシナリオとしては、対象となる疾患のナチュラル・ヒストリーが十分に理解されていない場合や、疾患経過は十分に理解されていると考えられるが変動しやすい場合などが挙げられます。

　本ガイダンスの残りの部分は、外部対照試験の実施を検討する際に、治験依頼者が一般的に遭遇する課題を特定し、対処することを支援することを目的としている。

III. 外部対照試験の計画と分析

A. デザインに関する考慮事項

1. 概要

　外部対照試験におけるバイアスの可能性を低減するためには、デザイン段階での取り組みが最も効果的であり、適切に選択されたデザイン要素により、治療効果を推定するために適切な分析方法が適用された場合の試験結果の解釈可能性に対する信頼が高まる。治験依頼者は、単群試験終了後に外部対照群を選択するのではなく、外部対照群や解析手法の選択を含め、外部対照試験を開始する前に試験プロトコルを確定する必要がある。（外部対照試験を実施する前に）プロトコールに明記すべき具体的なデザイン要素としては、適切な試験データソース、ベースラインの適格性（組入れ及び除外）基準、適切な曝露定義及びウィンドウ、十分に定義され臨床的に意味のあるエンドポイント、明確な分析計画、及び欠損データとバイアス源を最小限に抑えるためのアプローチなどがある。

　試験目的によって提起された臨床上の疑問を反映した治療効果の正確な記述を含むestimand frameworkは、外部対照試験の設計に使用することが可能である。エスティマンドは、概念的には、試験集団、関心のある治療と比較対象、関心のあるアウトカム、併発事象の扱い、要約指標で構成される。エスティマンドの要素の多くは、以下のサブセクションで個別に説明されており、これらの要素を一緒に考えることで、試験の目的、実施、解析、結果の解釈の整合性を図ることができる。

　外部対照群のデザインに関する考慮事項として、重要な交絡因子及びバイアス源に関するデータの測定及び分析方法に関する計画を予め定めることが挙げられる。外部対照試験における交絡因子を同定する能力は、概念的および実際的な懸念によって制限される。概念的には、外部対照試験デザインを用いて有効性のエビデンスを得ようとする場合、対象疾患のナチュラル・ヒストリーとアウトカムに影響を及ぼす関連予後因子について、十分な理解が必要であるが、検証は困難な場合が多い。例えば、あるアウトカムに対する重要な予後因子が不明であるため、外部対照群の開発過程において、そのような因子を治療群にできるだけ一致させるために用いることができない場合がある。

　現実的な観点からは、交絡因子と疑われるもの（例えば、喫煙歴、PS）に関する使用に適したデータが、患者または参加者によっては欠落していたり、治療群と比較して外部対照群では測定値が異なっていたりする可能性がある。したがって、治験依頼者は、外部対照試験が関心のある研究課題に答えるのに適したデザインであるかどうかを決定する前に、外部対照試験で使用されるデータソースにおいて、認識されている重要な予後特性を評価できることを確認すべきである。特に、2つの試験群間の差のコントロール（III.C項参照）は、異種の集団が増えるほど困難になるため、外部対照群のソース集団は治療群の集団とできるだけ比較可能であるべきである。

　外部対照試験において、測定不能な交絡、盲検化の欠如、その他のバイアスの原因を排除することはできないが、交絡とバイアスの程度を評価し、その影響を軽減する分析方法は、こうした試験を実施する上で決定的に重要である。このような課題を考えると、外部対照試験は、関心のあるアウトカムに対する効果の大きさが大きいと予想される場合に、説得力のある結果を提供する可能性が高くなる。

2. 研究対象集団の特徴

　無作為化が行われない場合、外部対照試験における主要な懸念は、外部対照群の結果に影響すると思われる患者の属性が、試験の治療群の参加者の対応する属性と異なるということである。治療群と対照群の参加者または患者のベースライン属性が異なる可能性のある例として、人口統計学的および関連する因子（例えば、年齢、性別、人種、社会経済的地位、地理的地域など）が挙げられる。

　また、疾患の特徴（例：重症度、期間、特異的な徴候や症状、PS）、予後または予測バイオマーカー、併存疾患、以前に受けた治療や現在受けている治療などが、類似しない可能性があるが、しばしば対処が困難な属性として含まれる。ベースライン特性を考慮する場合、具体的な課題としては、(1)関連する交絡因子が知られているか、十分に特徴づけられているか、(2)そうした交絡因子が把握されているか、(3)これらの因子が適切な方法で評価されているか、比較群間で同様に測定されているか、(4)試験の分析方法が比較群間の臨床特性の差に十分に対応しているか、などがある。

　具体的には、治療群と比較可能な集団を得るために、適格基準を外部対照群にどの程度適用できるかが考慮される。さらに、同時対照群を使用しない限り、治験依頼者は、対象疾患の診断基準やその他の関連するベースライン因子、あるいはそれらの因子に関するデータを確認するための手法が、データ収集期間中に変更されたかどうかを検討する必要がある。従って、外部対照試験のプロトコールには、多くのRWDソースで得られる情報の限界を認識した上で、治療群と外部対照群の類似した患者を選択できるような方法で基準を適用できるかどうかを判断するために、適格性基準を評価するための具体的な計画を含める必要がある。

3. 治療法の特徴

　適切にデザインされ実施された無作為化試験において、観察された有効性と安全性の結果の違いは、一般的に治験薬に起因するものであるが、外部対照試験においては、文書化されていないか説明できない、治療群と外部対照群の治療に関する重要な不均衡の可能性が懸念されるため、その結果に対する信頼度は低下する。このような不均衡は、対象となる治療（例えば、アドヒアランス、投与量、開始時期、治療期間）および追加治療の実施に関連する因子が含まれる可能性がある。これらの懸念は、外部対照群のデータがRWDのものである場合に予想され、このセクションの残りの部分ではそのようなデータソースに焦点を当てているが、データが他の臨床試験から来た場合にも不均衡の可能性が存在しうる。

　臨床試験のプロトコールには、通常、関心のあるアウトカムに影響を与える可能性のある併用療法や支持療法（非処方薬も含む）の使用に関するデータを収集する計画、及びそれらの療法の特性や投与に関する詳細なデータが含まれている。例えば、薬剤の剤形、用量、力価、投与経路、投与時期、頻度、投与期間などであり、特定の薬剤については、投与量の変更、中断、中止に関する具体的な規則がプロトコールに規定されている。一方、日常診療におけるこのようなデータの記録は完全または正確でない場合があり、RWDは治療の実施または併用療法や支持療法の使用に関する情報を記述した包括的な詳細を欠いている場合がある。例えば、追加の治療法（例えば、がん患者を治療する際の放射線治療や外科的介入）に関する適切なデータは、特定のデータソースでは得られない場合がある。さらに、治療又は疾病に関連する有害事象の管理は、試験プロトコールと比較して、事前に定義されていないか、一貫して記載されていない可能性がある。

　その他の要因も、患者が受ける治療やケアの提供、および臨床ケアからのデータを分析する際のそれらの治療に関連する結果の評価に影響を与える可能性がある。例えば、健康を追求する行動の違い、保険適用範囲（処方薬計画を含む）、臨床ガイドラインの採用、新規治療法の利用可能性、コンパニオン診断検査（例：対応する治療製品と一緒に用いられる遺伝子検査）の使用などである。救急部や集中治療へのアクセス、専門外来の利用可能性と連携、大学病院と地域医療の設定も、医療制度内または地理的地域間で著しく異なる場合がある。これらの要因および他の医療提供要因ー患者、医療提供者、または医療システムのレベルではー、治療法の選択に影響を及ぼしうる。このような因子は、外部対照試験で同定され、十分に説明されるべきである；さもなければ、別のデザイン手法（例えば、ランダム化比較試験）を検討すべきである。

4. Index Dateの指定（タイムゼロ）

　外部対照試験を計画する際に特有の困難な課題は、エンドポイントを評価するための観察期間の開始日である指標日（time zeroまたはzero timeとも呼ばれる）を特定することである。外部対照試験では無作為化が行われていないため、試験群によって指標となる日付の決め方が異なると、効果推定値に偏りが生じる可能性がある。無作為化試験における治療群および対照群のindex dateは、通常、適格性基準が満たされたと判断され、各参加者の意図する治療戦略に関して決定がなされた時点とされる。しかしながら、RWDに依存する外部対照試験では、対照群の指標日が様々な方法で割り当てられうる。治療開始または他の重要なランドマークとなる時間と比較して、この日に治療群によって時間的な差がある場合、観察された治療効果に偏りが生じる可能性がある。

　治療群および外部対照群におけるindex dateの決定は、関心のあるアウトカムが2つの群のいずれかで発生し得なかった期間（immortal time）を含む分析を避けるべきである。外部対照試験において、比較した群間で指標日を設定しない場合、immortal timeによるバイアスが発生する可能性がある。例えば、time-to-event死亡エンドポイントを含む外部対照試験で、先行治療が失敗した時点がindex dateとして設定されている場合を考える。治療群の参加者の分析に、実際に目的の薬剤を投与された者のみを含める場合、適格性の決定（すなわち、事前の治療に失敗した）から治療開始までの期間はすべてimmortal timeであり、つまり、その人は薬剤を受け取るためにその期間を生き残らなければならず、分析に計上されなければならない。対照的に、外部対照群の患者が適格性判断（すなわち、失敗した前治療）の後、その後の治療を受けなかった場合、これらの患者は生存に関係なく解析に含まれることになる。したがって、生存期間が非常に短い患者は、対照群には含まれるが治療群には含まれず、薬剤が実際よりも有効であるように見えるバイアスが生じることになる。

無作為化試験における潜在的なimmortal timeは、治療群間でバランスが取れていることが期待されています。

　外部対照試験においてimmortal timeに関連して生じる可能性のあるバイアスを評価する場合、指標となる日付を割り当てることに関連する臨床状況を考慮する必要がある。具体的には、治療方針が個別の識別可能な臨床的事象の直後に割り付けられた場合、比較群のindex dateはその事象の発生時間によって合理的に決定されるかもしれない。例えば、急性心筋梗塞、脳卒中、心不全の入院後に治療を開始する場合、これらのイベントは治療群と外部対照群の両方のindex dateを特定するのに、より適していると考えられる。一方、心不全症状の悪化や高血圧のコントロール不良など、対象となる治療を促す事象が個別的で容易に特定できない場合、適切なindex dateの決定が困難であったり、不可能であったりする場合がある。また、外部対照群の治療方針が無治療である場合、index dateの特定は特に困難となる可能性がある。

5. アウトカムの評価

　外部対照試験において治療に対する盲検化が行われていないことは、特定のアウトカムを検討する際に、患者、介護者、臨床医、治験責任医師が特定の治療について知っていることが、治療の効果の偏った推定につながる可能性があるという課題を提起することがある。したがって、可能な限り、また適切なエンドポイントについては、アウトカムを治療の有無にかかわらず評価する必要がある。場合によっては、この作業は、盲検化された独立中央審査などによって、外部対照群のデータの再調整を求められるかもしれない。また、治療群と外部対照群のアウトカム評価が、関係するデータソースやアウトカムの設定に使用された基準に基づいて異なる場合、偏りが生じる可能性がある。治験依頼者は、外部対照試験の結果が信頼できるものであるために、治療群と外部対照群の間で一貫したアウトカム評価を行うよう努めるべきである。

　無作為化試験で一般的に用いられる、明確に定義され、信頼性が高く、臨床的に意味のあるアウトカムは、外部対照試験を検討している RWDソースでは特に確認および評価が困難な場合がある。例えば、腫瘍学の対照試験における放射線学的エンドポイント（例えば、客観的奏効率及び無増悪生存期間）は、予め規定された画像評価頻度及び固形腫瘍における奏効評価基準（RECIST）の標準化された測定基準に基づいている。しかし、日常的な臨床治療では、放射線評価の頻度は変動し、正式な腫瘍測定が日常的に実施または記録されない場合があり、EHRからのデータなどの外部対照データを用いた無増悪生存期間または客観的奏効率の有効な評価を困難にしている。同様の考察が、座る能力または歩行能力などの運動マイルストーンの評価にもあてはまり、臨床試験で用いられる方法と比較して日常臨床では通常同じ厳しさで記録されない。別の例として、無作為化試験は、特定の臨床的実体（例えば、内視鏡検査によって確認された重度の炎症性腸疾患の活性）を検出または確認するための特定の検査を含むかもしれないが、一方、臨床ケアでは、同じイベントを識別し確認するために様々な戦略が使用されるかもしれない。場合によっては、またアウトカムによっては、ある事象（例えば、特定の分類システムによる心不全状態の悪化）の発生が臨床治療で評価されなかったり、評価されたとしても記録されなかったりすることがあり得る。一般的な考察として、関心のあるアウトカムは、事象が客観的であり、かつ/または即時の医療処置を必要とする場合（例えば、脳卒中や心筋梗塞）、臨床記録に記録される可能性が高くなる。

　外部対照試験におけるアウトカムを検討する場合、治験依頼者は、外部対照群と比較して治療群におけるアウトカム評価のタイミングの一貫性を評価することも必要である。一般に、対照群のアウトカム評価の時期及び頻度は臨床治療中に決定され、患者の臨床状態に影響される可能性があるが、治療群のアウトカム評価はプロトコールで規定される。さらに、外部対照群のデータがRWDではなく他の臨床試験のものであっても、アウトカムの確認方法が治療群とは異なる場合がある。したがって、治験依頼者は、外部対照試験データの解析において、関心のあるアウトカムをどのような期間、どのような間隔で評価すべきかを最初に決定すべきである。このような決定に基づいて、治験依頼者は、アウトカム評価の利用可能性とタイミングが、検証される研究仮説に対して、外部対照試験の両群間で十分であり、比較可能であるかどうかを評価することができる。

RWDの一種のレジストリーは、あらかじめ決められた一定の間隔でデータを収集することできますが、EHRや医療請求データは一般的にはそのようなことはできません。

　外部対照試験で評価するアウトカムの選択を検討する際のさらなる課題として、臨床的、X線、血清学的、またはその他のアウトカムの異常を構成するものについての診断基準の時間的な変化がある。従来の無作為化試験では両群とも同様の影響を受けるが、広範な異質性または診断基準の大幅な変更は、同時期の外部対照群を用いない場合（または、異なる診断基準を反映する合理的に同時期の外部対照群を用いる場合）、アウトカムを分析する際に偏りをもたらす可能性がある。バイアスを生じさせるもう一つの課題として、臨床試験でサロゲートアウトカムとして使用されたバイオマーカーが、臨床では異なる目的で使用されたり、臨床で使用されたバイオマーカーが臨床試験で使用されたアッセイと比較可能であるという点で十分に特性化されていない場合がある。

　さらに、関心のあるアウトカムに対する治療効果の測定を妨げたり、その解釈可能性を損なったりするような、同時発生する事象の捕捉の差によって、さらなる課題が生じる可能性がある。例えば、関心のある薬剤の治療開始後の補助的な治療の開始は、臨床試験ではプロトコールにより決定され、来院時に記録されるが、日常診療のデータでは、追加の治療が正確に記録されない場合があり、試験結果に対する治療の効果の解釈に支障をきたす可能性がある。

　例えば、日常診療の場では、臨床試験の場と比較して、そのような評価の定義と使用に関する標準化と訓練がまったく行われていない可能性があり、外部対照群の測定値に高い変動や偏りをもたらす可能性がある。したがって、無作為化試験で許容される臨床アウトカム評価は、外部対照試験で使用するには適さないかもしれない。

B. 外部対照群のデータに関する考慮事項

1. 臨床試験からのデータ

　外部対照群に別の臨床試験のデータを使用することは、プロトコールに基づく（したがってより一貫性のある）データ収集の厳密さに一部基づいて、通常の臨床治療中に収集されたデータを使用することと比較して利点があり得る。しかし、このような使用は、参加者の適格基準、治療管理、ケアのパターン（例えば、治療施設の場所）、併用薬の記録、有害事象とアウトカムの評価に関して、2つの試験群間で比較可能な場合にのみ適切である。バイアスが特に懸念されるのは、アウトカムが既に分かっている終了した試験から外部対照群を選択することであろう。これは、外部対照群の結果が過去の経験と矛盾している場合に特に問題となる。さらに、他の臨床試験のデータを外部対照群として使用する場合、治験依頼者は欠損データの範囲と理由、試験結果の解釈可能性にどのような影響を及ぼすかを検討すべきである。

　多くの場合、外部対照試験における治療群と対照群のデータは、異なる期間に収集されたものである。患者集団における予測・予後バイオマーカーの使用など、疾患の評価及び管理（支持療法を含む）が時間の経過とともに変化する場合、同時進行のデータ収集の欠如が特に懸念される場合がある。例えば、ある種の癌を含む先行試験では、新しいバイオマーカーや関心のある特定の遺伝子変化や腫瘍の変異負荷に関する情報を持っていない場合がある。したがって、治験依頼者は、外部対照試験を計画する際に、特定の臨床試験のデータを外部対照群として使用することが正当化されるかどうかを評価する必要がある。

2. RWDソースからのデータ

　研究以外の目的で患者から収集したRWDを外部対照群として使用する場合、参加者の特性、データ収集の時期と頻度、および診療パターンの比較可能性に関する前節で述べた懸念に対処すべきである。さらに、日常的な臨床診療の一部として得られたRWDからの欠損データに関する特定の懸念は、外部対照試験の結果の妥当性を脅かす可能性がある。例えば、最初に適格基準を満たした患者が、外部対照群から（例えば、医療提供者を変更したために）フォローアップを受けられなくなる可能性がある。さらに、関心のある疾患を持つ患者を含むデータセットが利用可能であっても、適切な比較を可能にするために、関連する臨床特性（例えば、関心のあるアウトカムに対する予後因子）に関する十分な情報があることが保証されない。

3. 試験群間におけるデータの比較可能性を評価するための考慮事項

　下の表は、治療群と外部対照群のデータの比較可能性に関する、上述の重要な検討事項をまとめたものである。各考慮事項の妥当性は、治療群の属性、外部対照群の選択したデータ源、試験の段階（デザイン、実施、解析）により、ケースバイケースで異なる可能性がある。

比較の焦点	データの比較可能性に関する考察
期間	対象疾患の標準治療、治療法の種類、支持療法レジメン、疾患の反応や進行を判定する基準など、臨床治療の様々な側面が時間の経過とともに変化することがある。このような時間的な差は、統計解析だけでは対応することが困難である。治療群と外部対照群の時間軸の違いが試験結果の解釈可能性に影響を与えるかどうか、またどのように影響を与えるかを検討することが重要である。
地域別情報	健康関連のアウトカムに影響を与える標準治療やその他の要因（例えば、治療へのアクセス）は、地理的な地域や医療制度によって異なる場合がある。可能であれば、外部対照試験において、参加者または患者を地理的地域や医療制度間でバランスよく配置することは、そのような違いに基づく交絡の影響を軽減するのに役立つ。
診断	診断を確立するために使用される基準は、診療のばらつきによって異なる可能性があり、また、試験の治療群が実施された時点と外部対照群のデータが収集された時点の間に変更された可能性もある。治験依頼者は、使用された診断基準、及び診断を確立するための関連する臨床検査が実施され、比較された群間で等しく報告されたかどうかを検討すべきである。
予後	人口統計学的および臨床的特徴に基づき、また、関連する予後因子に関する十分な知識がある場合には、試験の各群の参加者または患者の予後指標を評価し、治療と結果の関連を公平に評価するのに十分な類似性があることを示す必要がある。
治療	対象となる治療の属性（薬剤の処方、用量、投与経路、タイミング、頻度、期間、及び用量変更、中断、中止、遵守に関する具体的な規則など）は、治療群では事前に指定されているか測定されているはずである。一方、外部対照群における比較対象治療（該当する場合）の特定の側面は、データソースによってはプロトコールに従ったものではない可能性がある。したがって、治験依頼者は、外部対照群のデータを治療群のデータと意味のある形で比較することができるかどうかを評価する必要がある。
その他の治療関連要因	治療に関連する様々な考慮事項には、（1）以前に受けた治療（例えば、がん患者の治療ライン）、（2）関心のあるアウトカムに影響を与えうる併用薬、（3）関心のある治療に関連する予測バイオマーカー（例えば、ゲノム検査）、などがある（関連する場合）。比較するグループ間で分布が異なる場合、そのような因子は薬剤とアウトカムの関連性の評価を脅かす可能性がある。
フォローアップ期間	index dateは治療群と外部対照群の間で一致させるべきであり、追跡期間の長さは比較した群間で比較可能であるべきである。
同時発生イベント	治療群間の同時発生イベントの関連性については、対象となる治療開始後の追加治療の使用の差も含めて評価する必要がある。
アウトカム	外部対照試験で使用されるエンドポイントが、外部対照群と治療群の間で信頼性が高く一貫して測定できるかどうかは、エンドポイントの定義、外部対照群のデータソース、受けた治療に関する知識によってアウトカムが影響される可能性を含むいくつかの要因によって影響される。さらに、治験依頼者は、外部対照試験の両群にわたって、アウトカム・アセスメントの評価と時期について同じ基準を適用することができるはずである。
欠測データ	外部対照群の欠損データの程度は、実施可能性を評価するために外部対照試験を実施する前に評価されるべきである（そのようなデータが利用可能な場合）。そのような試験の結果を分析する場合、治療群と外部対照群の両方における欠損データの程度を評価し、欠損データの潜在的な影響を検討すべきである。

　上の表に示した検討事項は、外部対照試験の妥当性に対する潜在的な脅威を理解し、管理するためのものである。試験群の比較可能性に関する追加的な検討事項は、特定の外部対照試験に関連する場合がある。

C. 解析に関する考慮事項

1. 一般的な考慮事項

　外部対照試験を実施する前に、治験依頼者は、主要及び副次評価項目の分析、統計的検出力とサンプルサイズの計算、誤った結論の可能性をコントロールする計画（例：全体的なタイプIエラー確率のコントロール）等、関心のある分析をあらかじめ規定した統計解析計画を作成する必要がある。統計解析計画は、実験的治療の臨床試験への登録開始前に、プロトコールとともに関連する審査部門に提出されなければならない。さらに、外部対照試験における試験デザイン及び統計解析計画に関する決定は、主要な変数の利用可能性や欠損データの評価など、計画されたフィージビリティ分析を除き、観察された外部対照データ（例えば、既存のRWDソースからの）に対して盲検化されるべきである。外部対照試験実施中、特に既に収集されたデータを解析する場合、統計解析計画の変更は推奨されない。それにもかかわらず、そのような変更を実施する場合、すべての改訂は、日付のスタンプと対応する根拠を提供し、関連するFDA審査部門と議論する必要がある。

　FDAは、外部対照試験からのデータを分析するための特定のアプローチを推奨しない。外部対照群を含むすべての試験に適した統計・分析方法はなく、可能性のあるアプローチについては、適切なFDA審査部門と協議する必要がある。治験依頼者は、治療の効果を評価するために使用した方法の長所と限界の説明と同様に、選択した分析方法の正当性を説明する必要がある。一般的に、使用される分析方法は、試験群間のベースライン因子や交絡変数の違いを考慮する戦略を含め、交絡やバイアスの原因を特定し管理する必要がある。

　このような種類の比較には、様々な統計的方法論が適切であり、それぞれバイアスを考慮するアプローチに関する複雑さが対応するレベルである。このような仮定を明示し、感度分析やモデル診断を実施して、その仮定を検討する必要がある。しかし、重要なことは、分析の枠組みに複雑さを加えることは、通常、追加の仮定を必要とし、それはしばしば実証されず、結果の解釈可能性を損なう可能性があるということである。

　治験依頼者は、試験群集団のバランスをとるための解析手法を採用する場合でも、重要な共変量について外部対照群と治療群との実際の比較可能性を評価するための追加解析を提案するべきである。試験群間の類似性を判断するためには、比較する特定の集団特性、比較方法、類似性を証明する基準を選択することが必要となる。例えば、外部対照群の共変量の統計的分布が、重み付けなどのバランス手法を適用した後の治療群の集団と類似しているかどうかを判断するために、先験的な閾値を設定することができる。

　また、利用可能な科学的データに基づき、主要評価項目の分析で予想される効果の大きさを考慮する必要がある。特に、予想される効果の大きさが小さい場合、結果に影響を及ぼすバイアスの懸念から、外部対照試験は適切な試験デザインではない可能性がある。さらに、治験依頼者は、交絡因子及びバイアス源の影響を評価するための先験的計画を策定し、これらの懸念を評価するために定量的又は定性的なバイアス分析を行うべきである。このような事前に特定した分析は、試験結果の解釈を助けることができる。

2. 欠損データ

　提案する分析手法には、選択したデータソースにおいて、患者との面談中に行われた評価の種類と頻度、患者の追跡調査が終了した、あるいは他の理由に基づいて利用できない可能性のあるデータを含む欠損データに対処する戦略を含めるべきである。このような状況では分析的手法（欠損データの代入戦略など）を用いることができるが、これらの手法には欠損情報のパターンに関する仮定が必要である。31 非ランダム化設定における治療効果の推定に必要な他の仮定に加えて、欠損データに関する仮定は検証不可能である場合があり、正当化が困難である場合がある。

　欠損データの潜在的な影響を理解するために、欠損データに関連する情報（例えば、欠損データのある患者とない患者の利用可能な特性）を取得し、分析する外部対照試験を計画する必要がある。主要な解析において欠損データに起因する潜在的なバイアスに対処するために、上述のような分析手法を用いることができる。さらに、感度分析を用いて、欠損データの仮定におけるもっともらしい逸脱が主要な解析結果に及ぼし得る影響を評価すべきである。

　場合によっては、同時発生する事象のためにデータが欠損し、アウトカムの測定や治療効果の推定に支障をきたす可能性がある。試験の解析計画及び適切な推定値は、治療と関心のあるアウトカムの両方に関連する可能性があると考えられるあらゆる同時発生事象を考慮する必要があり、ある種の同時発生事象は外部対照群のデータでは検出が困難であることを認識する必要がある。例えば、研究プロトコールに従って収集されたデータとは対照的に、RWDのデータソースは同時発生イベントの発生時刻を把握できない場合があり、無増悪生存期間などのtime-to-eventエンドポイントを正確に評価することができなくなる。

3. 利用可能なデータの誤分類

　外部対照試験、特にRWD情報源を用いた外部対照群におけるデータの誤分類（mischaracterization）は、その後の解析のために測定値が誤ったカテゴリーに割り当てられた場合に起こり、観察された薬剤と結果の関連性の推定に影響を与える可能性がある。例えば、日常診療で収集されたEHRデータには、アルコール使用などのライフスタイルの特徴に関する情報が含まれることがある。スティグマやその他の要因により、患者がアルコール摂取について不正確な報告をする可能性があるという懸念に加え、様々なデータソース内またはデータソース間でアルコール使用を分類するために用いられるアプローチの違いが、誤った分類を引き起こす可能性がある。例えば、日常的な臨床診療では、医療従事者によってアルコール摂取に関する量的・質的説明が異なる場合があり、実際の摂取量が同じ患者でも、RWDのデータソースでは2つの異なるカテゴリーに分類される場合がある。

　誤分類が広範囲に及ぶ場合、特に治療、アウトカム、交絡因子に関する情報が関与する場合、薬剤と結果の関連性に偏りが生じる可能性がある。例えば、アルコール摂取の誤分類に関する上記のシナリオは、外部対照試験の分析において、アルコール使用が重要な交絡因子（共変量）となる可能性がある場合に関連するものである。誤分類の潜在的な影響を評価するために分析的モデリング手法を用いることもできるが、偏りを避けるための最善の戦略は、対象データについて客観的で信頼性の高い測定値を用いることである。例えば、構造化された質問票を使用して収集されたアルコール摂取に関する情報を含むRWDソースは、一般に、患者の日常診療中に得られた患者報告および臨床医の記録値よりも信頼性が高い。

4. 追加解析

　治験依頼者はまた、特定の感度分析を用いて、解析計画の仮定に対する試験結果の脆弱性を検証することができる。例えば、time-to-eventエンドポイントの主要な解析が比例ハザードを仮定している場合、適切な感度解析は比例ハザードを仮定しない統計手法による推定が可能である。最後に、事前に指定された補助的解析は、治療効果の更なる理解をもたらすことができる。例としては、アウトカムの予後因子に基づく事前に指定されたサブグループでの補助的な解析がある。

IV. 規制当局の審査をサポートするための考慮事項

A. FDA とのコミュニケーション

　治験依頼者は、無作為化対照試験に代えて外部対照試験を実施することが妥当かどうか、医薬品の開発計画の早い段階でFDAの関連審査部門に相談する必要がある。これらの議論の一環として、治験依頼者は、(1)提案された試験デザインが適切である理由、(2)外部対照群のデータソース案とそれが使用に適している理由の説明、(3)計画された統計解析、(4)データ提出に関するFDAの期待に応える計画について詳細な説明を提供する必要がある。

B. データ及び文書へのアクセス

　治験依頼者は、治療群と外部対照群の両方について、FDAの規制33の下で要求される患者レベルのデータ（すなわち、外部対照試験の各参加者と患者に関するデータ）を販売申請書に記載しなければならない。治験依頼者が外部対照群に使用したデータを所有していない場合、データ所有者との契約を構築し、販売申請のサポートとして患者レベルのデータをFDAに提供できるようにする必要がある。治験依頼者はまた、FDAの査察の一環として、あるいは要求に応じて、FDAが外部対照群の原資料とソースデータにアクセスできるようにしなければならない。

用語集

バイアス（Bias）：研究のデザイン、実施、分析、解釈における系統的な誤りであり、関心のあるアウトカムに対する治療効果の誤った推定をもたらすもの。

交絡（confounding）：治療効果の測定値を歪めてしまうこと。治療とアウトカムの両方に関連する他の因子によって、治療がアウトカムに及ぼす効果の測定値が歪められること。

同時発生イベント（Intercurrent Event）：治療開始後に発生し、関心のある臨床的問題に関連する測定値の解釈または存在のいずれかに影響する事象。例としては、治療の切り替えや中止、救援物資の使用、死亡などの終末的な事象の発生などがある。

リアルワールドデータ（Real-World Data：RWD）：様々な情報源から日常的に収集される患者の健康状態及び／又はヘルスケアの提供に関するデータ。

リアルワールド・エビデンス（Real-World Evidence：RWE）：RWD の分析から得られた医薬品の使用法及び潜在的なベネフィット又はリスクに関する臨床的なエビデンス。

ソースデータ（Source Data）：（臨床研究における）臨床所見、観察、その他の活動の原記録及び認証済みコピーに含まれる、研究の再構築と評価に使用されるすべての情報。ソースデータは原資料（すなわち、原記録又は認証済みコピー）に含まれるものである。

原資料（Source Documents）：文書、データ及び記録（例えば、病院記録、臨床及び事務チャート、実験ノート、覚書、被験者の日記又は評価チェックリスト、薬局の調剤記録、自動機器からの記録データ、正確なコピーであると検証されたコピー又は転写、マイクロフィッシュ、写真のネガ、マイクロフィルム又は磁気媒体、X 線、被験者ファイル及び薬局、実験室及び臨床試験に関わる医療技術部門に保管されている記録など）。