【EMA】製造販売承認においてピボタルエビデンスとして提出された単群試験に基づく有効性の確立に関するリフレクション・ペーパー～単群試験によるエビデンスに関する考慮事項～

　EMAは2023年4月23日に、「Reflection paper on establishing efficacy based on single arm trials submitted as pivotal evidence in a marketing authorisation. Considerations on evidence from single-arm trials」という文書を公表しました。

　このリフレクション・ペーパーは、販売承認申請において有効性を確立するための極めて重要な証拠（pivotal evidence）として提出される単群試験 (SAT) に関するEMA の医薬品委員会( CHMP ) の現在の考えを反映することを目的としています。

　リフレクションペーパーでは、単群試験から得られた結果の設計、計画、実施、分析、および解釈に関連する考慮事項について説明しており、希少疾患を含むさまざまな治療領域に適用できるとされています。

　EMAはこの文書を「This is the first guidance document by an international medicine regulator articulating the considerations and challenges associated with this type of clinical trials.」と説明しています。

　確かに単群試験に特化したガイダンスは初めてかもしれませんが、性質上、どうしても外部対照の話と繋がってくるため、以下で紹介したFDAのガイダンス案との関係性が出てきます。

　フォーカスは微妙に異なりますが、両方を見ておくことは大事だと思います。

　なお、この文書に関心を持つ方なら想像はつくかと思いますが、この文書を公表した背景として以下のような説明がありました。

　新しい治療法をプラセボまたは既存の標準治療と比較するランダム化臨床試験 (RCT) は、規制当局が新薬の有効性と安全性を評価するために必要な証拠を生成するためのゴールドスタンダードと広く見なされています。RCTでは、患者は実薬群または対照群のいずれかにランダムに割り当てられます。通常、これらの試験には、治療の有効性に関する確固たるデータを生成するために、多数の患者が含まれます。

　新薬の標的集団が非常に小さいことが多い、希少がんを含む希少疾患などの特定の分野では、販売承認申請の一部が、極めて重要な証拠として単群試験からの臨床データがEMAに提出されます。単群試験には無作為比較対照がないため、試験のすべての患者が実験的治療を受け、実験的治療下での結果のみを観察できます。

　リフレクション・ペーパーは、販売承認申請で有効性を実証するための極めて重要な証拠として提出される単群試験に関する考慮事項の概要を示しています。これは、単群試験に関連する主要な概念と課題に関する科学的議論を刺激し、それらの設計と実施を改善することを目的としています。
Single-arm trials as pivotal evidence for the authorisation of medicines in the EU

　それでは本文を見ていきましょう。

1. 導入と範囲
- 1.1. 単群試験の説明
- 1.2. 単群試験の特徴的な性質
2. 関連するガイドライン
3. 主な定義と用語
4. 単群試験デザインに関する一般的な考慮事項

1. 導入と範囲

　無作為化比較試験（RCT）は、新しい治療法の有効性に関する確証的な証拠を提供するための標準的なものである。しかし、販売申請において、極めて重要な臨床データが単群試験（SAT）に由来するものが少なくない。これは、希少疾病を含む様々な治療領域で観察されている。

　このリフレクション・ペーパーの目的は、販売承認申請において有効性を立証するための極めて重要なエビデンスとして提出されるSATに関する現在の考え方を概説することである。SATが製造販売承認のための重要なエビデンスとして受け入れられる一般的な条件を定義することは、このリフレクション・ペーパーの範囲外である。このような検討は、臨床的背景や薬物治療の方法などの他の事柄に強く依存する。RCTによる有効性のピボタルエビデンスを提供するという標準的なアプローチから外れたSATが、なぜ有効性の明確なピボタルエビデンスを提供できるのかを規制当局に適切に説明することは申請者の責任である。

　したがって、特定の開発プログラムの製造販売承認を得るために、SATによるピボタルエビデンスが許容されると考えられるかどうかを議論するために、科学的助言を得ることが強く提言されている。

　有効性の評価は、リスク・ベネフィット評価に関連した部分である。このリフレクション・ペーパーはSATによる有効性の立証に焦点を当てているが、SATによる安全性の立証にも重大な欠点があり、議論された重要な検討事項の多くは、安全性の評価にも同様に適用される。

　さらに、販売申請の審査は、通常、複数の治験申請書の実施を含む医薬品開発プログラム全体のエビデンスに基づいて行われる。

　治療領域と開発プログラムによって、SATの主要目的が異なる場合がある（セクション3参照）。このリフレクション・ペーパーに記載されている重要な概念は、SATが使用されるどのような目的及び状況にも適用される。臨床試験の設計、計画、実施、分析、報告に関する一般的な要件もSATに適用されるが、このリフレクション・ペーパーの焦点ではない。また、説明した検討事項の多くは、極めて重要なエビデンスとして提出されないSATにも適用されるものである。

　このリフレクション・ペーパーは以下のような構成になっている。セクション1.1.と1.2では、本リフレクション・ペーパーで取り上げる試験の種類と、SATに特徴的な性質を述べている。関連するガイドラインのリスト（セクション2）に続き、SATの評価と解釈のための考慮事項を明確にするのに有用な主要な概念と定義がセクション3で説明され、セクション4ではこれらの概念を実際の考慮事項につなげている。

1.1. 単群試験の説明

　SATでは、試験に参加するすべての被験者が試験的な治療を受け、一定期間前向きに追跡されることが計画されている。SATには、治療開始前に被験者のベースラインデータを取得するためのモニタリング期間など、特定の設計上の特徴がある場合がある。

　一般に、このリフレクション・ペーパーの考察は、2つ以上の群から成るが、正式な比較のために対照群に無作為化しない試験にも適用される。これには、非ランダム化試験や、試験群のみがランダム化され、群間の正式な比較が行われない試験も含まれる。このような試験の例としては、プラットフォーム試験があり、複数の治療群が含まれるが、正式な比較は行われず、「一連のSAT」と見なすことができる。このリフレクション・ペーパーでは、これらのデザインはすべてSATとみなす。

1.2. 単群試験の特徴的な性質

　二重盲検RCTと比較して、SATは以下の主要なデザイン特徴を欠いている：同時進行の対照群、治療への無作為割付、割り付け内容を知らない患者の登録、割り付け情報に関する被験者、治験責任医師及びアウトカム評価者の盲検化。そのため、SATにはバイアスを回避するための機能がない（セクション4.5参照）。

　無作為化の欠如により、デザインは治療の効果としての因果関係の解釈をサポートせず、患者が被験薬による治療を受けなかった場合の試験集団の平均的な転帰を推定するために、SATの外部の知識に頼らなければならない。さらに、治療の効果やそれに伴うサンプリングのばらつきを直接定量化できる対照群との無作為化比較も含まれていない。

　したがって、治療の効果を定量化する統計的手法とそれに対応する結果の精度や解釈は、積極的な治療を行わないアウトカムの集団分布や患者の選択に関する仮定に頼らざるを得ない。結果として、導き出された効果の大きさの解釈はより困難であり、信頼性も低くなる。

　SATから得られた結果を承認のための重要なエビデンスとして使用する場合、その特徴、限界、残された不確実性の観点から、その妥当性を体系的に検討することが不可欠である。このことは、SATに基づく有効性の証明が可能かどうか、可能であれば、治療効果をどのように特徴付け、残存する不確実性を理解し、ベネフィット・リスク評価に最も適した情報を提供できるかを確立するのに役立つ。

2. 関連するガイドライン

この文書は、関連するすべてのEUおよびICH-ガイドラインと合わせて読む必要がある。特に以下の文書が関連性が高い：

ICH guideline E8 (R1) on general considerations for clinical studies (EMA/CHMP/ICH/544570/1998)
ICH E9 Statistical Principles of Clinical Trials (CPMP/ICH/363/96)
ICH E9 (R1) addendum on estimands and sensitivity analysis in clinical trials to the guideline on statistical principles for clinical trials (EMA/CHMP/ICH/436221/2017)
ICH E10 Choice of control group in Clinical Trials (CPMP/ICH/364/96)
Guideline on clinical trials in small populations (CHMP/EWP/83561/2005)
Points to consider on application with 1. Meta-analyses; 2. One pivotal study (CPMP/EWP/2330/99)
Methodological issues in confirmatory clinical trials planned with an adaptive design (CHMP/EWP/2459/02)
Guideline on adjustment for baseline covariates in clinical trials (EMA/CHMP/295050/2013)
Guideline on the investigation of subgroups in confirmatory clinical trials (EMA/CHMP/539146/2013)
Guideline on registry-based studies (EMA/426390/2021)
Points to consider on multiplicity issues in clinical trials (CPMP/EWP/908/99)

3. 主な定義と用語

　SATの設計、計画、実施、分析、解釈のポイントを明確にするために、以下の概念と用語をより正確に定義することが重要であると考えられる。

アウトカム

　患者の個別アウトカムとは、当該患者のエンドポイントの測定値（複数可）、例えば治癒を指す。統計的な要約値は、患者グループや集団の個々のアウトカムを組み合わせたもので、例えば、50％治癒したなど。

エスティマンド

　エスティマンドの概念は、「試験の目的によって提起された臨床問題を反映した治療効果の正確な記述」（ICH E9（R1））と定義され、RCTと同様にSATにおいても重要である。

　しかし、SATの非コントロール性のため、エスティマンドフレームワークのいくつかの概念は、特に5つのエスティマンド属性との関連で、適用がより困難である：

治療（「対象となる治療条件と、必要に応じて比較対象となる代替治療条件」ICH E9(R1) ）： SAT では、治験薬のみが投与され、SAT から得られるデータと直接比較できる代替治療条件はない。
母集団：セクション4.2を参照のこと。
変数（またはエンドポイント）：セクション4.1を参照のこと。
中間事象の取り扱い：中間事象は「治療開始後に発生し、関心のあるクリニカル・クエスチョンに関連する測定値の解釈又は存在に影響を与える事象」（ICH E9(R1)）と定義されている。SAT では、中間事象は治験薬投与群にのみ観察されるため、その解釈や取り扱いに新たな課題が生じ、治療開始のタイミングもRCTに比べて明確でない可能性がある。
集団レベルの要約：本セクション及びセクション4.4の治療効果推定値の定義を参照のこと。

　概念的には、SATの適切性は、対象とする推定値に対応できるかどうかに依存する。これに関連する具体的な問題点は、セクション4で扱う。

関心のある治療効果

　ICH E9によれば、治療効果とは「臨床試験において治療に起因する効果」である。ほとんどの臨床試験において、関心のある治療効果は2つ以上の治療法の比較（または対照）である」。このリフレクション・ペーパーの目的において、関心のある治療効果という用語は、実験的治療の下での要約測定値と、試験集団が実験的治療を受けていないという選択肢（反事実）の下での要約測定値との比較（対照）を意味するものである。この用語は、このリフレクション・ペーパーでは、治療に起因する効果があるかどうかの評価と、治療効果の大きさの（不偏の）推定という文脈で使用される。

治療効果の分離

　治療効果の分離という概念には、一般的な統計学的・方法論的定義はない。このリフレクション・ペーパーでは、以下の定義を採用する。SATにおいて、設定されたフォローアップ期間内に定義されたエンドポイントについて観察された個々のアウトカムが、試験に参加したどの患者においても積極的な治療なしには起こり得なかった場合、そのSATはその特定のエンドポイントに対する治療効果を分離することができる。概念的には、試験デザインの制約があるにもかかわらず、治療効果の因果関係を解釈することが可能である。

　これは理論的な概念であり、臨床的な背景に関する詳細な知識を必要とする。具体的には、治療とエンドポイントによるアウトカムとの因果関係を疑う余地のない定性的な推論が必要であり、これは例外的な場合にのみ完全に満たされる。実際には、観察された個々のアウトカムは、バイアスや、例えば測定や評価の面で様々な変動要因の影響を受ける。したがって、RCTとは対照的に、測定誤差やSATの厳密性の低い実施によって、そのような観察された結果が誤って導かれ、その結果、治療効果があると誤って評価されることがある。また、治療なしでは本当に不可能なアウトカム（脊髄性筋萎縮症患者の運動機能レベルなど）については、不確実性が残る可能性がある。その他のエンドポイントについては、特定の環境における治療効果の分離をサポートしないことは明らかである。

　治療領域や開発計画によっては、SATの主目的がエンドポイントに対する治療効果の分離であったり、治療効果の大きさの推定であったりする（例：避妊薬のパール指数の推定）。

治療効果の推定値

　統計的要約測定値は、関心のある治療効果を推定するために使用される。SATで通常選択される要約測定値（回答者の割合など）の中には、想定される反事実（回答者0％など）との対比を推定するものがある。また、SATで定義された治療効果の推定値には、外部対照群のデータとの対比が含まれる場合もある。

　規制当局の意思決定には、治療効果の大きさ（好ましいもの、好ましくないもの）の推定値に対する高い信頼性が必要である。SATに基づく治療効果の推定値は、試験に組み入れられた患者の選択によって直接影響を受ける。RCTで観察される個々のアウトカムは、SATと同様に患者の選択に左右されやすいとしても、RCTでは治療群を直接比較することができる。したがって、治療効果の推定において、SATのデザイン、実施、分析、報告を通じて、複数の潜在的なバイアス源に対処する必要がある（セクション4.5参照）。

内部妥当性

　SATの内部妥当性（十分にデザインされたRCTとの比較）は、SATによる治療効果推定値と、マッチングRCTが同一集団で実施され、試験治療が（プラセボ）対照群に対して調整されていれば得られたであろう治療効果推定値との間の系統的な差として概念的に捉えることができる。このマッチングRCTは、SATの対象試験と理解することができる。無作為化対照群の不在は、バイアスのリスクを大幅に増加させるため、内部妥当性を低下させる。

外部妥当性

　SATの外部妥当性は、SATによる治療効果推定値と対象集団における真の治療効果との間の系統的な差によって特徴付けられる。この種のバイアスは、治療効果がサブグループ間で異なり、試験集団が対象集団を代表しない場合、RCTからの治療効果推定値にも適用される。例えば、バイオマーカー陽性患者において治療効果が大きく、治験集団におけるバイオマーカー陽性患者の割合が標的集団よりも高い場合、標的集団における治療効果に比べてRCTからの治療効果推定値にバイアスがかかることになる。SATからの治療効果推定値も同様に、異質な治療効果によって影響を受ける。さらに、疾患予後に異質性があり、試験集団が対象集団を代表していない場合、SATからの治療効果推定値はバイアスがかかる。例えば、バイオマーカー陽性患者は治療に関係なく疾患予後が良好であり、治験集団におけるバイオマーカー陽性患者の割合が対象集団よりも高い場合、対象集団における治療効果に比べてSATからの治療効果推定値にバイアスがかかることになる。したがって、SATでは外部妥当性が損なわれる可能性が高くなる。

不確実性の定量化

　規制当局の意思決定のためには、治療効果推定値の不確実性を適切に定量化する必要があり、例えば、適切に知られた被覆確率（coverage probability）を持つ信頼区間の形で定量化する。RCTの場合、これは無作為化によってもたらされる統計的特性に基づいて行われ、対照条件下での推定値の不確実性が直接含まれる。SATに基づく治療効果推定値の不確実性を定量化するには、特別な配慮が必要である。これは、実験群の個々のアウトカムの変動性だけが直接観察され、仮想の対照群については観察されないからである（セクション4.1と4.4参照）。

4. 単群試験デザインに関する一般的な考慮事項

　一般に、RCT は、臨床効果の信頼できる推定値を提供する最も適切な方法である。

　しかし、状況によっては、SATによるエビデンスが販売認可のために許容されると考えられる場合があり、そのような場合には科学的助言を得ることが提言される。以下のセクションでは、製造販売承認のための重要なエビデンスとして提示される SAT のデザイン、実施、解釈、評価に関する重要な考慮事項を説明する。

4.1. エンドポイントの選択

　一般に、有効性の立証を目的とする主要な臨床試験の主要評価項目は、臨床試験の主要な目的に直接関連する、最も臨床的に適切で説得力のある証拠を提供することができる変数を反映すべきである（ICH E9）。この選択には、方法論的側面と、有効性、信頼性、実現可能性、関連する研究分野で受け入れられている規範や基準などのさまざまなエンドポイント特性との間の絶妙なバランスが必要である。SATの場合、主要評価項目は治療効果を分離できるものでなければならない（セクション3参照）。つまり、主要評価項目は、有効な治療がない場合、望ましいアウトカムの観察が無視できる程度（患者数または効果の大きさ）にしか起こらないことが分かっているものでなければならない。

　観察された個々のアウトカムが、間違いなく治療によって引き起こされたものであるかどうかの不確実性は、SATから得られた結果の解釈を著しく複雑にする。特に、これらの不確実性は、SATの潜在的なバイアスにより、結果が有利に見えるだけという懸念につながりかねない。例えば、無治療で寛解する確率が小さいがゼロではない場合、無治療で寛解する可能性が高い患者が試験集団に過剰に含まれることによる選択バイアスが、有効性に関する偽陽性結論にどの程度つながるかは明らかでない場合がある。さらに、測定エラーや誤分類により、SATに特定のアウトカムが誤って記録され、同じ影響を受ける比較対象が試験内に存在しないため、実験的治療が不当に有利となる可能性がある。また、疾病がエピソード的であり、その経過が漸増・漸減することもある。このような場合、すべての関連する主要評価項目は、SATによって治療効果を分離することができないような方法で、疾患の自然経過によって影響を受けるであろう。

　治療領域において特定のエンドポイントが許容されるかどうか、あるいは臨床的に関連する治療効果の立証が可能かどうかは、臨床的根拠に基づいて議論される必要がある。SATとその主要評価項目の許容性は、臨床的背景と薬剤の作用機序に強く依存するため、ケースバイケース、疾患領域固有の判断となる。以下では、網羅的ではないものの、最も一般的なタイプのアウトカムに関する課題のいくつかを議論する。

時間-イベントエンドポイント（Time-to-Event endpoints）

　死亡までの時間、無増悪生存期間、初回脳卒中までの時間などのTime-to-Eventエンドポイントは、有効な治療がない場合でもある場合でも発生しうる事象までの時間を測定する。このため、このようなエンドポイントで観察される個々のアウトカムは、一般に治療に起因するものではなく、したがって、Time-to-Eventエンドポイントは通常SATで使用するのには適していない。例外として、治療がなければ全く起こりえないポジティブな事象が起こるまでの時間を測定するエンドポイントはあり得る。time-to-eventエンドポイントの大きな問題は、特定のエンドポイントに対するリスクの開始点（「time 0」）に関連しており、これは通常、試験の開始時とは異なり、ごく一部の実験設定を除いて合理的に確実に決定することができない。RCTでは、比較対象群によって、試験登録前の患者のリスク歴の内部調整が行われるが、SATではこれが欠けている。

　疾患の経過がtime-to-eventエンドポイントに与える影響は、特に予後因子がイベント発生までの時間にどのように影響するかに基づいて、通常非常に予測が困難である。Time-to-Event エンドポイントの場合、予後因子（実験的治療に関係なく予想されるアウトカムの違い）と予測因子（実験的治療に対する治療効果の違い）の区別がSATから得られた結果ではできないという一般的な問題が増幅される（セクション4.2参照）。

連続的なエンドポイント（Continuous endpoints）

　連続的なエンドポイントは、ベースラインからの変化として表現されるか、ベースラインからの変化評価に概念的に近い（反復測定）モデルで分析されることが多い。連続的なエンドポイントは、患者が試験中に経験する変化を正確かつ敏感に測定することができる。しかし、個々のアウトカムが、患者内変動（経時的なランダムな変動）、疾患の自然経過（経時的な系統的な変化）、測定誤差などにより変化し得る場合、この変化を治療に起因させることはできない。したがって、連続的なエンドポイントの場合、治療効果やその大きさの因果関係の帰属は困難である。一般的な現象は「平均値への回帰」であり、これは測定誤差、患者内変動、ベースライン時の患者選択の組み合わせから生じる可能性がある（セクション4.5を参照）。例えば、試験への組み入れ時（適格性基準）に特定のエンドポイントが低値で表された疾患の重症度に基づいて患者を選択した場合、同じ患者の測定値は、有効な治療を受けているかどうかに関係なく、後の時点で値が改善する傾向を持つことになる。

バイナリーエンドエンドポイント／二値エンドポイント

　バイナリーエンドポイントも、time-to-eventやcontinuous endpointで述べたような問題がないわけではないが、例えばC型肝炎に感染しているなど、ある状態が介入なしでは通常変化しない特定の疾患もありうる。これは、患者が治療なしで達成したであろう値を大幅に超える時点で生存している場合や、治療なしでは達成できず、測定の不確実性をはるかに超える、あらかじめ指定された閾値を超える連続エンドポイントにも適用されることがある。

　このような場合、バイナリーエンドポイントは、十分な確実性をもって治療効果を分離すると考えることができる。しかし、試験計画段階でこのような閾値を誤って仮定すると、客観的なエンドポイントの場合であっても、治療効果（またはその大きさ）の表現に関してSAT結果の解釈を困難にする可能性があることを強調しておく。原則的に、基本的なエンドポイント（その性質にかかわらず）の問題は、閾値によって二値化されたエンドポイントのバージョンに移される。しかし、特定の場合には、潜在的なバイアスの原因を考慮した上で、どの患者に対しても治療なしで閾値を超えることができないように、あらかじめ閾値を設定することが可能である（上記及びセクション4.5で例示的に議論したとおり）。

4.2. ターゲットと試験対象者

　実験的治療の効果に関する結論が、意図した対象集団、すなわち日常診療で治療を受ける被験者に対して本当に有効であることを保証するためには、適切な試験集団を採用することが必要である。セクション3（外部妥当性）で述べたように、治療効果が対照群に対して直接推定されるわけではなく、試験集団の構成がSATからの推定に特に関係するため、外部妥当性に関する懸念は一般的にRCTと比較してSATの方が大きい。この点で、重要なのは、試験集団が、仮想の対照群の疾病経過に関する仮定の妥当性や外部データソースとの比較可能性を決定することである（セクション4.3参照）。

　疾患の自然経過に関する仮定は、SATにおける試験集団に適用されなければならない。このことは、実際には、試験集団が、仮定に基づく患者集団（仮想的な対照群）の既知だけでなく未知の特性も共有しなければならないことを意味し、この要件を検証することは不可能である。その結果、患者や疾患の不均一性が高い環境では、SATから得られる結果の解釈はさらに困難となる。

　プロトコールで定義された組み入れ基準や除外基準に加え、予後に関連するあまり具体的でなく、文書化しにくい選択メカニズムが、患者リクルートの時点で発生する；治験責任医師の決定や患者の選択、あるいは試験施設の選択に関する基準によるものもある。このような選択メカニズムは、特にSATに影響を与える可能性がある。SATは、疾患の経過を参照できる対照群を持たないため、過去の試験経験や対象集団に関する疫学的情報に関連することがある。したがって、対象集団のリスク・ベネフィット評価を可能にする試験集団の選択と理解は、SATがピボタル・エビデンスとして機能するための不可欠な前提条件である。観察されたポジティブな効果の大きさが、試験集団の有利な選択の結果ではないことを保証するために、被験者の選択プロセスの特定と文書化は、評価にとって最も重要である。正当化された組み入れ基準や除外基準に加え、スクリーニングプロセス、試験組み入れの決定、選択されなかった被験者についての詳細が含まれる。

　RCTでは、無作為化により、治療群における既知および未知の予後・予測変数の分布が期待値で均衡することが、統計的推論の基礎となっている。重要な予後変数のバランスが実際の無作為化で正確に達成されなくても、既知の予後変数を事前に設定された検証分析に適切に含めることで、治療効果推定への影響を軽減することができる。一方、SATでは、未知の予後変数や予測変数の潜在的な影響をコントロールすることができない。さらに、既知の予後変数の影響の推定やコントロールは、必ずしも実行可能でない場合がある。特に、SATから得られた結果に基づいて、予後の影響と予測の影響を切り離すことは不可能である。

　バイオマーカーで定義された集団は、ターゲットや試験集団の選択にとって重要な例の一つであり、SATから得られた結果の解釈は困難なものとなる。バイオマーカーは治療効果の予測だけでなく、疾患の自然経過の予後予測にもなりうるため、さらに複雑な問題が発生する。バイオマーカーと測定されたエンドポイントとの間の特異的な関連は、通常、開発プログラムの一部であり、利用可能な過去のデータは限られているか、全く存在しないため、しばしば、対象となるサブグループ内の自然な疾患経過の信頼できる推定値が利用できない。バイオマーカーの役割や治療効果への寄与は、SATの中で確立することはできない。

　より一般的には、サブグループ間の治療効果の不均一性を探ることは重要であるが、SATでは特に困難である。なぜなら、コントロールがないため、SATのデータに基づいて、予後因子によるサブグループの不均一性と予測因子による不均一性を明確に区別することができないからである。そのため、予測効果には強い生物学的妥当性が必要であり、試験を実施する前に、関連する期待を事前に規定し、正当化する必要がある。

　予期せぬサブグループの発見は、疾患の経過と薬剤の作用機序がよく理解されているという仮定に疑問を投げかけるかもしれない。さらに、強い予後予測因子は、選択バイアスに関する懸念を引き起こし、無作為化同時対照の必要性を強めるかもしれない。

4.3. 外部情報の役割

　SATには比較対象がないため、SATから得られる結果の解釈には、関連する外部（試験外）情報の役割が重要である。外部情報は、(i)疾患の自然経過に関する一般的な知識（例えば、エンドポイントが積極的な治療を受けなければ変化しないこと）、(ii)外部の臨床データ、という形をとることができる。SATの解析や解釈における外部情報の使用は、重要なデザイン要素であり、試験プロトコールに予め規定されるべきである。最も重要なことは、SAT の仮想的な対照群（counterfactual）を記述するために使用される外部情報は、対象となる対照群の正確かつ先験的な定義と記述を含むべきであるということである。SAT の試験プロトコールが確定する前に、外部情報の使用と選択について科学的助言を得ることが強く推奨される。

　場合によっては、治療効果が臨床的に顕著で、治療後速やかに発現し、自然発生とは考えにくい場合、治療効果の分離と臨床的妥当性が証明されたとみなすのに十分であろう。その場合、使用に関する評価は、疾患と対象集団に関する一般的な知識に基づいて行われるかもしれない。また、治療効果の分離を裏付ける条件を満たすことを証明できる有効性の閾値を設定するために、外部情報を利用する場合もある（セクション4.4参照）。

　例外的に、有効性の評価は、外部の臨床データ（すなわち外部対照群）との直接的な比較によって行われることが想定されている。外部データの選択と比較に関するガイダンスは、このリフレクション・ペーパーの範囲外である。外部データを直接解析に取り入れる方法は、有用な洞察を提供し、バイアスを低減する可能性がある一方で、事前設定の複雑さを増し、しばしば透明でない追加の仮定に依存する。したがって、外部データを直接取り込む手法は、ケースバイケースで慎重に評価する必要がある。

4.4. 統計的原則

一般原則

　探索的試験と検証的試験では、統計的な厳密さに関して異なる要求があるが、SATはすべての治療開発段階に使用されていることが認められている。SATが極めて重要なエビデンスとして提出される場合、試験の計画と実施においてベストプラクティスと厳格な基準に従うべきであり、評価は検証的な環境に適用される基準（ICH E9）に従う必要があるであろう。

無作為化や盲検化のような保護機構がないため（セクション 3 と 4.2 参照）、試験開始後の統計解析手法の選択は、RCT と比較して、結果の信頼性とピボタルエビデンスとして使用される SAT の評価に大きな影響を与える可能性がある。

事前定義

　検証的RCTと同様に、ピボタルエビデンスとして提出されるSATは、明確な成功基準を先験的に定義しておくことが期待される。このような基準は、疾患に関する知識、（主要な）アウトカムや治療効果の推定値のばらつきに関する不確実性など、適切な外部情報（セクション4.3参照）に基づいて正当化される必要があり、規制当局と事前に合意していることが理想である。

　治験の予定外の変更は常に問題である。そのため、試験進行中の事前定義と試験プロトコルの遵守は非常に重要である。これは、SATではさらに顕著である。SATの非盲検の性質上、既存のファイアウォールによる主張は、潜在的なデータ知識に関する懸念を克服することは難しく、いかなる修正も潜在的にデータ主導とみなされる。これには、予定外の中間解析、エンドポイントの変更、予定患者数の変更や逸脱（サンプルサイズの変更）、投与レジメンの変更、適格性基準の変更、サブグループの選択、治療群の選択（プラットフォーム試験など）などが含まれる。規制当局の意思決定において、特に重要な予定外の変更は、探索的第Ⅱ相試験として計画された試験を、試験データが入手可能になった時点でピボタル試験に事後的に指定し、これを主要な確認エビデンスとして提出することである。SATは非盲検であるため、データに依存した計画的な行動も重要であると考えられる。

多重性

　正式な仮説検定によるp値は、概念的には、SATにおける所定のエンドポイントの評価のための推定（点推定値および信頼区間）に比べて下位の関連性であるが、SATにとって、試験レベルでの偽陽性結論の確率を制御することは依然として重要である。通常、複数の治療群、複数のエンドポイントやタイムポイント、中間解析、サブグループ評価などの場合、多重性が存在する。セクション1で概説したように、（無作為化）臨床試験の一般原則はSATにも適用され、多重性に対処する方法は事前に計画され、遵守されなければならない。

解析セット

　主要な解析セットの事前定義が最も重要であり、観察された個々のアウトカムに基づいて解析セットに患者を含めたり除外したりすることによるバイアスを避ける必要がある。したがって、インフォームド・コンセントを得た上で SAT に参加した全ての被験者を主要な解析対象として使用する必要がある。しかし、全解析セットに基づく解析が、SATからの推定値をより大きな効果にバイアスをかけ、臨床的利益を過大評価するような状況が存在する可能性がある。例えば、試験開始時には罹患しておらず、試験終了時には罹患していないことが定義されている被験者が、誤ってSATに含まれるような状況である。このような状況は、疾患（状態）の有無で患者を選択するための測定値が、試験中の疾患（状態）の変化（例えば、反応や消失）を評価するために使用されるものと異なる場合にも起こり得るもので、この状況はセクション3や4.1で議論した測定誤差と同等である。このようなケースは、試験の設計と実施によって回避されるべきである。また、この影響を受ける被験者の数が比較的多い場合、エンドポイントや試験の妥当性が問われる可能性がある。特に、ベースラインの測定値に基づいて選択された患者が、そのアウトカム測定値を使用した場合、ベースラインで無病とみなされたであろう場合には、個々のアウトカムを治療に対する反応として帰結させることはできない。その患者を含めると奏功の推定が楽観的になる場合のみ、そのような被験者を主要な解析セットから除外することをあらかじめ定義しておくべきである。すべての患者が事前に定義された解析タイムポイントに到達する前に解析が行われた場合、さらなる除外が必要となる場合がある（下記「欠損データ」参照）。

欠損データ

　欠損データに関しては、理想的には偏りのない推定値を提供し、必要な基準として治療に対する反応を過大評価しない方法を適用すべきである。例えば、エンドポイントが治療失敗の場合、事前に計画された個々の試験終了時点を完了しなかったが、失敗したことが既に知られている患者は、失敗として解析に含めるべきである。一方、中間解析のある試験では、個々の試験終了時点に到達しておらず、それまでに失敗した患者は、失敗でないものとしてカウントすべきではないため、主要な解析に含めるべきではない。感度分析が推奨される（「感度分析」参照）。

分析・推定

　すべての解析は、SAT 開始前、すなわち最初の患者を含める前に、詳細な統計解析計画で事前に定義されるべきである。SAT の統計解析には、ノンパラメトリックまたはパラメトリックの統計手法を適用することができる。

　治療効果の推定に使用する統計解析モデルは、完全に事前指定されるべきである。これには、潜在的な予後因子や予測因子をどのように組み込むかの正当化、及び結果の解釈の必要性についての議論が含まれるべきである。SATでは、共変量の分布が同じ（無作為化）特性を持つ対照に対して調整されないように設計されているため（セクション4.2参照）、推定方法が最も重要であり、予後因子の取り扱いが目標とするエンドポイントの推定値に影響を与える。

　治療効果を予測する因子は、RCTでもSATでも治療効果の推定に影響を与える可能性がある。しかし、SATでは、一般的にRCTには存在しない予後因子に関する新たな問題がある。この問題は、推定用の統計解析モデルにおいて、因子レベルをどのように扱うかに関連している。RCTでは無作為化対照との比較であるため、線形モデルを使用する場合には問題にならない（非線形モデルでは既知の問題である）。しかし、SATでは、対照に対する調整がないため、線形モデルから算出される推定値は、解析モデルにおいて因子レベル（すなわち、試験サンプルで観察される分布）がどのように扱われるかに依存する。その結果、試験集団の分布が対象母集団の分布に似ていない場合、対象母集団における効果の推定は特に困難である。いくつかの分布シナリオを検討することで、興味のある分析が追加されるかもしれないが、対象母集団の正確な分布は通常不明である。

　全体として、推定値の頑健性を裏付けるために感度分析を提示することが強く推奨される（「感度分析」参照）。この問題は選択バイアスにも関係するが、選択メカニズムが不明であったり（測定された少数の要因で表されるよりも広範であるかもしれない）、患者が十分に代表されていないといったよくあるケースでは、データの操作上の取り扱いにより選択を完全に解決することはできない。共変量の取り扱いを変えて感度分析を行った結果、異なる結果が得られた場合、研究結果の全体的な信頼性に疑問を呈する可能性がある。

結果の解釈

　薬効が明確に分離された評価項目については、統計解析はSATの結果であるデータに完全に基づくことが可能である。場合によっては、エンドポイントに関するSATで観察された要約値が標的集団レベルでの臨床効果を反映していることを保証するために、試験集団レベルでの要約値が超えなければならない閾値を予め規定することができる。このような閾値は外部の臨床情報に基づくことができるが、異なるデータベース間で結果を比較するため、誤った結論になるリスクが内在している。いずれにせよ、閾値の根拠は前もって示される必要があり、治療の文脈におけるその臨床的妥当性は慎重に正当化される必要がある。

　治療が行われない場合、個々のアウトカムが無視できる程度に生じると予想されるエンドポイントの場合、個人レベルで薬効を明確に分離できないような変動が観察されることがある。このようなエンドポイントでは、治療効果があることを立証し、治療効果の大きさを定量化することが困難な場合がある。観察された要約値と治療効果を区別することが重要である（セクション3参照）。しばしば、説得力のある有効性を証明するために、事前に定義された閾値を超えることが設定される。概念的には、その閾値が、無治療の仮想シナリオにおける対応する要約値とすれば、治療に起因する効果の大きさは、この閾値と試験で観察された要約値の差に過ぎないことになる。しかし、このような粗い比較では、この閾値に対して信頼区間を比較することで考慮する必要がある点推定値の不確実性を考慮していない（「多重度」参照）。さらに、定義された閾値は、通常、定数として知られているわけではなく、不確実性の高い外部情報から導き出されることに留意する必要がある。したがって、これを固定定数として扱うことは、その定義に内在する根本的な不確実性を適切に反映しないため、十分に保守的な閾値を選択する必要がある。例えば、ある環境では、閾値の選択は、外部データに基づいて導き出される点推定値ではなく、信頼区間の下限値または上限値によって知らされるかもしれない（臨床の状況によって異なる）。さらに、結果は試験における選択メカニズムに依存する。全体として、このことは閾値の選択を正当化することを難しくしている。したがって、このようなシナリオは、SATの解釈にとって重大なリスクとなる。

感度分析

　対象となるエスティマンドの主要な推定値の感度分析は、欠損データの扱いなど、SATにおける仮定の影響を評価するために必要な基準であるが、十分ではない。SATから得られた結果の解釈に特に関連するのは、SATで生成されたデータに基づいて検証することができない仮定に対する潜在的な感度である。これには、SATに含まれる患者の疾患の自然経過に関する仮定が含まれる。

サンプルサイズ

　他のデザインに関する考慮事項と同様に、SATで選択されるサンプルサイズは、計画された解析と試験の成功基準を考慮し、取り上げた質問に対して信頼できる答えを提供するのに十分な大きさでなければならない。SATでは、より多くの被験者を実験的治療に割り当てることができるが、バイアスに関する不確実性は、無作為化対照デザインに比べ、精度の向上を上回るかもしれない。

4.5. バイアスの原因および取り得る軽減策

　セクション3で述べたように、SATから偏りのない推定値を得ることは困難である。したがって、SATから得られた結果の設計、実施、分析、報告を通じて、複数の潜在的なバイアス要因に対処する必要がある。表1は、SATにおけるバイアスの潜在的な要因と低減策をまとめたもので、その一部は（オープンラベル）RCTにも適用される。これらの戦略はバイアスのリスクを低減するために必要と考えられるが、バイアスを完全に除去するために十分であるとは考えられず、治療効果推定値がバイアスなしであることを完全に証明することは不可能である。したがって、低減策が適用されたことを証明するだけでは、SATから得られるバイアスのかかった結果に対する懸念を軽減するのに十分でない場合がある。

バイアスの種類	記述	潜在的なバイアスの低減法
確認バイアス	外部情報は、試験の実施やデータ収集の特定の側面、例えばアウトカム評価の頻度や基準が、SAT内で収集されたデータとは異なる可能性が高い	外部情報を利用する場合、確認やデータ収集の方法は、SATでの方法と比較する必要がある
評価バイアス	治療法に関する知識はアウトカム評価に影響を与える可能性がある	SATにおけるエンドポイントは十分に客観的であるべきであり、可能であれば、評価は独立して行われるべきであり、できれば治療と関連するタイミングを知らない状態で実施されるべきである
減少バイアス	一般的に患者の減少や欠損データは、解決するのが困難な交絡の新たな原因となる	試験デザインと実施を通じて欠損データを回避する。治療効果を過大評価しない欠損データの取り扱い方法をあらかじめ規定し、適切な感度分析を行う。外部データを使用する場合、欠損データによるバイアスを避けるため、全患者を含むフォローアップのある質の高いデータが必要である。
事前準備不足によるバイアス	試験開始後のデザイン、実施、報告予定の変更（統計解析計画、治療、フォローアップの変更、組み入れ基準や除外基準、併用治療の許可に関するプロトコール修正など）は、バイアスをもたらす危険性がある	すべての検証的試験において事前計画は必須であるが、SATについてはさらに高い基準を設定する必要がある（例：統計解析計画は試験開始前に最終決定する必要がある、試験開始後のプロトコールと統計解析計画の変更は絶対に最小限にする、中間解析を計画した場合、それが柔軟であるか事前に計画した情報レベルで実施されない場合はより問題となる）
平均への回帰によるバイアス	モニタリング期間中のアウトカム値に基づいて選択された患者は、平均値への回帰によりアウトカムの改善が予想される	治療前のモニタリング期間中に、疾患の重症度とは無関係に対象集団を定義すること。測定誤差や変動があるアウトカムに基づく患者選定は避ける。
病歴の多様性に起因するバイアス	治験薬投与前の患者の病歴にはかなりのばらつきがある可能性がある。これは、病歴が通常個々のアウトカムの予後を強く左右するTime-to-Eventエンドポイントにおいて特に問題となる（ただし、それだけではない）	Time-to-Event エンドポイントの解析は、通常、バイアスなしに評価することがより困難である。時間軸に直接依存しないエンドポイントや解析方法を選択する必要がある。
暦時間バイアス	標準治療や病気全体のマネジメントの傾向によって、病気の経過や個人のアウトカムが時間の経過とともに変化することがある。SATでは、これらの傾向の影響を治療効果から切り離すことはできない	同時期の外部情報の利用
Immortal time bias	過去の試験や外部データとの比較による試験や治療の開始時期は、患者固有の時間スケールの基準として決定することは困難である	At-riskの開始時期（time 0）を明確に定義する必要があり、外部データとの比較を含むTime-to-Eventエンドポイントが必要である。また、感度分析も必要である。
試験参加後の中間事象のバイアス	試験計画段階で主要な評価項目と中間事象を明確に定義しておかないと、臨床上の疑問点を解決できないリスクがある	ICH E9 (R1)に従い、試験計画段階で中間事象を予測し、エスティマンドの定義と中間事象に関する詳細な情報収集を確実に行う。
レトロスペクティブ選択バイアス	参考とする外部情報のレトロスペクティブな選択と、試験開始後の主要な解析機能の特定は、バイアスをもたらす危険性がある	統計解析の詳細を含む外部情報の使用について、試験開始前に事前に特定すること。統計解析計画は、試験開始前に最終決定する必要がある。
仮想的な対照群に関する選択バイアス	SATに登録された患者は、予後に影響を与えるような方法で、仮想の対照群と系統的に異なる場合がある	登録された試験集団が、仮定に基づく外部情報とよく一致するように、組み入れ基準および除外基準を正確に事前指定する
対象集団との関係における選択バイアス	SATに登録された患者は、予後に影響を与える点で対象集団と系統的に異なる場合がある	組み入れ基準及び除外基準の数及び範囲を限定すること。対象集団の主要評価項目に関して、期待される予後を正確に事前指定し、その根拠となる外部情報を含める。
バイオマーカーで定義されたサブグループに関連した選択バイアス	事前に定義されたバイオマーカーに基づき選択された患者は、全集団と比較して予後が異なる可能性がある	バイオマーカーを標的とする患者サブグループの予後が、試験開始前に十分に正確に把握されていることを確認すること。
ステージ移行バイアス	評価方法の改善は、早期ステージと後期ステージの両方の予後改善につながる	SATでも外部情報源と同じ評価方法を用いることを徹底し、ステージ移行効果の最大値を超える効果の大きさを示す。
研究バイアス	SATの患者は、試験環境におけるケアの違いなどにより、対象となる臨床現場とは系統的に異なるアウトカム（実験的治療とは無関係）を有する可能性がある	補助治療が現在の標準を反映していることを保証し、示す。