主要評価項目

主要評価項目（しゅようひょうかこうもく、Primary endpoint，ラテン語: primus＝「最初の」）は、臨床試験において達成を目指す主要目的であり、その結果は臨床試験のプロトコルに基づいて評価された普遍的な結果である^[1]。主要評価項目は、使用された介入（一般的には医療行為）が成功したか否かを判断するために使用される。例えば、生存率や再燃（再発）のリスクを主要評価項目として定義することができる。この研究では、これらの基準を治療群と対照群で比較する。主要評価項目は、試験開始前に定義されている必要がある。主要評価項目が達成されたかどうかで、試験の成否が決まる。

O'Neillは、主要評価項目を次のように定義している。

“a clinical endpoint that provides evidence sufficient to fully characterize clinically the effect of a treatment in a manner that would support a regulatory claim for the treatment.”

『主要評価項目は治療法の効果を臨床的に完全に特徴づけるのに充分な証拠を提供するもので、その治療法に関する規制上の主張を裏付けるものである。』
—R. T. O’Neill、Secondary endpoints cannot be validly analyzed if the primary endpoint does not demonstrate clear statistical significance.^[2]

主要評価項目の決定[編集]

臨床試験を開始する前（a priori ）に、試験の主目的である「主要評価項目」が定義される^[3]^[4]。可能な限り「ハード」な評価項目、つまり測定可能で明確に定義された基準を設けることが重要である。ハードな評価項目とは、例えば

介入後30日以内の死亡^[1]
心臓発作または死亡の発症までの時間^[1]

寛解（病気の全ての兆候が完全に無くなった状態）^[5]
再発（病気の再燃）^[5]

などである。

生活の質^[5]や痛み^[5]などの「ソフト」な評価項目は定量化できない。これらは、非常に限られた範囲でしか主要評価項目として定義することができない。副次評価項目に含まれる可能性がある。

試験の主要評価項目は、承認機関（PMDAなど）とともに定義することができる^[6]。

代替評価項目[編集]

代替評価項目（代替マーカー）とは、主要目的が測定不可能な場合に代わりに測定される検査項目のことである。例としては、白血球数、血圧、骨密度などが該当する。1つまたは複数の代替評価項目の値を測定可能な主要評価項目として選択することも可能である。しかし、これらは治療的介入の臨床的な有益性や有害性を直接測定するものではない。過去には、代替評価項目を用いた研究で、致命的に間違った結論を導き出したものがいくつかあり、そのうちのいくつかは後に治療を受けた患者に多大な悪影響を及ぼした。薬力学的効果は、治療効果を証明するものではない^[1]。

相関関係があると一部で言われている代替評価項目の例を以下に示す。

脂質降下薬：コレステロール値 → 心筋梗塞
抗不整脈薬：不整脈 → 延命効果
HIV/AIDS：ウイルス量 → QOL/延命効果
骨粗鬆症：骨密度 → 骨折

主要評価項目として不適切な代替評価項目の例としては、肺癌予防のために喫煙者にβ-カロテンを投与することが挙げられる。主要評価項目（落ち込んだビタミン濃度の上昇）は達成されたが、投与により肺癌死亡率の上昇も見られた^[7]。

複数の主要評価項目[編集]

主要評価項目として複数の臨床事象を取り扱う場合、複合評価項目を形成する方法と、複数の主要評価項目に統計的評価閾値（有意水準）を振り分ける方法がある。

複合評価項目[編集]

「臨床評価項目#複合評価項目」を参照

有意水準の振り分け[編集]

通常臨床試験では、有意水準を5%とし、主要評価項目の検定結果がp<0.05であった場合に「主要評価項目は5%水準で有意である」という。主要評価項目を単純に複数個設けた場合、何方かの検定結果がp<0.05となる確率は9.75%となり、妥当性を欠く。このような場合、ボンフェローニ補正やシダック補正を用いて何方かの検定結果がp<0.05となる確率を5%に抑えると、統計学的に妥当な結果を導くことができる。このような場合、それぞれの評価項目に均等に有意水準を割り振るだけでなく、1%と4%など、不均等に割り振ることも可能である^[8]。

他の評価項目[編集]

主要評価項目に加えて、通常は1つ以上の副次評価項目も設定される。時には、三次評価項目も設定されることもある^[9]。介入によって起こり得る副作用については、患者を守るために安全性の評価項目も設定される^[1]。また、複合評価項目とは、いくつかの個別の基準を組み合わせたもので、仮説を確認するためにはそのうちの1つ以上が達成されなければならない。