ゴールドスタンダード (検査)
医学および医療統計学において、ゴールドスタンダード(gold standard)、標準基準(criterion standard)[1]、または参照基準(reference standard)[2]は、「妥当」な条件下において利用可能な最良の診断検査またはベンチマークを指す[3]。これは、新しい検査の妥当性を評価するために比較される検査であり、治療効果の評価にも使用される[1]。
「ゴールドスタンダード」の意味は、実際の医療と統計上の理想では異なる場合がある。医学的な状態によっては、剖検によってのみ診断の確実性を保証できる場合がある。このような場合、ゴールドスタンダード検査は患者の生命を救うための最善の検査であり、また、ゴールドスタンダード検査であっても、診断を確定または否定するために追跡調査が必要になることがある[4]。
歴史
[編集]医学研究における今日の意味での「ゴールドスタンダード」という用語は、1979年にRuddによって、通貨の金本位制に言及して作られた[5]。
医学において
[編集]科学的根拠が評価される一般的な臨床的エンドポイントを指して「ゴールドスタンダード」と呼ぶことがある。たとえば、蘇生研究における薬剤や処置の「ゴールドスタンダード」検査は、神経学的損傷のない生存者が病院から歩いて退院する数が増加するかどうかである[6]。別の種類の医学研究では、30日死亡率の有意な減少をゴールドスタンダードとみなす場合もある[要出典]。
AMAスタイルガイドでは、「ゴールドスタンダード」(gold standard)ではなく「標準基準」(criterion standard)という表現が推奨されている。他の学術誌でも、投稿規定でこの用法を義務付けている。たとえば Archives of Biological Medicine and Rehabilitation 誌では、この用法を指定している[7]。しかし実際には、少なくともAMAの学術誌では、著者によるこの用語の採用や編集スタッフによる徹底は著しく不十分である[8]。
基準が臨床検査診断法の全体に及ぶ場合、通常これは臨床症例定義と呼ばれる。特定の診断方法を評価する基準として異なる症例定義を使用すれば、大きく異なる結果を生じる可能性がある[9]。
診断検査への適用
[編集]理想的な「ゴールドスタンダード」検査とは、疾病の存在に関する感度は100%(明確な病状を持つすべての患者を特定でき、偽陰性の検査結果を出さない)であり、かつ特異度は100%(疾患を持たない患者を誤って疾患患者と特定せず、偽陽性の検査結果を出さない)である。しかし実際には、真のゴールドスタンダード検査と呼べるものは存在しない[10]。
ときには代替法が十分に検討されないまま、あるいは欠点があるにもかかわらず、ある検査が高く評価されてゴールドスタンダードであると明言されることがある[11]。
新しい診断方法が利用可能になるにつれ、「ゴールドスタンダード」検査は時とともに変わる可能性がある。たとえば大動脈解離の診断の場合、かつては大動脈造影法がゴールドスタンダードであったが、感度83%、特異度87%と低いものであった。磁気共鳴画像法(MRI)の進歩により、感度95%、特異度92%の高い精度を持つ磁気共鳴血管画像法(MRA)が大動脈解離の新たなゴールドスタンダードとなった[要出典]。新しい検査法が広く受け入れられるまでは、以前の検査法が「ゴールドスタンダード」の地位を保っていた。
検査の較正
[編集]検査結果が不正確な可能性(偽陰性または偽陽性となる場合)があるため、検査結果は検査対象者の病歴、身体所見、およびその他の検査結果を踏まえて解釈すべきである。この観点から、「ゴールドスタンダード」検査の感度と特異度は決定される[要出典]。
ゴールドスタンダードが完璧でない場合、その感度と特異度は、より正確な検査や疾患の定義に基づいて較正されなければならない[12]。完璧な検査が剖検によってのみ可能である場合、この較正は特に重要である。研究自体に起因するバイアスを避けるため、検査は複数の観察者による一致性を満たす必要がある[13]。較正エラーは誤診につながる可能性がある[14]。
![]() | この節の加筆が望まれています。 |
曖昧さ
[編集]ときには、「ゴールドスタンダード検査」(gold standard test)という用語は、利用可能なうちの最高性能の検査を指す場合もある。このような場合、比較対象となる基準は他になく、定義と同義である。その意味では、ゴールドスタンダード検査は通常は実施されない。これは、ゴールドスタンダード検査の実施が困難であったり、生きた人間に対して実施不可能であったりする可能性があるためである(たとえば、剖検の一部として行われる場合や、検査結果が臨床的に有用なものになるまでに時間がかかりすぎる場合など)。
「ゴールドスタンダード」はまた、利用可能なうちで最高性能の検査を指すのではなく、妥当な条件下で利用可能な最良のものを指す場合もある。この意味では、たとえばMRIは脳腫瘍診断のゴールドスタンダードであるが、生検ほど優れているわけではない。この場合、ゴールドスタンダードの感度と特異度は100%ではなく、「不完全なゴールドスタンダード」(imperfect gold standard、alloyed gold standard)と呼ばれる[12]。
「グラウンドトゥルース」(ground truth)という用語は、基本的かつ絶対的な情報を指す。ゴールドスタンダードは、可能な限りグラウンドトゥルースに近い状態を表わそうと努めている。ゴールドスタンダードは真実を得る最善の努力であるのに対し、グラウンドトゥルースは通常、直接観察によって収集される。
一部の著者は「ゴールデンスタンダード(golden standard)」という用語を使用している。Claassenは、ゴールデンスタンダードという用語は医学では達成不可能な完璧さを示唆しており、誤りであると主張した[5]。
関連項目
[編集]脚注
[編集]- ^ a b Borowitz D, Aronoff N, Cummings LC, Maqbool A, Mulberg AE (April 2022). “Coefficient of Fat Absorption to Measure the Efficacy of Pancreatic Enzyme Replacement Therapy in People With Cystic Fibrosis: Gold Standard or Coal Standard?”. Pancreas 51 (4): 310–318. doi:10.1097/MPA.0000000000002016. PMC 9257055. PMID 35695742 .
- ^ Gold, R; Reichman, M; Greenberg, E; Ivanidze, J; Elias, E; Tsiouris, AJ; Comunale, JP; Johnson, CE et al. (September 2010). “Developing a new reference standard: is validation necessary?”. Academic Radiology 17 (9): 1079–82. doi:10.1016/j.acra.2010.05.021. PMC 2919497. PMID 20692619 .
- ^ Versi E (July 1992). “"Gold standard" is an appropriate term”. BMJ 305 (6846): 187. doi:10.1136/bmj.305.6846.187-b. PMC 1883235. PMID 1515860 .
- ^ Fardy, John M.; Barrett, Brendan J. (2015). “Evaluation of Diagnostic Tests”. Clinical Epidemiology. Methods in Molecular Biology. 1281. pp. 289–300. doi:10.1007/978-1-4939-2428-8_17. ISBN 978-1-4939-2427-1. PMID 25694317
- ^ a b Claassen, JA (24 December 2005). “['Gold standard', not 'golden standard'].”. Nederlands Tijdschrift voor Geneeskunde 149 (52): 2937. PMID 16402524.
- ^ ACLS: Principles and Practice. p. 62. Dallas: American Heart Association, 2003. ISBN 0-87493-341-2.
- ^ “Guide for Authors”. Archives of biological Medicine and Rehabilitation. Elsevier. 2007年9月11日閲覧。
- ^ “Criterion Standard - AMA Style Insider” (2011年6月21日). 2021年5月18日閲覧。
- ^ Bachmann, Lucas M; Jüni, Peter; Reichenbach, Stephan; Ziswiler, Hans-Rudolf; Kessels, Alfons G; Vögelin, Esther (1 August 2005). “Consequences of different diagnostic 'gold standards' in test accuracy research: Carpal Tunnel Syndrome as an example”. International Journal of Epidemiology 34 (4): 953–955. doi:10.1093/ije/dyi105. PMID 15911545.
- ^ Troy LM, Michels KB, Hunter DJ, Spiegelman D, Manson JE, Colditz GA, Stampfer MJ, Willett WC (February 1996). “Self-reported birthweight and history of having been breastfed among younger women: an assessment of validity”. International Journal of Epidemiology 25 (1): 122–127. doi:10.1093/ije/25.1.122. PMID 8666479.
- ^ Kaufman, Noah K. (2022-07-03). “Rethinking "gold standards" and "best practices" in the assessment of autism” (英語). Applied Neuropsychology: Child 11 (3): 529–540. doi:10.1080/21622965.2020.1809414. ISSN 2162-2965. PMID 32847428 .
- ^ a b Spiegelman D, Schneeweiss S, McDermott A (January 1997). “Measurement error correction for logistic regression models with an "alloyed gold standard"”. American Journal of Epidemiology 145 (2): 184–196. doi:10.1093/oxfordjournals.aje.a009089. PMID 9006315.
- ^ Stein PD, Athanasoulis C, Alavi A, Greenspan RH, Hales CA, Saltzman HA, Vreim CE, Terrin ML, Weg JG (February 1992). “Complications and validity of pulmonary angiography in acute pulmonary embolism”. Circulation 85 (2): 462–468. doi:10.1161/01.CIR.85.2.462. PMID 1735144.
- ^ Gallaher MP, Mobley LR, Klee GG, Schryver P (April 2004). The Impact of Calibration Error in Medical Decision Making (PDF) (Report). Washington (DC): National Institute of Standards and Technology.