臨床研究方案設(shè)計統(tǒng)計學論文
時間:2022-08-01 10:26:35
導語:臨床研究方案設(shè)計統(tǒng)計學論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
一、研究設(shè)計
研究設(shè)計是一系列廣泛概念的統(tǒng)稱,通常包括適應(yīng)癥(目標人群)的選擇、試驗的總體設(shè)計以及具體研究假設(shè)的提出,目標人群是開展試驗和建立研究結(jié)果的基礎(chǔ),方案中一般通過設(shè)置明確的入選和排除標準,對納入和評價的對象進行嚴格的界定。總體設(shè)計一般是指試驗所采取的形式,例如:前瞻性、隨機、對照試驗,對照的設(shè)置是統(tǒng)計學在研究設(shè)計中強調(diào)的重點,在設(shè)置了合理的對照后,還需考慮通過隨機和盲法等措施進一步降低研究中潛在的偏倚。另一個設(shè)計時的關(guān)鍵點在于,需要將臨床的研究目的提煉為統(tǒng)計學的研究假設(shè),并最終通過研究結(jié)果對其進行驗證,看是否能夠?qū)崿F(xiàn)預(yù)期的研究目的。
1.目標人群:研究結(jié)果建立的基礎(chǔ)至關(guān)重要,目標人群直接決定研究結(jié)果的外推性,研究中所涉及的人群包括:目標人群、可評價人群和研究人群,目標人群是研究設(shè)計所針對的對象總體,但是一項研究不可能將特定疾病或特征的研究對象全部納入,所以就形成了可評價人群,指在目標人群中有可能被納入或參與試驗的子人群。而最終簽署了知情同意并進入研究的,又是這個可評價人群中的一個亞組,至此建立研究結(jié)果的基礎(chǔ)可能已經(jīng)與最初的目標人群存在差異,其結(jié)果代表性和外推性都可能受到局限。值得注意的是,在一項研究中設(shè)定嚴格的入選/排除標準,其優(yōu)勢在于能夠更直接的對所研究的干預(yù)進行評價,但其不足就體現(xiàn)于在“高度選擇”的人群基礎(chǔ)上,所獲得結(jié)果的外推性可能受到嚴重影響。而且,在對預(yù)期療效進行估計時,應(yīng)考慮不同地域或地區(qū)人群在人口學指標和病史等特征上的系統(tǒng)性差異,例如:南方和北方,東、中、西部在飲食和生活方式上可能存在不同,這些差異有可能導致不同的治療效果。除了這些研究對象內(nèi)在因素可能導致的差異外,地域包括醫(yī)院、科室間治療在操作規(guī)范上的差異同樣會導致的療效的不同。PLATO(plateletinhibitionandpatientoutcomes,血小板抑制與患者預(yù)后)研究中,不同地區(qū)阿司匹林維持劑量上的使用差異正是導致其結(jié)果存在異質(zhì)性的原因[1]。這就使得在對研究目標人群進行設(shè)定時,需對可能的臨床異質(zhì)性來源進行控制。
2.設(shè)置合理的對照:在臨床研究中設(shè)置合理的對照至關(guān)重要[2],引入對照后,可以將由于疾病自然進展、安慰劑作用、伴隨治療以及其他原因?qū)е碌闹委熜Ч枰耘懦?,從而對所關(guān)心的干預(yù)方法進行客觀真實的評價。同時,統(tǒng)計上的“向均值回歸”現(xiàn)象也會導致在對接受單一干預(yù)的患者進行觀察時,可能觀察到不真實的治療效果。例如,在研究一種降壓藥的有效性時,所有患者都接受了試驗藥物的治療,通過治療前后的血壓變化評價治療效果。由于基線時入選的都是高血壓者(基線血壓測量結(jié)果),這些患者的血壓值已經(jīng)偏離了人群的平均水平,在隨訪時即便藥物無效,也可能由于“向均值回歸”的現(xiàn)象導致,同一患者在重復(fù)測量時的血壓會低于首次測量(向人群的平均靠攏)。這一問題,在有對照組存在的情況下,則可予以避免。這里所強調(diào)的是“合理的對照”而非“對照組”[3-4],因為在臨床研究中對照的形式可以是多樣的,例如:單組目標值對照,研究者有必要將目標值對照與患者自身前后對照予以區(qū)分,從統(tǒng)計學角度不推薦在臨床研究中采取自身前后對照的形式,其原因在于,自身前后對照發(fā)現(xiàn)的改變僅停留在有統(tǒng)計學意義的層面,而這一改變的效應(yīng)大小是否有足夠的臨床意義,才是一項研究預(yù)解決的問題關(guān)鍵。同樣,目標值對照與歷史對照也有與以上一樣的局限性,因為對當前研究而言,上述兩類對照均來源于外部。從統(tǒng)計角度,平行的對照組才是最理想的對照方式。
3.隨機和盲法:在設(shè)置了對照的基礎(chǔ)上,還應(yīng)采用隨機和盲法來進一步控制研究評價中潛在的偏倚[5]。隨機化分組能夠保證試驗和對照組間的均衡性,如不采用隨機化分組,醫(yī)師或患者有可能根據(jù)病情或其他原因有意向的選擇特定的治療方法,存在組間基線差異的指標就是所謂的混雜因素,例如,上述降壓藥物試驗中,如果發(fā)現(xiàn)在試驗組基線的血壓就已經(jīng)低于對照,相當于失去了比較的基礎(chǔ)。同樣,即便采用了隨機分組,如果患者知曉所服用的藥物是陽性治療或安慰劑,由于心理作用或?qū)χ委熜Ч念A(yù)期,完全可能導致不同的結(jié)果,這就要求研究者盡可能的在試驗中采用盲法,隨機雙盲對照試驗在單項研究中具有最高的證據(jù)級別,其原因正是因為采用了這些避免和降低試驗偏倚的措施。臨床研究中的隨機和盲法其實是廣義的概念,隨機化不僅應(yīng)用在治療分組,同樣可以應(yīng)用于治療或檢查順序的制定、同一患者存在多處病變時的結(jié)果評價(預(yù)評價患者水平的結(jié)果時可從多處病變中隨機選取一處)。盲法除了經(jīng)典藥物試驗中的單盲和雙盲外,越來越多的研究采用第三方盲法評價的方式,來盡可能避免試驗結(jié)果評價中的主觀偏性,第三方盲法是指由不直接參與研究的人員,在盲態(tài)下對試驗結(jié)果(化驗或檢查)進行判定,從而減小由于知曉患者分組而可能對結(jié)果判讀造成的主觀影響。第三方盲法與“三盲”是完全不同的概念,“三盲”通常指在對醫(yī)師和患者設(shè)盲的基礎(chǔ)上,統(tǒng)計人員在分析過程中也處于“盲態(tài)”,以避免在分析時可能有意選擇對某一組更為有利的統(tǒng)計方法,三盲可以理解為是在經(jīng)典雙盲的概念基礎(chǔ)上進一步的擴展,而第三方盲法則是利用研究“外部人員”的獨立性,來盡可能避免評價時的主觀偏向。采用核心實驗室(corelab)以及設(shè)立終點委員會(clinicalendpointcommittee,CEC)都屬于第三方盲法的應(yīng)用實例。
4.研究假設(shè):將研究目的轉(zhuǎn)化為研究假設(shè)是最容易被研究者忽視的問題,例如:研究方案中指出,在原發(fā)腎小球腎炎的患者中,比較中藥與血管緊張素受體拮抗劑(angiotensinreceptorblocker,ARB)在控制尿蛋白水平上的效果,研究者設(shè)置了3個干預(yù)組,分別為:中藥組、ARB組及中藥+ARB組。如將研究假設(shè)表述為“比較3組間是否有差異”是不恰當?shù)?,原因是所設(shè)置的3個干預(yù)組,兩兩間比較的預(yù)期結(jié)果是有區(qū)別的。ARB作為臨床常規(guī)使用的治療方法是基礎(chǔ)的對照組,單純的中藥與其相比,臨床預(yù)期可能僅為中藥能夠和ARB達到類似的療效,這就是統(tǒng)計上的非劣效比較[7];而如果在ARB的基礎(chǔ)上進一步聯(lián)合中藥,預(yù)期的結(jié)果可能是ARB+中藥要優(yōu)于單獨使用ARB,這就是統(tǒng)計上的優(yōu)效性比較。至此,上述問題已經(jīng)分離出了兩個獨立的研究假設(shè),即:中藥與ARB對比的非劣效假設(shè),以及中藥+ARB與ARB對比的優(yōu)效性假設(shè)。如果研究者預(yù)對中藥+ARB與單用中藥的效果進行比較,就會產(chǎn)生第三個假設(shè),當然這個假設(shè)的合理性和必要性則需要臨床專家予以回答。上述問題還相對簡單,如果再增加ARB雙倍劑量組和中藥+ARB雙倍劑量組,使得總的組別數(shù)變?yōu)?組,這時研究假設(shè)的設(shè)置將變得更為復(fù)雜,任何兩組間可能建立起的比較,都需要有具體的研究假設(shè)(統(tǒng)計)相對應(yīng)。此時,如發(fā)現(xiàn)無法提出明確的研究假設(shè),可能說明最初的組別設(shè)置考慮不周,提示需要考慮刪除或者優(yōu)化組別的設(shè)置。提出明確的統(tǒng)計學研究假設(shè),實際上是在幫助研究者理清研究思路,并明確預(yù)期可能獲得的研究結(jié)果。明確研究假設(shè)的原因在于,研究結(jié)果的判定須與假設(shè)相對應(yīng),例如之前提到的非劣效假設(shè),研究方案中必須預(yù)先指明非劣效界值,這一界值將參與樣本量的計算過程,而且,在試驗結(jié)束后要根據(jù)所獲得的研究結(jié)果與非劣效界值進行比較,通常通過試驗組與對照組療效差值的95%置信區(qū)間(如圖2所示),對研究是否成功進行判定。通過P>0.05來得出組間治療效果相當,以及在獲得分析結(jié)果后再給定非劣效界值的做法都是不正確的。
二、主要終點
研究設(shè)計確定后,終點指標的選擇也是研究設(shè)計的關(guān)鍵,主要終點的設(shè)定是研究設(shè)計的核心問題,其原因在于,主要終點既是樣本量確定的基礎(chǔ),同樣也是結(jié)果評價時判定研究是否成功的標準。關(guān)于主要終點的設(shè)定,涉及問題非常廣泛,此處僅對幾個比較常見的問題予以闡明[6]。首先,選擇替代終點還是臨床“硬終點”?不同的選擇會導致最終設(shè)計樣本量上的巨大差異。一般意義上,替代終點可在相對更短的觀察周期獲得,但早期替代終點上顯示出的治療差異是否能夠傳遞到最終的臨床終點,是研究者必須要考慮的問題,例如,在腫瘤研究中曾經(jīng)采用瘤體縮小程度作為療效評價的指標,但是由于瘤體的縮小與疾病進展及最終的死亡事件相關(guān)程度很低,所以目前的抗腫瘤研究已不再采用這一替代指標作為主要終點。替代指標與臨床硬終點間關(guān)聯(lián)程度的確認,最好能夠通過薈萃分析證實,而且在很多的治療領(lǐng)域已經(jīng)存在,被證實且被公認的替代指標。另外,設(shè)定唯一的主要終點還是多個主要終點?從統(tǒng)計角度看,更推薦采用唯一的主要終點,因為多終點會導致統(tǒng)計檢驗的假陽性膨脹問題,如想控制假陽性錯誤的水平,最終效果是增加研究的樣本量規(guī)模。所以,盡量選擇研究中最為重要、與干預(yù)效果最為相關(guān)的指標作為主要終點,其他指標都可以算為次要終點。一來可以避免試驗設(shè)計過于復(fù)雜、控制研究總體規(guī)模,而且可以增加研究結(jié)果為陽性的機會,因為,存在多個主要終點時,如果要求每個終點都達到預(yù)設(shè)的標準時,才認為研究“成功”,相當于提高了獲得陽性結(jié)果的難度。預(yù)對多個重要指標一并進行評價時,復(fù)合終點是另外一種選擇,例如:死亡、心梗和卒中這三者的復(fù)合就常見于大規(guī)模心血管臨床試驗。把哪些終點進行復(fù)合必須要結(jié)合臨床考慮,復(fù)合終點的統(tǒng)計學意義相對明確,通過復(fù)合可以提高終點事件的發(fā)生率水平,從而在合理的規(guī)模下進行研究。假設(shè)一項新治療方法可以比傳統(tǒng)方法降低20%的事件率,如果評價的死亡,可能對照的率僅為2%,預(yù)證明試驗組和對照組間的死亡率差異(1.6%對2%),可能需要幾萬例的樣本。但是,假設(shè)復(fù)合終點包括死亡和再入院率,同樣20%的相對降低,當建立在對照組20%的事件率基礎(chǔ)上時,組間的差異則更明顯(16%與20%),此時的樣本規(guī)??赡芸s小10倍甚至更多。不過復(fù)合終點也會引入特定的問題,因為所復(fù)合的終點中每一組分對于最終事件率的貢獻程度不同,而本身這些復(fù)合在一起的組分其臨床重要性也存在差異,如果上述例子中,最終復(fù)合終點的差異主要歸因于再住院,而死亡率在兩組沒區(qū)別,這一結(jié)果可能受到質(zhì)疑,因為再住院可能受到社會經(jīng)濟等多方面因素的影響,可能對直接的干預(yù)效果評價帶來偏倚。再者,主要指標的觀察時間點同樣重要,有的治療可能提供的是遠期優(yōu)勢,需要觀察幾年才能看到效果,同樣,有的治療方法可能在治療即刻就體現(xiàn)效果,但在過后的觀察期與傳統(tǒng)治療間可能并沒有明顯的優(yōu)勢,這就要求研究者在方案設(shè)計階段,結(jié)合具體的研究問題選擇合理的觀察時點,同樣,這里的時點指主要指標的“主要時點”,例如,可將服藥4周后的尿蛋白水平作為主要終點,而將治療2周的尿蛋白水平作為次要終點。
三、樣本量的確定
上述研究方案要素不明確的時候,很難對試驗樣本量進行合理準確的測算[8],只有上述研究方案要素都得到確認后,再結(jié)合預(yù)期療效的估計對研究的樣本規(guī)模進行測算[9]。樣本量計算通常需要以下的要素:
1.效應(yīng)值:所謂效應(yīng)值實際就是預(yù)期療效的估計,在比較兩組時,就相當于主要指標在組間的預(yù)期差異。兩組間的差異越大,證明起來就越容易,所需要的樣本量越小。反之兩組差異越小,想證明組間差異需要的樣本量就越多。除組間差異外,主要終點指標的變異也影響樣本量的規(guī)模,對于定量指標變異就是標準差,變異大的指標說明其可重復(fù)性差、測量誤差大,所以變異的大小與樣本量成正比,同樣的指標如果標準差更大,則需要的樣本量更多。對于定性指標,例如事件發(fā)生率,其本身就體現(xiàn)了變異的程度,事件率水平越接近50%,其不確定程度越高,相當于對應(yīng)的變異更大。效應(yīng)值的獲得,可以通過文獻、前期研究和臨床經(jīng)驗,相對準確的預(yù)期療效估計,能夠保證試驗設(shè)計具有更高的效率。當然,在試驗開始前對效應(yīng)值進行估計總是困難的,有時更多的需要基于臨床的判斷,例如,所估計的組間療效差異,應(yīng)具有一定的臨床顯著性,5mmHg(1mmHg=0.133kPa)的收縮壓改變,可能對應(yīng)的是遠期臨床心血管事件發(fā)生風險的降低;反之,如果組間差異過小,即便通過較大的研究樣本量,可能最終獲得的僅僅是統(tǒng)計學顯著的陽性結(jié)果,但是該結(jié)果可能缺乏臨床意義。
2.檢驗的顯著性水平:檢驗的顯著性水平可理解為與最終的P值對應(yīng),其臨床意義為,當所研究的兩組之間實際沒有差異時,通過一次試驗,錯誤的認為試驗組與對照組有差別的可能性。研究者都不希望犯這樣的錯誤,所以希望將犯錯誤的可能性控制在很低的水平,臨床研究中一般取為5%,這也就是為什么P<0.05時才認為存在顯著差異的原因,此時,出現(xiàn)假陽性(把沒差異的治療錯判為有差異)的概率小于5%,從而證明了差異是真實存在的。關(guān)于顯著性水平和單或雙側(cè)檢驗的關(guān)系問題也常被提及,從統(tǒng)計角度看,其實是兩個獨立的概念。通常,優(yōu)效性檢驗、非劣效檢驗可被看做單側(cè)檢驗,因為檢驗對應(yīng)的假設(shè)是有明確方向的。傳統(tǒng)的差異性檢驗是經(jīng)典的雙側(cè)檢驗。筆者建議在進行雙側(cè)檢驗時,顯著性水平最好取雙側(cè)5%,而進行單側(cè)檢驗時,顯著性水平則最好取到單側(cè)2.5%。從檢驗的要求上看,雙側(cè)5%與單側(cè)2.5%相對應(yīng),都能夠保證將研究者犯上述假陽性(將無效的治療錯判為有效)錯誤的可能性,控制在較低的水平。
3.把握度:把握度是研究設(shè)計中的重要概念,很多情況下,樣本量設(shè)計又被稱作把握度分析,把握度的概念很容易理解,是指當所研究的干預(yù)方法是真正有效的,那么通過一次試驗?zāi)軌蝽樌麑⑵渥C明的成功率。研究者當然希望這一成功率越高越好,不過,越高的把握度水平要求的樣本量也越多,通常在研究設(shè)計中,建議將把握度的水平設(shè)置在80%,在一些大規(guī)模臨床研究中,把握度水平可能達90%甚至更高。在獲得研究結(jié)果后再進行事后的把握度分析意義不大,通常陰性結(jié)果的研究,如果按照其觀察到的療效反算,把握度是不足的。這里的關(guān)鍵問題是,研究之所以出現(xiàn)陰性結(jié)果,肯定是因?qū)嶋H結(jié)果顯示的組間差異沒有達到設(shè)計時預(yù)期的水平,而如果在設(shè)計時所給出的已經(jīng)是最低的具有臨床意義的預(yù)期差異,此時再用把握度不足來解釋就顯得不夠充分,因為即便通過繼續(xù)擴大樣本量而獲得的顯著差異已經(jīng)沒有了臨床意義。而有意思的現(xiàn)象是,對于一個達到陽性的試驗結(jié)果而言,反算其把握度仍然可能是不足的,這牽扯到檢驗拒絕域的問題,從結(jié)論上看相對簡單,就是要慎重對待小樣本研究給出的結(jié)果,無論陰性或陽性,因為小樣本研究都會存在把握度不足,以及會給研究者提供錯誤信息的風險。總之,統(tǒng)計學在研究方案設(shè)計中發(fā)揮的作用,是將研究設(shè)計的要素進行串聯(lián),協(xié)助研究者將研究目的轉(zhuǎn)化為合理的研究假設(shè)、更好的確定目標人群的選擇、制定更合理的主要評價指標、選擇適合的統(tǒng)計方法等,并在此基礎(chǔ)上結(jié)合預(yù)期療效估計,為研究設(shè)計出合理的樣本規(guī)模。綜上,要獲得科學且合理的研究設(shè)計結(jié)果,需要從統(tǒng)計和臨床專業(yè)角度都予以全面考慮,且進行充分的溝通與協(xié)作。
作者:王楊工作單位:中國醫(yī)學科學院北京協(xié)和醫(yī)學院阜外心血管病醫(yī)院心血管病研究所心血管轉(zhuǎn)化醫(yī)學國家重點實驗室