資料文獻

《中國人手腕骨發(fā)育標準-中華05》II. RUS-CHN 和TW3-C腕骨方法的讀片可靠性


時間: 2021/8/18 9:22:08 瀏覽量:1264 字號選擇: 分享到:

在體育、醫(yī)學、生物學等領域中,廣泛使用骨齡來評價兒童少年的發(fā)育程度。因此,檢驗骨齡評價的可靠性,不僅對評價方法的方法學有深入的了解,更重要的是能夠對骨齡評價結果做出正確的估價,提高應用實踐的工作質(zhì)量,增強不同評價者之間評價結果的可比性。

和任何科學實驗方法一樣,骨齡評價方法也存在有系統(tǒng)誤差和隨機誤差。G-P圖譜法和TW計分法是國際上應用非常廣泛的骨齡評價方法。人們在長期的臨床應用過程中,也對這兩種方法的可靠性進行了廣泛的研究[1, 2]。Tanner et al.根據(jù)可靠性研究結果,對TW1方法進行了修改,去掉了一些評價困難的手腕骨發(fā)育等級,并分別建立了RUS骨(橈尺骨、掌指骨)和腕骨的評價標準,提高了TW法的讀片可靠性[3]。

在中國兒童生長發(fā)育加速長期趨勢的背景環(huán)境下,我們參照TW3方法修訂了中國人手腕骨發(fā)育標準,并根據(jù)體育領域的需求,提出一種新的RUS-CHN評價方法。因為TW2-RUS方法的可靠性已經(jīng)有較多地研究,所以本文主要檢驗《中國人手腕骨發(fā)育標準—中華05》的RUS-CHN以及TW3-C腕骨成熟度評價的可靠性。

1.材料與方法

1.1 檢驗樣本

使用75名正常兒童(骨齡在3歲-18歲)左手腕后前位X線片進行讀片可靠性檢驗。因為腕骨發(fā)育成熟較早,所以在排除腕骨發(fā)育成熟的兒童后,腕骨的讀片可靠性檢驗的兒童(骨齡3歲-13.5歲)樣本為46名。

1.2 骨齡評價者

共有11名(其中1名為修訂標準的讀片員)評價者參加可靠性檢驗,根據(jù)下述條件將評價者分為三類:

有經(jīng)驗者:從事骨齡評價工作在5年以上,曾經(jīng)參加原《中國人骨發(fā)育標準-CHN法》培訓1次以上,平均每年讀片數(shù)量在1000例以上者。

較有經(jīng)驗者:從事骨齡評價工作在3年以上,曾經(jīng)參加CHN法培訓或有自學經(jīng)歷,平均每年讀片數(shù)量在1000例以下者;

無經(jīng)驗者:無骨齡評價經(jīng)歷者;或使用G-P方法讀片者;或雖然參加過原《中國人骨發(fā)育標準-CHN法》培訓或自學,但日常讀片數(shù)量較少者。

根據(jù)參加研究的評價者的基本情況,2名評價者(1,2號)為有經(jīng)驗者,2名評價者(3、4號)為較有經(jīng)驗者,6名(5、6、7、8、9、10號)評價者為無經(jīng)驗者;0號評價者為制訂標準的讀片員。

1.3 讀片檢驗過程

所有評價者集中培訓3天,由制訂《中國人手腕骨發(fā)育標準-中華05》的讀片員講解RUS-CHN法和TW3-C腕骨發(fā)育等級的定義,然后各評價者根據(jù)骨發(fā)育等級文字描述與圖示進行學習,使用統(tǒng)一的觀片燈練習讀片(每人的讀片數(shù)量約200張左右),并交流和討論。第四天,在無兒童年齡、性別資料的情況下,11名評價者(P0-P10)使用RUS-CHN法以隨機順序獨自閱讀75名正常兒童的X線片,其中7名評價者(0、1、2、4、5、6、8號)同時評價TW3-C腕骨發(fā)育等級。

20天后,通過郵寄資料,各評價者(7號評價者因故未重復評價)使用相同的評價方法,在一天時間內(nèi)獨自重復閱讀同一組兒童的手腕部X線片。

1.4 可靠性檢驗方法

1.4.1 手腕骨發(fā)育等級的重復性:計算每名評價者本人重復讀片、以及與標準制訂讀片員之間的手腕各骨發(fā)育等級相同例數(shù)的百分數(shù)。

1.4.2 重復讀片的系統(tǒng)誤差和隨機誤差:以重復讀片的骨齡平均數(shù)差值,比較評價者內(nèi)和評價者間骨齡評價的系統(tǒng)誤差;以重復讀片的骨齡差值計算一次讀片骨齡差值的標準差和95%的置信區(qū)間,比較評價者內(nèi)和評價者之間骨齡評價的隨機誤差。計算公式如下:

                 ±t0.05 × 

其中d為重復讀片的骨齡差值;nX線片數(shù)量;t0.05為顯著性為0.05水平時的t值。

根據(jù)以往文獻對TW2方法的檢驗結果,我們?nèi) ?.60歲作為單一讀數(shù)的95%置信區(qū)間是否適宜的分界值。

2.4.3 統(tǒng)計分析:使用SPSS11.0應用軟件統(tǒng)計分析。采用多個相關樣本非參數(shù)檢驗,檢驗評價者間各骨等級相同例數(shù)百分數(shù)的組間差異顯著性,如差異顯著,則以兩相關樣本非參數(shù)檢驗來檢驗兩兩評價者之間的差異顯著性;使用配對t檢驗,檢驗評價者本人重復讀片骨齡平均數(shù)的差異顯著性;以多變量方差分析檢驗評價者與標準制訂者之間骨齡讀數(shù)的組間差異顯著性,如果方差分析存在顯著性,則以配對樣本t檢驗來進一步檢驗各評價者與標準制定者平均數(shù)間的差異顯著性。

    2、結果

    2.1 評價者內(nèi)的可靠性

各評價者使用RUS-CHN法重復讀片,等級相同例數(shù)百分數(shù)的平均數(shù)在63.4%-82.2%之間,表1。根據(jù)表1和表2,可將評價者分為三類:一類是有經(jīng)驗者(1、2號)、較有經(jīng)驗者(3、4號)和部分無經(jīng)驗者(5、10號),等級相同的重復率相似,在78.0%-82.2%,相互之間的差異大都無統(tǒng)計學顯著性;二類是一名無經(jīng)驗者,等級相同的例數(shù)為74%,與6號和8號之間的差異顯著;三類是兩名無經(jīng)驗者(6、8號),等級相同的例數(shù)在63.4%-67.6%,與上述評價者的差異均有統(tǒng)計學的顯著性,而二者之間差異無顯著性。重復讀片不一致的等級主要出現(xiàn)在相鄰等級上,相差2個等級的例數(shù)很少,相差2個等級例數(shù)的百分數(shù)的平均數(shù)在1.3%-2.9%。

各評價者重復讀片,骨齡平均數(shù)差值的絕對值在0.01歲- 0.24歲之間。雖然2號、3號重復讀片的骨齡平均數(shù)差異有統(tǒng)計學的顯著性,但是骨齡平均數(shù)差值的絕對值很小,僅8號評價者的系統(tǒng)誤差較大。各評價者重復讀片,單一讀數(shù)的95%置信區(qū)間在±0.40歲-±0.76歲,除了6號、8號、9號評價者以外,大部分評價者本人重復讀片的隨機誤差在±0.6歲以下的適當范圍之內(nèi)(表1)。

7名評價者參加了TW3-C腕骨評價的可靠性檢驗。由表3和表4可見,有經(jīng)驗者(12號)的重復性較高,82.1%-83.2%,與其它評價者的差異顯著;較有經(jīng)驗者(4號)和無經(jīng)驗者(5、68號)的讀片重復性在65.6%-74.4%,相互之間的差異無顯著性。多數(shù)評價者相差2個等級的例數(shù)減少,少數(shù)評價者(6、8號)相差2個等級的例數(shù)增加。僅2名無經(jīng)驗者(5號、8號)重復評價的腕骨骨齡平均數(shù)有顯著性差異,分別有評價偏低和偏高的系統(tǒng)誤差。各評價者單一讀數(shù)95%置信區(qū)間為±0.32-±0.71歲,有5名評價者的隨機誤差在±0.60歲以下,2名無經(jīng)驗者在±0.60歲以上,分別為±0.68和±0.72

 image.png

image.png

image.png

image.png

 

2.2 評價者間的可靠性

由表5可見,各評價者與制訂標準讀片員之間,RUS-CHN法骨等級相同例數(shù)百分數(shù)的平均數(shù)在61.3%-77.3%,評價者間的等級重復性均低于其評價者內(nèi)的重復性。根據(jù)表5和表6,也可以將評價者間的重復性分為3類:一類是有經(jīng)驗者(1、2號)、較有經(jīng)驗者(3、4號)和1名無經(jīng)驗者(5號),其評價者間的重復性在75%左右(73%-77%),相互之間的差異無顯著性,而與其余評價者之間的差異大都有顯著性;二類是無經(jīng)驗者(9、10號),評價者間的重復性在70%左右(69%-70%),二者之間的差異無顯著性,但與第三類無經(jīng)驗者(6、7、8號)之間的差異大都有差異顯著性;三類是部分無經(jīng)驗者(6、7、8號),評價者間的重復性在65%左右(61%-66%),相互之間大都無差異顯著性。

各評價者與制訂標準讀片員間的骨齡平均數(shù)差值的絕對值在0.10- 0.25歲,5、7號評價者骨齡均數(shù)差異有顯著性,其系統(tǒng)誤差分別為-0.15歲和-0.25歲,5各評價者間的隨機誤差(單一讀數(shù)95%置信區(qū)間)為±0.42歲—±0.96歲。評價者間等級重復性在75%左右的5名評價者(有經(jīng)驗者1、2號、較有經(jīng)驗者3、4號以及無經(jīng)驗者5號 隨機誤差在±0.60歲以下(±0.41—±0.58);評價者間等級重復性在61%-70%的評價者(無經(jīng)驗者)的隨機誤差大于±0.60歲(±0.64-±0.96)。

評價者間腕骨等級的重復率在77.4%-88.0%,普遍高于RUS-CHN方法。根據(jù)表7和表8,也同樣可將評價者間的重復性分為3類:一類是有經(jīng)驗者(1、2號)和1名較有經(jīng)驗者(4號),評價者間等級相同例數(shù)的平均數(shù)在86%-88%,三者之間的差異無顯著性,但與其它評價者大都差異顯著;二類是等級相同例數(shù)的平均數(shù)在82%-84%的無經(jīng)驗者(5號、6號);三類是一名無經(jīng)驗者(8號),等級相同例數(shù)的平均數(shù)在77%,與其它評價者的差異均顯著。

5號和8號評價者的骨齡均數(shù)與制訂標準讀片員之間的差異達到顯著性水平,分別有高評和低評的系統(tǒng)誤差。4名評價者(有經(jīng)驗者、較有經(jīng)驗者以及1名無經(jīng)驗者)的隨機誤差在±0.60歲以下,2名無經(jīng)驗者在±0.60歲以上。

 image.png

image.png

image.png

image.png 

討論 

骨齡能夠評價正常和異常的生理發(fā)育,應用范圍廣泛,因此骨齡評價的可靠性受到了研究者和應用者的關注。國際間某些有經(jīng)驗者[ 4, 5, 6, 7]TW2-RUS法的評價者內(nèi)和評價者間的等級重復性分別為82.7%- 91.4%和74.4%-80.5%;TW2腕骨評價者內(nèi)和評價者間的等級重復性分別為80.6%-92.3%和74.1%-88.0%;TW2-RUS方法的評價者內(nèi)和評價者間的隨機誤差分別為±0.42歲-±0.50歲和±0.58歲±0.76歲;TW2-腕骨評價者內(nèi)和評價者間的隨機誤差分別為±0.48歲-±0.72歲和±0.82歲-±0.84歲。與這些研究結果相比,本研究中的有經(jīng)驗者接近或達到了國際間的骨齡評價可靠性水平,但是大部分無經(jīng)驗者經(jīng)過一次讀片訓練后的讀片可靠性仍然較低。

骨發(fā)育等級是根據(jù)順序出現(xiàn)的成熟度指征將骨發(fā)育的連續(xù)過程所劃分出的若干階段,在每個階段中,雖然骨的發(fā)育在繼續(xù),但是在骨齡評價中骨的發(fā)育等級不變。因此,一個成熟度指征未出現(xiàn)與出現(xiàn)的這個階段(等級的交界處)的評價較為困難,這可能是影響重復性的主要因素之一。RUS-CHN法所評價的骨的塊數(shù)和TW3-RUS相同,但是評價等級的數(shù)量由103個增加到了150個。在同樣的骨發(fā)育過程中等級數(shù)量增加就增加了等級交界處,因而增加了骨發(fā)育等級不一致的例數(shù)。但是,雖然RUS-CHN法增加了骨發(fā)育等級,可能降低等級重復性的同時,也減小了不同骨等級的得分差,因而也減小了等級讀數(shù)不同對骨齡數(shù)值的影響,也就降低了RUS-CHN骨齡評價的隨機誤差,因而大部分評價者一次讀片骨齡的95%置信區(qū)間達到了國際間TW2-RUS方法的可靠性水平。

計分法分別評價每塊骨的發(fā)育等級,當一塊骨等級評價不一致時,得分誤差對于骨齡數(shù)值的影響較小,但如果評價者有普遍高評或低評的傾向時,將隨著骨等級不一致的骨塊數(shù)的增加而加大骨齡評價的系統(tǒng)誤差。例如,本文的5號和8號評價者,腕骨評價者內(nèi)等級重復率有低評和高評的傾向,而在評價者間的腕骨可靠性檢驗中,和標準制定讀片員之間的等級重復率又分別有高評和低評的傾向,都出現(xiàn)了顯著的系統(tǒng)誤差。另外,不同骨的權重差異,或在不同年齡段出現(xiàn)的等級不一致,對于骨齡評價的系統(tǒng)誤差和隨機誤差的影響是不同的。所以,在檢驗中僅等級重復率不能完全說明骨齡評價的可靠性。在應用實踐和研究工作中,過大的系統(tǒng)誤差和隨機誤差有可能掩蓋了事實真相而得出錯誤的結論。因此,在定期的可靠性檢驗中,不僅要檢驗評價者內(nèi)和評價者間的重復性,還應當計算檢驗系統(tǒng)誤差和隨機誤差。

在骨齡的應用越來越廣泛的情況下,無論使用哪種方法,定期進行可靠性檢驗是很有必要的??煽啃詸z驗不僅可以發(fā)現(xiàn)骨等級評價重復性較低的骨,通過進一步的學習與訓練提高重復性,還可以對骨齡評價結果的系統(tǒng)誤差和隨機誤差得出正確的估價。評價者間的可靠性檢驗對于保持不同使用者、不同單位、不同系統(tǒng)骨齡評價工作的一致性和可比性,提高應用工作質(zhì)量有重要的作用。


相關文章推薦

《中國人手腕骨發(fā)育標準—中華05》-TW3-C RUS、TW3-C腕骨和RUS-CHN方法

 

參考文獻

[1] Acheson R. M., Joan H. Vicinus and Gillian B. Fowler Studies in the reliability of Assessing Skeletal Maturity from X-ray. Part II. The Bone-Specific Approach. Hum Biol,1964,36:211-228.

[2] Acheson R. M., Joan H. Vicinus and Gillian B. Fowler Studies in the reliability of Assessing Skeletal Maturity from X-ray. Part III. Greulich-Pyle Atals and Tanner-Whitehouse Method Contrasted. Hum Biol,1966,38:205-218,.

[3] Tanner J. M. and R. H. Whitehouse et al. Assessment of Skeletal Maturity and Prediction of Adult Height (TW2 method).London: Academic Press, 1983.

[4] Wenzel A. and B. Melsen  Replicability of assessing radiographs by the Tanner and Whitehouse-2 method. Hum Biol,1982,54(3):575-581.

[5] Bull R. K, P. D. Edwards, P. M. Kemp et al. Bone age assessment: a large scale comparison of the Greulich and Pyle, and Tanner and Whitehouse (TW2) methods. Arch Dis Child, 1999, 81:172-173.

[6] Beunen G. and N. Cameron The reproducibility of TW2 skeletal age assessments by a self-taught assessor. Ann Hum Biol, 1980,7(2): 155-162.

[7] Medicus,H.,A.M.Gron and C.F.A.Moorees Reproducilibity of rating stages of osseous development. Am J Phys Anthropol,1976,35:359-372.


返回列表