दोनों विधियाँ एक ही विचार पर निर्भर करती हैं, कि देखे गए विचरण को विभिन्न भागों या घटकों में विघटित करना। हालांकि, इसमें सूक्ष्म अंतर हैं कि क्या हम वस्तुओं और / या चूहे को निश्चित या यादृच्छिक प्रभाव मानते हैं। यह कहने के अलावा कि कुल परिवर्तनशीलता के किस हिस्से को बीच के कारक द्वारा समझाया गया है (या अवशिष्ट विचरण से बीच का अंतर कितना है), एफ-परीक्षण बहुत कुछ नहीं कहता है। कम से कम यह एक तरफ़ा एनोवा के लिए है जहाँ हम एक निश्चित प्रभाव मानते हैं (और जो नीचे ICC (1,1) से मेल खाता है)। दूसरी ओर, ICC एक बाध्य सूचकांक प्रदान करता है जब कई "विनिमेय" चूहे, या विश्लेषणात्मक इकाइयों के बीच एकरूपता के लिए रेटिंग विश्वसनीयता का आकलन करता है।
हम आम तौर पर विभिन्न प्रकार के ICCs के बीच निम्नलिखित अंतर करते हैं। यह श्राउट एंड फ्लेस (1979) के सेमिनल कार्य से आता है:
- वन-वे रैंडम इफेक्ट्स मॉडल , ICC (1,1): प्रत्येक आइटम को अलग-अलग रिटनरों द्वारा रेट किया जाता है, जिन्हें संभावित रिटेनर्स के एक बड़े पूल से नमूना माना जाता है, इसलिए उन्हें यादृच्छिक प्रभाव के रूप में माना जाता है; ICC की व्याख्या तब की जाती है जब विषयों / वस्तुओं के विचरण के हिसाब से कुल विचरण का% होता है। इसे स्थिरता आईसीसी कहा जाता है।
- दो-तरफा यादृच्छिक प्रभाव मॉडल , ICC (2,1): दोनों कारक - चूहे और आइटम / विषय - यादृच्छिक प्रभावों के रूप में देखे जाते हैं, और हमारे पास अवशिष्ट विचरण के अलावा दो विचरण घटक (या माध्य वर्ग) हैं; हम आगे मानते हैं कि चूहे सभी वस्तुओं / विषयों का आकलन करते हैं; ICC इस मामले में चूहे + वस्तुओं / विषयों के कारण विचरण का% देता है।
- दो-तरफ़ा मिश्रित मॉडल , ICC (3,1): एक तरफ़ा दृष्टिकोण के विपरीत, यहाँ चूहे निश्चित प्रभाव (हाथ में नमूने से परे कोई सामान्यीकरण नहीं) के रूप में माने जाते हैं, लेकिन आइटम / विषयों को यादृच्छिक प्रभाव के रूप में माना जाता है; विश्लेषण की इकाई व्यक्ति या औसत रेटिंग हो सकती है।
यह उनकी तालिका 1 में मामलों 1 से 3 से मेल खाती है। एक अतिरिक्त अंतर इस आधार पर बनाया जा सकता है कि क्या हम मानते हैं कि देखी गई रेटिंग कई रेटिंग का औसत है (उन्हें आईसीसी (1, के), आईसीसी (2, के) कहा जाता है, और आईसीसी (3, के)) या नहीं।
संक्षेप में, आपको सही मॉडल (वन-वे बनाम टू-वे) का चयन करना होगा, और यह काफी हद तक श्राउट और फ्लेस के पेपर में चर्चा की गई है। एक तरफ़ा मॉडल दो-तरफ़ा मॉडल की तुलना में छोटे मूल्यों का उत्पादन करता है; इसी तरह, एक यादृच्छिक-प्रभाव वाला मॉडल आमतौर पर एक निश्चित-प्रभाव वाले मॉडल की तुलना में कम मूल्यों का उत्पादन करता है। फिक्स्ड-इफेक्ट्स मॉडल से प्राप्त ICC को रैटर्स स्थिरता (क्योंकि हम रैटर विचरण को अनदेखा करते हैं) का आकलन करने का एक तरीका माना जाता है , जबकि एक रैंडम-इफेक्ट मॉडल के लिए हम रिटनर्स एग्रीमेंट के अनुमान की बात करते हैं (चाहे रैटर्स इंटरचेंजेबल हैं या नहीं)। केवल दो-तरफ़ा मॉडल रैटर एक्स विषय अंतःक्रिया को सम्मिलित करते हैं, जो अनैतिक रेटिंग पैटर्न को जानने की कोशिश करते समय रुचि हो सकती है।
निम्नलिखित उदाहरण आसानी से मनोवैज्ञानिक पैकेज ICC()
में उदाहरण ( उदाहरण श्रुत और फ्लेस, 1979 से आते हैं) की एक कॉपी / पेस्ट है । डेटा में 4 जज (J) होते हैं, जो 6 विषयों या लक्ष्य (S) को मानते हैं और नीचे संक्षेप में प्रस्तुत किए गए हैं (मैं मानूंगा कि इसे R मैट्रिक्स नाम दिया गया है )sf
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
यह उदाहरण दिलचस्प है क्योंकि यह दर्शाता है कि मॉडल की पसंद परिणामों को कैसे प्रभावित कर सकती है, इसलिए विश्वसनीयता अध्ययन की व्याख्या। सभी 6 आईसीसी मॉडल इस प्रकार हैं (श्रुत और फ्लेस के पेपर में यह तालिका 4 है)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
जैसा कि देखा जा सकता है, निश्चित प्रभाव के रूप में रिटेनर्स पर विचार करना (इसलिए रैटर्स के एक व्यापक पूल को सामान्य करने की कोशिश नहीं करना) माप की समरूपता के लिए बहुत अधिक मूल्य प्राप्त करेगा। (समान परिणाम इरेज़ पैकेज के साथ प्राप्त किए जा सकते हैं icc()
), ( हालांकि हमें मॉडल प्रकार और विश्लेषण की इकाई के लिए अलग विकल्प के साथ खेलना चाहिए।)
एनोवा दृष्टिकोण हमें क्या बताता है? प्रासंगिक साधन प्राप्त करने के लिए हमें दो मॉडल फिट करने होंगे:
- एक तरह से मॉडल जो केवल विषय पर विचार करता है; यह निर्धारित किए जा रहे लक्ष्यों को अलग-अलग करने की अनुमति देता है (समूह-समूह MS, BMS के बीच) और भीतर त्रुटि शब्द (WMS) का एक अनुमान प्राप्त करें
- एक दो-तरफ़ा मॉडल जो विषय + रेटर + उनकी बातचीत पर विचार करता है (जब कोई प्रतिकृति नहीं है, तो यह अंतिम शब्द अवशिष्ट के साथ भ्रमित हो जाएगा); यह रैटर के मुख्य प्रभाव (JMS) का अनुमान लगाने की अनुमति देता है, जिसे यदि हम एक यादृच्छिक प्रभाव मॉडल का उपयोग करना चाहते हैं (यानी, हम इसे कुल परिवर्तनशीलता में जोड़ देंगे)
एफ-टेस्ट को देखने की कोई जरूरत नहीं है, केवल एमएस यहां रुचि रखते हैं।
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
अब, हम अलग-अलग टुकड़ों को एक विस्तारित एनोवा तालिका में इकट्ठा कर सकते हैं, जो नीचे दिखाए गए अक्षर की तरह दिखता है (यह श्राउट और फ्लेस के पेपर में तालिका 3 है):
(स्रोत: mathurl.com )
जहाँ पहली दो पंक्तियाँ एक तरफ़ा मॉडल से आती हैं, जबकि अगली दो पंक्तियाँ दो तरफ़ा एनोवा से आती हैं।
श्राउट और फ्लेस के लेख में सभी फॉर्मूलों को जांचना आसान है, और हमारे पास एक मूल्यांकन के लिए विश्वसनीयता का अनुमान लगाने के लिए आवश्यक सब कुछ है । कई आकलन के औसत के लिए विश्वसनीयता के बारे में क्या (जो अक्सर अंतर-रेटर अध्ययन में रुचि की मात्रा है)? हेय्स एंड रेवकी (2005) के बाद, इसे उपरोक्त अपघटन से प्राप्त किया जा सकता है, जो कि दो-तरफा यादृच्छिक-प्रभाव मॉडल को छोड़कर कुल एमएस में बदल जाता है, जिसके लिए हमें एमएस के अनुपात को फिर से लिखना होगा।
- ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) के मामले में, समग्र विश्वसनीयता (BMS-WMS) /BMS=0.443 के रूप में गणना की जाती है।
- ICC (2,1) के लिए = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), समग्र विश्वसनीयता है (N • (BMS-EMS)) / (एन • बीएमएस + JMS-ईएमएस) = 0.620।
- अंत में, ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) के लिए, हमारे पास (BMS-EMS) /BMS=0.909 की विश्वसनीयता है।
फिर, हम पाते हैं कि जब कुलीनों को निश्चित प्रभाव के रूप में देखते हुए समग्र विश्वसनीयता अधिक होती है।
संदर्भ
- श्राउट, पीई और फ्लेस, जेएल (1979)। इंट्राक्लास सहसंबंध: रेटर विश्वसनीयता का आकलन करने में उपयोग करता है । मनोवैज्ञानिक बुलेटिन , 86, 420-3428।
- हेस, आरडी और रेविकी, डी। (2005)। विश्वसनीयता और वैधता (जवाबदेही सहित)। फेयर्स में, पी। और हेज़, आरडी (एड।), क्लिनिकल ट्राइएफ़ में जीवन की गुणवत्ता का आकलन , दूसरा संस्करण, पीपी। 25-39। ऑक्सफोर्ड यूनिवरसिटि प्रेस।