इंट्राक्लास सहसंबंध गुणांक बनाम एफ-परीक्षण (एक तरफ़ा एनोवा)?


10

मैं इंट्रक्लास सहसंबंध गुणांक और एक तरफ़ा एनोवा के बारे में थोड़ा भ्रमित हूं। जैसा कि मैं इसे समझता हूं, दोनों आपको बताते हैं कि एक समूह के भीतर समान अवलोकन अन्य समूहों में टिप्पणियों के सापेक्ष कैसे हैं।

क्या कोई इसे थोड़ा बेहतर समझा सकता है, और शायद उस स्थिति (स्थितियों) के बारे में बताएगा जिसमें प्रत्येक विधि अधिक लाभप्रद है?


कृपया, विश्वसनीयता या अंतर-रैटर टैग देखने के लिए समय निकालें । ICC एक ANOVA तालिका पर आधारित है, लेकिन विचार केवल F- परीक्षण की तरह ही वितरण गुणों को जानने के साथ एकल परीक्षण सांख्यिकीय का उत्पादन करने के बजाय विचरण के घटकों का विश्लेषण करने के लिए है। आपके पास क्या आवेदन है?
chl

@chl मैं समूहीकृत डेटा के लिए अलग-अलग स्कोर का विश्लेषण करना चाहता हूं। मैंने माता-पिता और बच्चों के स्कोर के बीच अंतर की जांच करते हुए कुछ पेपर देखे हैं, आईसीसी का उपयोग करके यह बताने के लिए कि क्या माता-पिता या बच्चों की प्रतिक्रियाओं में महत्वपूर्ण अंतर था। मुझे लगता है कि आईसीसी वही है जो मैं यहां चाहता हूं, लेकिन जैसा कि मैंने उल्लेख किया है, मैं वास्तव में दोनों के बीच के अंतर को नहीं समझता हूं। मैं और अधिक पूछने में संकोच करता हूं, लेकिन क्या आप किसी अच्छे (बुनियादी) संदर्भ के बारे में जानते हैं? मेरी सांख्यिकी पृष्ठभूमि रेखीय प्रतिगमन पर रुक गई, और मुझे लगता है कि मैं ऐसे प्रश्न पूछ रहा हूं जो अच्छी तरह से तैयार नहीं हैं। धन्यवाद।
blep

ऐसा लगता है कि आपने डेटा जोड़ा है। अलग-अलग समूहों (माता-पिता बनाम उनके बच्चों) पर विचार करते हुए और स्कोर की विश्वसनीयता की रिपोर्ट करने के लिए ICC का उपयोग करते हुए, आप जानकारी का एक हिस्सा फेंक देंगे, अर्थात माता-पिता से रेटिंग और उनके रिश्तेदार एक सुसंगत तरीके से कार्य करते हैं। आपके दो ICCs केवल आपको बताएंगे कि क्या दोनों श्रृंखलाओं को स्वतंत्र माना जाता है, "विश्वसनीय" हैं, इस अर्थ में कि विचलन के एक महत्वपूर्ण हिस्से को रेटर प्रभाव के लिए जिम्मेदार माना जा सकता है। (...)
CHL

(...) संक्षेप में, यदि आप यह दिखाना चाहते हैं कि माता-पिता की रेटिंग बच्चों की तुलना में अधिक विश्वसनीय है, तो आईसीसी का उपयोग करना ठीक है; यदि, दूसरी ओर, आप यह अध्ययन करना चाहते हैं कि माता-पिता की रेटिंग बच्चों की रेटिंग से कैसे संबंधित है, तो आप अन्य प्रकार के विश्लेषण का सहारा ले सकते हैं (ठीक है, डायडिक डेटा का विश्लेषण)।
CHL

जवाबों:


17

दोनों विधियाँ एक ही विचार पर निर्भर करती हैं, कि देखे गए विचरण को विभिन्न भागों या घटकों में विघटित करना। हालांकि, इसमें सूक्ष्म अंतर हैं कि क्या हम वस्तुओं और / या चूहे को निश्चित या यादृच्छिक प्रभाव मानते हैं। यह कहने के अलावा कि कुल परिवर्तनशीलता के किस हिस्से को बीच के कारक द्वारा समझाया गया है (या अवशिष्ट विचरण से बीच का अंतर कितना है), एफ-परीक्षण बहुत कुछ नहीं कहता है। कम से कम यह एक तरफ़ा एनोवा के लिए है जहाँ हम एक निश्चित प्रभाव मानते हैं (और जो नीचे ICC (1,1) से मेल खाता है)। दूसरी ओर, ICC एक बाध्य सूचकांक प्रदान करता है जब कई "विनिमेय" चूहे, या विश्लेषणात्मक इकाइयों के बीच एकरूपता के लिए रेटिंग विश्वसनीयता का आकलन करता है।

हम आम तौर पर विभिन्न प्रकार के ICCs के बीच निम्नलिखित अंतर करते हैं। यह श्राउट एंड फ्लेस (1979) के सेमिनल कार्य से आता है:

  • वन-वे रैंडम इफेक्ट्स मॉडल , ICC (1,1): प्रत्येक आइटम को अलग-अलग रिटनरों द्वारा रेट किया जाता है, जिन्हें संभावित रिटेनर्स के एक बड़े पूल से नमूना माना जाता है, इसलिए उन्हें यादृच्छिक प्रभाव के रूप में माना जाता है; ICC की व्याख्या तब की जाती है जब विषयों / वस्तुओं के विचरण के हिसाब से कुल विचरण का% होता है। इसे स्थिरता आईसीसी कहा जाता है।
  • दो-तरफा यादृच्छिक प्रभाव मॉडल , ICC (2,1): दोनों कारक - चूहे और आइटम / विषय - यादृच्छिक प्रभावों के रूप में देखे जाते हैं, और हमारे पास अवशिष्ट विचरण के अलावा दो विचरण घटक (या माध्य वर्ग) हैं; हम आगे मानते हैं कि चूहे सभी वस्तुओं / विषयों का आकलन करते हैं; ICC इस मामले में चूहे + वस्तुओं / विषयों के कारण विचरण का% देता है।
  • दो-तरफ़ा मिश्रित मॉडल , ICC (3,1): एक तरफ़ा दृष्टिकोण के विपरीत, यहाँ चूहे निश्चित प्रभाव (हाथ में नमूने से परे कोई सामान्यीकरण नहीं) के रूप में माने जाते हैं, लेकिन आइटम / विषयों को यादृच्छिक प्रभाव के रूप में माना जाता है; विश्लेषण की इकाई व्यक्ति या औसत रेटिंग हो सकती है।

यह उनकी तालिका 1 में मामलों 1 से 3 से मेल खाती है। एक अतिरिक्त अंतर इस आधार पर बनाया जा सकता है कि क्या हम मानते हैं कि देखी गई रेटिंग कई रेटिंग का औसत है (उन्हें आईसीसी (1, के), आईसीसी (2, के) कहा जाता है, और आईसीसी (3, के)) या नहीं।

संक्षेप में, आपको सही मॉडल (वन-वे बनाम टू-वे) का चयन करना होगा, और यह काफी हद तक श्राउट और फ्लेस के पेपर में चर्चा की गई है। एक तरफ़ा मॉडल दो-तरफ़ा मॉडल की तुलना में छोटे मूल्यों का उत्पादन करता है; इसी तरह, एक यादृच्छिक-प्रभाव वाला मॉडल आमतौर पर एक निश्चित-प्रभाव वाले मॉडल की तुलना में कम मूल्यों का उत्पादन करता है। फिक्स्ड-इफेक्ट्स मॉडल से प्राप्त ICC को रैटर्स स्थिरता (क्योंकि हम रैटर विचरण को अनदेखा करते हैं) का आकलन करने का एक तरीका माना जाता है , जबकि एक रैंडम-इफेक्ट मॉडल के लिए हम रिटनर्स एग्रीमेंट के अनुमान की बात करते हैं (चाहे रैटर्स इंटरचेंजेबल हैं या नहीं)। केवल दो-तरफ़ा मॉडल रैटर एक्स विषय अंतःक्रिया को सम्मिलित करते हैं, जो अनैतिक रेटिंग पैटर्न को जानने की कोशिश करते समय रुचि हो सकती है।

निम्नलिखित उदाहरण आसानी से मनोवैज्ञानिक पैकेज ICC()में उदाहरण ( उदाहरण श्रुत और फ्लेस, 1979 से आते हैं) की एक कॉपी / पेस्ट है । डेटा में 4 जज (J) होते हैं, जो 6 विषयों या लक्ष्य (S) को मानते हैं और नीचे संक्षेप में प्रस्तुत किए गए हैं (मैं मानूंगा कि इसे R मैट्रिक्स नाम दिया गया है )sf

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

यह उदाहरण दिलचस्प है क्योंकि यह दर्शाता है कि मॉडल की पसंद परिणामों को कैसे प्रभावित कर सकती है, इसलिए विश्वसनीयता अध्ययन की व्याख्या। सभी 6 आईसीसी मॉडल इस प्रकार हैं (श्रुत और फ्लेस के पेपर में यह तालिका 4 है)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

जैसा कि देखा जा सकता है, निश्चित प्रभाव के रूप में रिटेनर्स पर विचार करना (इसलिए रैटर्स के एक व्यापक पूल को सामान्य करने की कोशिश नहीं करना) माप की समरूपता के लिए बहुत अधिक मूल्य प्राप्त करेगा। (समान परिणाम इरेज़ पैकेज के साथ प्राप्त किए जा सकते हैं icc()), ( हालांकि हमें मॉडल प्रकार और विश्लेषण की इकाई के लिए अलग विकल्प के साथ खेलना चाहिए।)

एनोवा दृष्टिकोण हमें क्या बताता है? प्रासंगिक साधन प्राप्त करने के लिए हमें दो मॉडल फिट करने होंगे:

  • एक तरह से मॉडल जो केवल विषय पर विचार करता है; यह निर्धारित किए जा रहे लक्ष्यों को अलग-अलग करने की अनुमति देता है (समूह-समूह MS, BMS के बीच) और भीतर त्रुटि शब्द (WMS) का एक अनुमान प्राप्त करें
  • एक दो-तरफ़ा मॉडल जो विषय + रेटर + उनकी बातचीत पर विचार करता है (जब कोई प्रतिकृति नहीं है, तो यह अंतिम शब्द अवशिष्ट के साथ भ्रमित हो जाएगा); यह रैटर के मुख्य प्रभाव (JMS) का अनुमान लगाने की अनुमति देता है, जिसे यदि हम एक यादृच्छिक प्रभाव मॉडल का उपयोग करना चाहते हैं (यानी, हम इसे कुल परिवर्तनशीलता में जोड़ देंगे)

एफ-टेस्ट को देखने की कोई जरूरत नहीं है, केवल एमएस यहां रुचि रखते हैं।

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

अब, हम अलग-अलग टुकड़ों को एक विस्तारित एनोवा तालिका में इकट्ठा कर सकते हैं, जो नीचे दिखाए गए अक्षर की तरह दिखता है (यह श्राउट और फ्लेस के पेपर में तालिका 3 है):


(स्रोत: mathurl.com )

जहाँ पहली दो पंक्तियाँ एक तरफ़ा मॉडल से आती हैं, जबकि अगली दो पंक्तियाँ दो तरफ़ा एनोवा से आती हैं।

श्राउट और फ्लेस के लेख में सभी फॉर्मूलों को जांचना आसान है, और हमारे पास एक मूल्यांकन के लिए विश्वसनीयता का अनुमान लगाने के लिए आवश्यक सब कुछ है । कई आकलन के औसत के लिए विश्वसनीयता के बारे में क्या (जो अक्सर अंतर-रेटर अध्ययन में रुचि की मात्रा है)? हेय्स एंड रेवकी (2005) के बाद, इसे उपरोक्त अपघटन से प्राप्त किया जा सकता है, जो कि दो-तरफा यादृच्छिक-प्रभाव मॉडल को छोड़कर कुल एमएस में बदल जाता है, जिसके लिए हमें एमएस के अनुपात को फिर से लिखना होगा।

  • ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) के मामले में, समग्र विश्वसनीयता (BMS-WMS) /BMS=0.443 के रूप में गणना की जाती है।
  • ICC (2,1) के लिए = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), समग्र विश्वसनीयता है (N • (BMS-EMS)) / (एन • बीएमएस + JMS-ईएमएस) = 0.620।
  • अंत में, ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) के लिए, हमारे पास (BMS-EMS) /BMS=0.909 की विश्वसनीयता है।

फिर, हम पाते हैं कि जब कुलीनों को निश्चित प्रभाव के रूप में देखते हुए समग्र विश्वसनीयता अधिक होती है।

संदर्भ

  1. श्राउट, पीई और फ्लेस, जेएल (1979)। इंट्राक्लास सहसंबंध: रेटर विश्वसनीयता का आकलन करने में उपयोग करता हैमनोवैज्ञानिक बुलेटिन , 86, 420-3428।
  2. हेस, आरडी और रेविकी, डी। (2005)। विश्वसनीयता और वैधता (जवाबदेही सहित)। फेयर्स में, पी। और हेज़, आरडी (एड।), क्लिनिकल ट्राइएफ़ में जीवन की गुणवत्ता का आकलन , दूसरा संस्करण, पीपी। 25-39। ऑक्सफोर्ड यूनिवरसिटि प्रेस।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.