जोएल स्पोल्स्की का "हंट ऑफ़ द स्नार्क" पोस्ट वैध सांख्यिकीय सामग्री विश्लेषण है?


25

यदि आप हाल ही में सामुदायिक बुलेटिन पढ़ रहे हैं, तो आपने संभवतः द हंटिंग ऑफ द स्नार्क को देखा है, जो स्टैकएक्सचेंज नेटवर्क के सीईओ जोएल स्पोल्स्की द्वारा आधिकारिक स्टैकएक्सचेंज ब्लॉग पर एक पोस्ट है वह बाहरी उपयोगकर्ता के दृष्टिकोण से उनकी "मित्रता" का मूल्यांकन करने के लिए एसई टिप्पणियों के नमूने पर आयोजित सांख्यिकीय विश्लेषण पर चर्चा करता है। टिप्पणियों को स्टैकऑवरफ्लो से बेतरतीब ढंग से नमूना लिया गया था और सामग्री विश्लेषक अमेज़ॅन के मैकेनिकल तुर्क समुदाय के सदस्य थे, काम के लिए एक बाजार जो कंपनियों को उन श्रमिकों से जोड़ता है जो सस्ती फीस के लिए छोटे, छोटे कार्य करते हैं।

बहुत पहले नहीं, मैं राजनीति विज्ञान में स्नातक छात्र था और मैंने जो कक्षाएं ली थीं, उनमें से एक सांख्यिकीय सामग्री विश्लेषण था । वर्ग की अंतिम परियोजना, वास्तव में इसका संपूर्ण उद्देश्य, न्यूयॉर्क टाइम्स की युद्ध रिपोर्टिंग का विस्तृत विश्लेषण करना था , यह परीक्षण करने के लिए कि युद्ध के दौरान अमेरिकियों ने समाचार कवरेज के बारे में कितनी धारणाएं बनाईं, वे सटीक थीं (स्पॉइलर: सबूत से पता चलता है) नहीं)। यह परियोजना बहुत बड़ी और काफी मज़ेदार थी, लेकिन अब तक इसका सबसे दर्दनाक खंड 'प्रशिक्षण और विश्वसनीयता परीक्षण चरण' था, जो कि हमारे विश्लेषण का संचालन करने से पहले हुआ था। इसके दो उद्देश्य थे (विस्तृत विवरण के लिए लिंक किए गए पेपर के पृष्ठ 9 देखें, साथ ही सामग्री विश्लेषण सांख्यिकीय साहित्य में इंटरकोडर विश्वसनीयता मानकों का संदर्भ):

  1. सभी कोडर्स की पुष्टि करें, अर्थात, सामग्री के पाठकों को समान गुणात्मक परिभाषाओं पर प्रशिक्षित किया गया था। जोएल के विश्लेषण में, इसका मतलब सभी को पता था कि परियोजना कैसे "दोस्ताना" और "अनफ्रेंडली" परिभाषित करती है।

  2. सभी कोडर्स की पुष्टि करें कि इन नियमों की मज़बूती से व्याख्या की गई है, यानी हमने अपने नमूने का नमूना लिया, सबसेट का विश्लेषण किया, और फिर गुणात्मक मूल्यांकन पर हमारे जोड़ीदार सहसंबंधों का सांख्यिकीय रूप से प्रदर्शन किया।

विश्वसनीयता परीक्षण चोट लगी है क्योंकि हमें इसे तीन या चार बार करना पड़ा। जब तक -1- को बंद नहीं किया गया था और -2 को उच्च जोड़ीदार सहसंबंध दिखाया गया था, पूर्ण विश्लेषण के लिए हमारे परिणाम संदिग्ध थे। उन्हें वैध या अमान्य नहीं दिखाया जा सकता है। सबसे महत्वपूर्ण बात, हमें अंतिम नमूना सेट से पहले विश्वसनीयता के पायलट परीक्षण करने थे।

मेरा सवाल यह है: जोएल के सांख्यिकीय विश्लेषण में पायलट विश्वसनीयता परीक्षण का अभाव था और "मित्रता" की कोई परिचालन परिभाषा स्थापित नहीं की थी। क्या अंतिम डेटा उसके परिणामों की सांख्यिकीय वैधता के बारे में कुछ भी कहने के लिए पर्याप्त विश्वसनीय था?

एक परिप्रेक्ष्य के लिए, इस प्राइमर को इंटरकोडर विश्वसनीयता और लगातार परिचालन परिभाषाओं के मूल्य पर विचार करें एक ही स्रोत में गहराई से, आप पायलट विश्वसनीयता परीक्षणों (सूची में आइटम 5) के बारे में पढ़ सकते हैं।

प्रति उत्तर में एंडी डब्ल्यू के सुझाव, मैं डेटासेट की विभिन्न प्रकार की विश्वसनीयता आँकड़ों की गणना करने का प्रयास कर रहा हूँ, जो यहाँ उपलब्ध है, आर में इस कमांड श्रृंखला का उपयोग करके (अद्यतन के रूप में मैं नए आँकड़ों की गणना करता हूँ)।

वर्णनात्मक आँकड़े यहाँ हैं

प्रतिशत समझौता (सहिष्णुता = 0 के साथ): 0.0143

प्रतिशत समझौता (सहिष्णुता = 1 के साथ): 11.8

क्रिपेंडोर्फ़ का अल्फा: 0.1529467

मैंने एक अन्य प्रश्न में इस डेटा के लिए एक आइटम-प्रतिक्रिया मॉडल का भी प्रयास किया


1
सार्वजनिक रूप से कोडिंग डेटा जारी किया था तो एक जाने के लिए और कोडर खुद को अगर एक चाहते थे की विश्वसनीयता का आकलन कर सकते हैं।
एंडी डब्ल्यू

3
पुन: # 1 - यह ध्यान दिया जाना चाहिए कि इस इतना अगर टिप्पणियों पर एक व्यायाम नहीं था थे अनुकूल है या नहीं, लेकिन पर एक अभ्यास के और अधिक अगर टिप्पणी कर रहे थे कथित अनुकूल के रूप में या किसी बाहरी उपयोगकर्ता के लिए नहीं।
राहेल

3
@ राचेल मुझे नहीं लगता कि यह सही है। यदि वे माप रहे थे कि बाहरी लोग एसओ पर टिप्पणियों को कैसे देखते हैं, तो उन्हें 20 लोगों की तुलना में काफी बड़े नमूने की आवश्यकता होगी।
क्रिस्टोफर

2
यह बाहरी लोगों द्वारा टिप्पणियों के अनुभव के बारे में कुछ निष्कर्ष देने और खुद टिप्पणियों के बारे में कुछ निष्कर्ष निकालने के बीच का अंतर है। पहले मामले में, आपको लोगों के एक बहुत बड़े नमूने की आवश्यकता होगी, और निष्कर्ष "बाहरी लोगों को लगता है कि 2.3% एसओ टिप्पणियां अनफ्रेंडली हैं।" दूसरे में, यह "एसओ टिप्पणियों का 2.3% अप्रयुक्त है।" वे अलग-अलग निष्कर्ष निकाल रहे हैं, और मुझे लगता है कि दूसरा बनाना संभव नहीं हो सकता है, क्योंकि हम बिना किसी विश्वसनीयता परीक्षण के कोडर्स का मूल्यांकन कर सकते हैं।
क्रिस्टोफर

2
@ क्रिसस्टर फ्रेंडशिप हालांकि बहुत व्यक्तिपरक है। आप जो पूछते हैं, उसके आधार पर, एक ही टिप्पणी को दोस्ताना और अमित्र दोनों के रूप में देखा जा सकता है। यही कारण है कि मुझे लगता है कि किसी ऐसे व्यक्ति के बजाय बड़ी संख्या में यादृच्छिक उपयोगकर्ताओं से दृष्टिकोण प्राप्त करना महत्वपूर्ण है, जो अपने आप के समान सटीक दृष्टिकोण रखता है।
राहेल २०

जवाबों:


6

प्रतिशत समझौता (सहिष्णुता = 0 के साथ): 0.0143

प्रतिशत समझौता (सहिष्णुता = 1 के साथ): 11.8

क्रिपेंडोर्फ़ का अल्फा: 0.1529467

ये समझौता बताता है कि वस्तुतः कोई श्रेणीबद्ध समझौता नहीं है - प्रत्येक कोडर के पास "मित्रवत" या "अमित्र" के रूप में टिप्पणियों के लिए अपना आंतरिक कटऑफ बिंदु है।

यदि हम मानते हैं कि तीन श्रेणियों का आदेश दिया गया है, अर्थात: मित्रविहीन <तटस्थ <मित्रता, हम समझौते के एक और उपाय के रूप में इंट्रक्लास सहसंबंध की गणना भी कर सकते हैं। 1000 टिप्पणियों के एक यादृच्छिक नमूने पर, .28 का एक ICC (2,1), और -88 का एक ICC (2, k) है। इसका मतलब है, यदि आप केवल 20 चूहे ले लेंगे, तो परिणाम बहुत अविश्वसनीय होंगे (.28), यदि आप 20 चूहे का औसत लेते हैं, तो परिणाम विश्वसनीय हैं (.88)। तीन यादृच्छिक चूहे के विभिन्न संयोजनों को लेते हुए, औसत विश्वसनीयता 50 और .60 के बीच है, जिसे अभी भी बहुत कम माना जाएगा।

दो कोडरों के बीच औसत द्विभाजन सहसंबंध है .34, जो भी कम है।

यदि इन समझौते उपायों को कोडर्स की गुणवत्ता माप के रूप में देखा जाता है (जिन्हें वास्तव में अच्छा समझौता दिखाना चाहिए), तो उत्तर है: वे अच्छे कोडर नहीं हैं और उन्हें बेहतर प्रशिक्षण दिया जाना चाहिए। अगर इसे "यादृच्छिक व्यक्तियों के बीच सहज सहमति" के एक उपाय के रूप में देखा जाता है, तो इसका उत्तर यह भी है: बहुत अधिक नहीं। एक बेंचमार्क के रूप में, शारीरिक आकर्षण रेटिंग के लिए औसत सहसंबंध लगभग 47 है - .71 [1]

[१] लैंग्लिस, जेएच, कलाकानिस, एल।, रुबेनस्टीन, ए जे, लार्सन, ए।, हल्लम, एम।, और स्मूट, एम। (२०००)। मैक्सिमम या सुंदरता के मिथक? एक मेटा-एनालिटिकल और सैद्धांतिक समीक्षा। मनोवैज्ञानिक बुलेटिन, 126, 390423। डोई: 10.1037 / 0033-2909.126.3.390


7

शास्त्रीय टेस्ट थ्योरी के संदर्भ में स्कोर की विश्वसनीयता की अक्सर व्याख्या की जाती है । यहां किसी के पास एक वास्तविक स्कोर है, Xलेकिन आप किसी विशेष परिणाम पर जो देखते हैं वह न केवल सही स्कोर है, बल्कि कुछ त्रुटि (यानी Observed = X + error) के साथ सही स्कोर है । सिद्धांत रूप में, एक ही अंतर्निहित परीक्षण के कई अवलोकन किए गए उपाय करके (उन परीक्षणों की त्रुटियों के वितरण के बारे में कुछ धारणाएं बनाकर) एक तो बिना पढ़े हुए सच्चे स्कोर को माप सकते हैं।

इस ढांचे में यहां ध्यान दें कि आपको यह मान लेना है कि आपके कई देखे गए उपाय समान अंतर्निहित परीक्षण को माप रहे हैं। परीक्षण वस्तुओं की खराब विश्वसनीयता को अक्सर साक्ष्य के रूप में लिया जाता है कि देखे गए उपाय समान अंतर्निहित परीक्षण को माप नहीं रहे हैं। यह केवल क्षेत्र का एक सम्मेलन है, हालांकि, खराब विश्वसनीयता, और स्वयं, किसी भी सांख्यिकीय अर्थ में साबित नहीं करता है कि आइटम समान निर्माण को माप नहीं रहे हैं। इसलिए यह तर्क दिया जा सकता है कि बहुत से अविश्वसनीय परीक्षणों के साथ, कई अवलोकन किए गए उपायों को लेने से, कोई भी वास्तविक स्कोर के विश्वसनीय माप के बारे में आ सकता है।

यह भी कहा गया है कि शास्त्रीय परीक्षण सिद्धांत जरूरी नहीं है कि इस तरह के परीक्षणों की व्याख्या करें, और कई विद्वान यह तर्क देंगे कि अव्यक्त चर और वस्तु-प्रतिक्रिया सिद्धांत की अवधारणा हमेशा शास्त्रीय परीक्षण सिद्धांत की तुलना में अधिक उपयुक्त है।


शास्त्रीय परीक्षण सिद्धांत में भी इसी तरह की निहित धारणा है जब लोग कहते हैं कि रिलेबिलिटी बहुत अधिक है। यह इस बात की वैधता के बारे में कुछ भी नहीं कहता है कि क्या विशेष वस्तु (वस्तुएं) कुछ अंतर्निहित परीक्षण को मापती हैं, लेकिन जब कि रिलायबिलिटी बहुत अधिक है, तो शोधकर्ता इसे सबूत के रूप में लेते हैं कि परीक्षणों के बीच त्रुटियां स्वतंत्र नहीं हैं।

मुझे पूरा यकीन नहीं है कि आप अंदर नहीं जा रहे हैं और अपने आप को राहत देने की गणना करने के बारे में इतना वशीकरण क्यों कर रहे हैं। कोई ऐसा क्यों नहीं कर सकता है और बाद में इस अतिरिक्त जानकारी के प्रकाश में विश्लेषण की व्याख्या कर सकता है?


तो पहले मुझे यह बताने दें कि मैं एक अच्छे कारण के लिए अब एक स्टैटिस्टेंट स्टूडेंट नहीं कर रहा हूँ: यह मेरे लिए बहुत अच्छा नहीं था। मैं कार्यप्रणाली को गलत बता सकता हूं। सभी समान, मुझे लगता है कि आप और मैं विश्वसनीयता के विभिन्न उपायों के बारे में बात कर सकते हैं, या कम से कम अंतर विश्लेषण को मापने के लिए सुझाव देने से पहले शोध है कि वैधता के लिए अंतिम विश्लेषण आयोजित किया जाता है। मैंने वेब पर पाए गए एक स्रोत को शामिल करने के लिए प्रश्न संपादित किया है, जो इस विषय पर काफी अधिक शोध का हवाला देता है।
क्रिस्टोफर

यह एक अलग संदर्भ है (कुछ निरंतर परिणाम के बजाय डायकोटोमस परीक्षण वस्तुओं की विश्वसनीयता), लेकिन तर्क कार्यात्मक रूप से समान है। इसलिए मैंने विश्वसनीयता के किसी विशेष माप का उल्लेख नहीं किया (कई हैं)। आपकी बोली के बारे में कुछ भी नहीं बताता है before the final analysis, इसलिए मुझे यकीन नहीं है कि यह धारणा कहां से आती है।
एंडी डब्ल्यू

आह हा। आप सही हैं, यह काफी आवश्यकता नहीं है। उस लिंक को आगे पढ़ते हुए मैंने पोस्ट किया, ऐसा लग रहा है कि इस पायलट परीक्षण को एक पद्धतिगत सर्वोत्तम अभ्यास (इसमें पायलट परीक्षण के लिए खोज) माना जाता है।
क्रिस्टोफर

मैंने नई जानकारी को समायोजित करने के लिए अपना प्रश्न बदल दिया है। मेरी त्रुटि सुधारने में मदद के लिए धन्यवाद।
क्रिस्टोफर

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.