सर्वेक्षण प्रतिक्रियाओं में व्यवस्थित त्रुटि के लिए खाते में प्रतिष्ठा


9

मेरे पास एक बड़ा सर्वेक्षण है जिसमें छात्रों से पूछा गया था, अन्य बातों के अलावा, उनकी माँ का शिक्षा का स्तर। कुछ ने इसे छोड़ दिया, और कुछ ने गलत उत्तर दिया। मुझे यह पता है, क्योंकि प्रारंभिक उत्तरदाताओं की माँ का एक उप-नमूना बाद में साक्षात्कार किया गया था, और एक ही सवाल पूछा था। (मुझे यकीन है कि माताओं की प्रतिक्रियाओं के साथ-साथ त्रुटि की कुछ, छोटी राशि है।)

मेरी चुनौती, यह तय करना है कि डेटा के इस दूसरे, अधिक विश्वसनीय स्रोत का सबसे अच्छा लाभ कैसे उठाया जाए। बहुत कम से कम मैं इसका उपयोग लापता डेटा को और अधिक समझदारी से लागू करने के लिए कर सकता हूं, अगर मैं केवल पूर्ण मामलों पर भरोसा कर सकता हूं। लेकिन अगर 3/4 बच्चे जिनके डेटा को मैं क्रॉस-चेक कर सकता हूं, जो जवाब देते हैं "मेरी मां ने कभी भी प्राथमिक स्कूल समाप्त नहीं किया है" तो अपनी मां के जवाब का खंडन कर रहे हैं, तो ऐसा लगता है कि मुझे अनिश्चितता को पकड़ने के लिए कई डेटासेट बनाने के लिए अभियोग का उपयोग करना चाहिए। [जोड़ा: मैंने एक बिंदु बनाने के लिए 3/4 कहा, लेकिन अब जब मैंने डेटा की जांच कर ली है तो मैं आपको बता सकता हूं कि 40% के करीब असंगत हैं]

मैं व्यक्तिगत रूप से मिश्रित मॉडल में एक भविष्यवक्ता के रूप में मां की शिक्षा का उपयोग कर रहा हूं, लेकिन अगर किसी को अन्य स्थितियों के बारे में कुछ कहना है तो मुझे उनके बारे में भी सीखना अच्छा लगेगा।

मुझे ब्रॉडस्ट्रोक्स या बारीकियों में सलाह लेना अच्छा लगेगा। धन्यवाद!

अद्यतन : मैं अभी के लिए अनसुलझी प्रश्न छोड़ रहा हूं, हालांकि मैं विल और कंज्यूगेट_पायर की प्रतिक्रियाओं की सराहना करता हूं, मैं अधिक विशिष्ट और तकनीकी प्रतिक्रिया की आशा कर रहा हूं।

नीचे दिए गए स्कैल्पलॉट से आपको अंदाजा होगा कि 10,000 मामलों में दोनों चर कैसे संबंधित हैं। वे नेस्टेड हैं, 100 से अधिक स्कूलों में। वे 0.78 पर सहसंबंधित हैं, छात्र का उत्तर- माध्य: 5.12 sd = 2.05, माँ का उत्तर, माध्य = 5.02, sd = 1.92 लगभग 15% मामलों में छात्र का उत्तर गायब है।

यहाँ छवि विवरण दर्ज करें


जिज्ञासा से बाहर, उस शिक्षा प्रश्न "मेरी माँ ने प्राथमिक स्कूल कभी खत्म नहीं किया" का पहला प्रतिक्रिया विकल्प था? यदि हां, तो मुझे उन परीक्षार्थियों के लिए आपके बाकी परीक्षा परिणामों की सटीकता की चिंता होगी।
मिशेल

"वह स्कूल में कितनी दूर गई थी?" (1) आठवीं कक्षा या उससे कम
माइकल बिशप

आपके पास शायद उन परीक्षार्थियों का एक उपसमूह है, जिन्होंने प्रत्येक प्रश्न के लिए पहली प्रतिक्रिया विकल्प पर टिक किया था। क्या आप इसकी जांच कर सकते हैं?
मिशेल

वह कथानक बहुत ही रमणीय है। यह काफी सममित दिखता है जो कि वह नहीं है जिसकी आप उम्मीद करेंगे अगर वास्तव में बच्चों का एक गुच्छा सिर्फ पहले उत्तर से टिक गया। यदि ऐसा होता तो मामले नीचे की पंक्ति के साथ ही होते। बेशक 'देख' सममित वास्तव में यह गारंटी नहीं है, लेकिन यह एक अच्छी शुरुआत है। मां और बच्चे की प्रतिक्रिया के बीच आप जो मजबूत संबंध देखते हैं, वह भी इसके अनुरूप है।
विल

1
आह। समझा। तब मैं भी (थोड़ा अधिक) मौजूदा डेटा को लागू करने के लिए अनिच्छुक हो जाएगा और यह इस तरह के तर्क के बावजूद, बिल्कुल भी ऐसा नहीं करने की सिफारिश करेगा: gking.harvard.edu/gking/files/measure.pdf
conjugateprior

जवाबों:


2

ध्यान देने वाली पहली बात यह है कि आपके चर इस प्रकार हैं: "विद्यार्थी ने माँ की शिक्षा के बारे में क्या कहा" और "विद्यार्थी की माँ ने विद्यार्थी की माँ की शिक्षा के बारे में क्या कहा है"। उन्हें क्रमशः एस और एम कहें, और टी के रूप में माँ की शिक्षा के अप्रतिष्ठित सच्चे स्तर को लेबल करें।

एस और एम दोनों को लापता मान मिला है और एम और एस को एक प्रतिरूप मॉडल में डालने के साथ कुछ भी गलत नहीं है (नीचे अवलोकन) लेकिन केवल बाद के विश्लेषण में उनमें से एक का उपयोग करना। आसपास का दूसरा रास्ता हमेशा अनवधान होगा।

यह तीन अन्य सवालों से अलग है:

  1. क्या एक लापता मूल्य का मतलब है कि छात्रों को पता नहीं है या वे अपनी माताओं के बारे में इतना नहीं कहना चाहते हैं?
  2. T के बारे में जानने के लिए S और M का उपयोग कैसे करें?
  3. क्या आपके पास कई तरह के काम करने की अनुमति देने के लिए लापता होने का सही प्रकार है?

अज्ञान और गुमशुदगी

आपको टी में रुचि हो सकती है, लेकिन आपको इसकी आवश्यकता नहीं है: शैक्षिक प्राप्ति (एस के माध्यम से, और संभवतः एम) की धारणाएं या छात्र ज्ञान की कमी टी के मुकाबले अधिक दिलचस्प हो सकती है। प्रतिष्ठा पहले के लिए एक समझदार मार्ग हो सकती है, लेकिन दूसरे के लिए हो सकती है या नहीं। निर्णय आपको करना है।

टी के बारे में सीखना

कहते हैं कि आप वास्तव में टी में रुचि रखते हैं। एक सोने के मानक माप की अनुपस्थिति में (चूंकि आपको कभी-कभी एम पर संदेह होता है) यह जानना मुश्किल है कि आप टी के बारे में जानने के लिए एस और एम को गैर-मनमाने ढंग से कैसे जोड़ सकते हैं। अगर, दूसरी तरफ, आप थे उपलब्ध होने पर एम को सही मानने के लिए तैयार है, तो आप एस का उपयोग एक वर्गीकरण मॉडल में एम की भविष्यवाणी करने के लिए कर सकते हैं जिसमें छात्रों से अन्य जानकारी होती है और फिर अंतिम विश्लेषण में एस के बजाय एम का उपयोग करते हैं। आपके द्वारा प्रशिक्षित मामलों में चयन पूर्वाग्रह के बारे में चिंता यहाँ होगी, जो तीसरे मुद्दे की ओर ले जाती है:

Missingness

क्या एकाधिक प्रतिरूपण काम कर सकते हैं, यह इस बात पर निर्भर करता है कि डेटा पूरी तरह से रैंडम (MCAR) में अनुपलब्ध है या रैंडम (MAR) पर अनुपलब्ध है। क्या S रैंडम (MAR) से गायब है? शायद नहीं, क्योंकि छात्रों को अपनी माँ की शिक्षा की कमी के बारे में जवाब देने और सवाल छोड़ने में शर्म आती है। फिर अकेले मूल्य यह निर्धारित करता है कि क्या यह गायब होगा और कई प्रतिरूपण यहां मदद नहीं कर सकते हैं। दूसरी ओर, अगर कुछ शिक्षा के साथ निम्न शिक्षा सहवास किया जाता है और आंशिक रूप से सर्वेक्षण में जवाब दिया जाता है जैसे आय का कुछ संकेतक, तो मार्च अधिक उचित हो सकता है और कई प्रतिरूपण के लिए पकड़ बनाने के लिए कुछ है। क्या M यादृच्छिक पर गायब है? एक ही विचार लागू होते हैं।

अंत में, भले ही आप टी में दिलचस्प हैं और एक वर्गीकरण दृष्टिकोण लेते हैं, फिर भी आप उस मॉडल को फिट करने के लिए बाध्य करना चाहते हैं।


1

यदि आप यह मानकर चल रहे हैं कि "विरोधाभास दर" पूरे नमूने के लिए समान है क्योंकि यह उस सबमप्लान्ट के लिए है जिसकी माताओं को मतदान किया गया था, तो सबसम्प्लैंड को यादृच्छिक रूप से तैयार किया गया होगा। आपके विवरण में आप यह नहीं कहते हैं, इसलिए मैं इस मुद्दे को उठाता हूं क्योंकि मुझे लगता है कि छात्रों के संपूर्ण नमूने के बारे में निष्कर्ष निकालने के लिए इस जानकारी का उपयोग कैसे या यदि आप इस जानकारी का उपयोग कर सकते हैं, तो इसके महत्वपूर्ण निहितार्थ हैं।

यह मुझे लगता है कि इस विरोधाभास मुद्दे के तीन पहलू हैं।

1 विरोधाभास की दर है। क्या वास्तव में ऐसा है कि 3 / 4th छात्रों ने गलत अनुमान लगाया है?

2 गलत होने की डिग्री है - यह कहना एक बात है कि आपकी मां ने प्राथमिक स्कूल कभी पूरा नहीं किया जब वह वास्तव में इसे पूरा कर लेती है, लेकिन वहां रुक जाती है और यह कहने के लिए कि वह प्राथमिक स्कूल कभी पूरा नहीं करती है जब वह पीएच.डी.

3 उस नमूने का अनुपात है जिसे आप क्रॉस-चेक कर सकते हैं। यदि आप इन निष्कर्षों को 20 की सदस्यता पर आकर्षित कर रहे हैं, तो मुझे लगता है कि अनुमान काफी अस्थिर हैं और शायद बहुत अधिक मूल्य के नहीं हैं।

यह मुझे लगता है कि आप क्या करते हैं, इन सवालों के जवाब पर और शुरुआत में मैंने जो सवाल उठाया था, उस पर निर्भर करेगा। उदाहरण के लिए, यदि 1 बहुत अधिक है और 3 काफी अधिक है, तो मैं सिर्फ सदस्यता का उपयोग कर सकता हूं और इसके साथ किया जा सकता है। यदि 1 अधिक है, लेकिन 2 कम है, तो मुद्दा उतना बुरा नहीं लगता है और फिर से, यह परेशान करने लायक नहीं है।

यह शायद यह जानने के लायक भी है कि क्या त्रुटि यादृच्छिक या व्यवस्थित है। यदि छात्र अपनी माँ की शिक्षा का अनुमान लगाने के लिए व्यवस्थित रूप से करते हैं, तो इससे अधिक समस्याग्रस्त है यदि वे इसे कभी-कभी पूरी तरह से गलत पाते हैं।

मैंने एक जोड़े के कागजात पर कुछ अभियोग लगाया है और ऐसा लगता है कि मैं हमेशा खुद के लिए अधिक परेशानी पैदा करता हूं। समीक्षकों, मेरे क्षेत्र में कम से कम, अक्सर विधि पर एक अच्छा हैंडल नहीं होता है और इस प्रकार इसके उपयोग पर संदेह होता है। मुझे लगता है कि कभी-कभी यह बेहतर होता है, एक प्रकाशन के दृष्टिकोण से, बस समस्या को स्वीकार करने और आगे बढ़ने के लिए। लेकिन इस मामले में आप वास्तव में 'लापता डेटा को अधिरोहित' नहीं कर रहे हैं, लेकिन चर के लिए कुछ प्रकार की अनुमानित त्रुटि विचरण का परिचय दे रहे हैं। यह एक बहुत ही दिलचस्प सवाल है, और सभी चिंताओं को एक तरफ रखकर, मुझे यकीन भी नहीं है कि मैं इस बारे में कैसे जाऊंगा अगर मैंने तय किया कि यह कार्रवाई का सबसे अच्छा कोर्स है


1
धन्यवाद विल, मैंने अपने मूल पोस्ट में कुछ चीजें स्पष्ट कीं। उप-नमूना यादृच्छिक है। मैंने एक बिंदु बनाने के लिए एक टोपी से 3/4 प्रतिमा निकाली। सही प्रतिमा कम है। मैं लगभग 10,000 मामलों की जांच कर सकता हूं। मुझे यकीन है कि त्रुटि विशुद्ध रूप से यादृच्छिक नहीं है।
माइकल बिशप
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.