मेरे पास एक बड़ा सर्वेक्षण है जिसमें छात्रों से पूछा गया था, अन्य बातों के अलावा, उनकी माँ का शिक्षा का स्तर। कुछ ने इसे छोड़ दिया, और कुछ ने गलत उत्तर दिया। मुझे यह पता है, क्योंकि प्रारंभिक उत्तरदाताओं की माँ का एक उप-नमूना बाद में साक्षात्कार किया गया था, और एक ही सवाल पूछा था। (मुझे यकीन है कि माताओं की प्रतिक्रियाओं के साथ-साथ त्रुटि की कुछ, छोटी राशि है।)
मेरी चुनौती, यह तय करना है कि डेटा के इस दूसरे, अधिक विश्वसनीय स्रोत का सबसे अच्छा लाभ कैसे उठाया जाए। बहुत कम से कम मैं इसका उपयोग लापता डेटा को और अधिक समझदारी से लागू करने के लिए कर सकता हूं, अगर मैं केवल पूर्ण मामलों पर भरोसा कर सकता हूं। लेकिन अगर 3/4 बच्चे जिनके डेटा को मैं क्रॉस-चेक कर सकता हूं, जो जवाब देते हैं "मेरी मां ने कभी भी प्राथमिक स्कूल समाप्त नहीं किया है" तो अपनी मां के जवाब का खंडन कर रहे हैं, तो ऐसा लगता है कि मुझे अनिश्चितता को पकड़ने के लिए कई डेटासेट बनाने के लिए अभियोग का उपयोग करना चाहिए। [जोड़ा: मैंने एक बिंदु बनाने के लिए 3/4 कहा, लेकिन अब जब मैंने डेटा की जांच कर ली है तो मैं आपको बता सकता हूं कि 40% के करीब असंगत हैं]
मैं व्यक्तिगत रूप से मिश्रित मॉडल में एक भविष्यवक्ता के रूप में मां की शिक्षा का उपयोग कर रहा हूं, लेकिन अगर किसी को अन्य स्थितियों के बारे में कुछ कहना है तो मुझे उनके बारे में भी सीखना अच्छा लगेगा।
मुझे ब्रॉडस्ट्रोक्स या बारीकियों में सलाह लेना अच्छा लगेगा। धन्यवाद!
अद्यतन : मैं अभी के लिए अनसुलझी प्रश्न छोड़ रहा हूं, हालांकि मैं विल और कंज्यूगेट_पायर की प्रतिक्रियाओं की सराहना करता हूं, मैं अधिक विशिष्ट और तकनीकी प्रतिक्रिया की आशा कर रहा हूं।
नीचे दिए गए स्कैल्पलॉट से आपको अंदाजा होगा कि 10,000 मामलों में दोनों चर कैसे संबंधित हैं। वे नेस्टेड हैं, 100 से अधिक स्कूलों में। वे 0.78 पर सहसंबंधित हैं, छात्र का उत्तर- माध्य: 5.12 sd = 2.05, माँ का उत्तर, माध्य = 5.02, sd = 1.92 लगभग 15% मामलों में छात्र का उत्तर गायब है।