निम्नलिखित तीन घटनाओं पर विचार करें।
स्टीन का विरोधाभास: में बहुभिन्नरूपी सामान्य वितरण के कुछ आंकड़े दिए गए , नमूना का मतलब सही मतलब का बहुत अच्छा अनुमानक नहीं है। यदि कोई नमूने के सभी निर्देशांक को शून्य [या उनके मतलब की ओर, या वास्तव में किसी भी मूल्य की ओर, यदि मैं सही ढंग से समझूं तो] के साथ कम औसत वर्ग त्रुटि के साथ एक अनुमान प्राप्त कर सकता है।
नायब: आमतौर पर स्टीन की विडंबना से केवल एक ही डेटा बिंदु पर विचार करके बनाई जाती है ; कृपया मुझे सही करें अगर यह महत्वपूर्ण है और ऊपर मेरा सूत्रीकरण सही नहीं है।
रिज प्रतिगमन: कुछ आश्रित चर और कुछ स्वतंत्र चर , मानक प्रतिगमन tends डेटा को ओवरफिट करने और खराब आउट-ऑफ-सैंपल प्रदर्शन के लिए। एक अक्सर सिकुड़ द्वारा overfitting कम कर सकते हैं शून्य की ओर: ।
बहुस्तरीय / मिश्रित मॉडल में यादृच्छिक प्रभाव: कुछ आश्रित चर (जैसे छात्र की ऊंचाई) जो कुछ श्रेणीबद्ध भविष्यवक्ताओं (जैसे स्कूल आईडी और छात्र के लिंग) पर निर्भर करता है, को अक्सर कुछ भविष्यवक्ताओं को 'यादृच्छिक' के रूप में मानने की सलाह दी जाती है, जिसका अर्थ है कि प्रत्येक स्कूल में औसत छात्र की ऊंचाई कुछ अंतर्निहित सामान्य वितरण से आती है। इसके परिणामस्वरूप वैश्विक माध्य के प्रति स्कूल की औसत ऊँचाई का अनुमान सिकुड़ता जा रहा है।
मुझे लगता है कि यह सब एक ही "सिकुड़न" घटना के विभिन्न पहलू हैं, लेकिन मुझे यकीन नहीं है और निश्चित रूप से इसके बारे में एक अच्छा अंतर्ज्ञान की कमी है। तो मेरा मुख्य प्रश्न यह है: क्या वास्तव में इन तीन चीजों के बीच एक गहरी समानता है, या यह केवल एक सतही समानता है? यहाँ आम विषय क्या है? इसके बारे में सही अंतर्ज्ञान क्या है?
इसके अलावा, यहां इस पहेली के कुछ टुकड़े हैं जो वास्तव में मेरे लिए एक साथ फिट नहीं हैं:
रिज रिग्रेशन में, समान रूप से सिकुड़ा नहीं है; रिज संकोचन वास्तव में एकवचन मान अपघटन से संबंधित है , जिसमें कम-विचरण दिशाएँ अधिक सिकुड़ती हैं (उदाहरण के लिए सांख्यिकीय लर्निंग 3.4.1 के तत्व )। लेकिन जेम्स-स्टीन अनुमानक केवल नमूना माध्य लेता है और इसे एक स्केलिंग कारक से गुणा करता है। यह एक साथ कैसे फिट होता है?एक्स
अद्यतन: जेम्स-स्टीन अनुमानक को असमान भिन्नताओं के साथ देखें और जैसे यहाँ गुणांक के भिन्नताओं के बारे में ।
नमूना माध्य नीचे दिए गए आयामों में इष्टतम है। इसका मतलब यह है कि जब प्रतिगमन मॉडल में केवल एक या दो भविष्यवाणियां होती हैं, तो रिज प्रतिगमन हमेशा सामान्य न्यूनतम वर्गों से भी बदतर होगा? वास्तव में, यह सोचने के लिए आओ, मैं 1D (यानी सरल, गैर-एकाधिक प्रतिगमन) में स्थिति की कल्पना नहीं कर सकता जहां रिज संकोचन फायदेमंद होगा ...
अपडेट: नहीं। देखें कि रिज रिग्रेशन सामान्य से कम वर्ग के प्रतिगमन पर एक सुधार प्रदान करने में सक्षम है?
दूसरी ओर, नमूना माध्य हमेशा उपर्युक्त आयामों में 3 से अधिक होता है। क्या इसका मतलब यह है कि 3 से अधिक भविष्यवक्ता रिज प्रतिगमन हमेशा ओएलएस की तुलना में बेहतर होते हैं, भले ही सभी भविष्यवक्ता असंबद्ध (ऑर्थोगोनल) हों? आमतौर पर रिज रिग्रेशन मल्टीकोलिनरिटी से प्रेरित होता है और शब्द को "स्थिर" करने की आवश्यकता होती है ।
अद्यतन: हाँ! ऊपर जैसा ही धागा देखें।
एनोवा में विभिन्न कारकों को निश्चित या यादृच्छिक प्रभावों के रूप में शामिल किया जाना चाहिए या नहीं, इस बारे में अक्सर कुछ चर्चा होती है। क्या हमें एक ही तर्क से, हमेशा एक कारक को यादृच्छिक नहीं मानना चाहिए, यदि इसके दो से अधिक स्तर हैं (या यदि दो से अधिक कारक हैं? अब मैं भ्रमित हूं)
अपडेट करें: ?
अद्यतन: मुझे कुछ उत्कृष्ट उत्तर मिले, लेकिन कोई भी एक बड़ी तस्वीर प्रदान नहीं करता है, इसलिए मैं प्रश्न को "खुला" होने दूंगा। मैं एक नए उत्तर के लिए कम से कम 100 अंकों का इनाम देने का वादा कर सकता हूं जो मौजूदा लोगों से आगे निकल जाएगा। मैं ज्यादातर एक एकीकृत दृष्टिकोण की तलाश कर रहा हूं जो यह बता सकता है कि संकोचन की सामान्य घटना इन विभिन्न संदर्भों में खुद को कैसे प्रकट करती है और उनके बीच के प्रमुख अंतर को इंगित करती है।