संकोचन पर एकीकृत दृष्टिकोण: स्टीन के विरोधाभास, रिज प्रतिगमन और मिश्रित मॉडल में यादृच्छिक प्रभावों के बीच क्या संबंध है (यदि कोई है)?


64

निम्नलिखित तीन घटनाओं पर विचार करें।

  1. स्टीन का विरोधाभास: में बहुभिन्नरूपी सामान्य वितरण के कुछ आंकड़े दिए गए , नमूना का मतलब सही मतलब का बहुत अच्छा अनुमानक नहीं है। यदि कोई नमूने के सभी निर्देशांक को शून्य [या उनके मतलब की ओर, या वास्तव में किसी भी मूल्य की ओर, यदि मैं सही ढंग से समझूं तो] के साथ कम औसत वर्ग त्रुटि के साथ एक अनुमान प्राप्त कर सकता है।Rn,n3

    नायब: आमतौर पर स्टीन की विडंबना से केवल एक ही डेटा बिंदु पर विचार करके बनाई जाती है ; कृपया मुझे सही करें अगर यह महत्वपूर्ण है और ऊपर मेरा सूत्रीकरण सही नहीं है।Rn

  2. रिज प्रतिगमन: कुछ आश्रित चर और कुछ स्वतंत्र चर , मानक प्रतिगमन tends डेटा को ओवरफिट करने और खराब आउट-ऑफ-सैंपल प्रदर्शन के लिए। एक अक्सर सिकुड़ द्वारा overfitting कम कर सकते हैं शून्य की ओर: ।yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. बहुस्तरीय / मिश्रित मॉडल में यादृच्छिक प्रभाव: कुछ आश्रित चर (जैसे छात्र की ऊंचाई) जो कुछ श्रेणीबद्ध भविष्यवक्ताओं (जैसे स्कूल आईडी और छात्र के लिंग) पर निर्भर करता है, को अक्सर कुछ भविष्यवक्ताओं को 'यादृच्छिक' के रूप में मानने की सलाह दी जाती है, जिसका अर्थ है कि प्रत्येक स्कूल में औसत छात्र की ऊंचाई कुछ अंतर्निहित सामान्य वितरण से आती है। इसके परिणामस्वरूप वैश्विक माध्य के प्रति स्कूल की औसत ऊँचाई का अनुमान सिकुड़ता जा रहा है।y

मुझे लगता है कि यह सब एक ही "सिकुड़न" घटना के विभिन्न पहलू हैं, लेकिन मुझे यकीन नहीं है और निश्चित रूप से इसके बारे में एक अच्छा अंतर्ज्ञान की कमी है। तो मेरा मुख्य प्रश्न यह है: क्या वास्तव में इन तीन चीजों के बीच एक गहरी समानता है, या यह केवल एक सतही समानता है? यहाँ आम विषय क्या है? इसके बारे में सही अंतर्ज्ञान क्या है?

इसके अलावा, यहां इस पहेली के कुछ टुकड़े हैं जो वास्तव में मेरे लिए एक साथ फिट नहीं हैं:

  • रिज रिग्रेशन में, समान रूप से सिकुड़ा नहीं है; रिज संकोचन वास्तव में एकवचन मान अपघटन से संबंधित है , जिसमें कम-विचरण दिशाएँ अधिक सिकुड़ती हैं (उदाहरण के लिए सांख्यिकीय लर्निंग 3.4.1 के तत्व )। लेकिन जेम्स-स्टीन अनुमानक केवल नमूना माध्य लेता है और इसे एक स्केलिंग कारक से गुणा करता है। यह एक साथ कैसे फिट होता है?एक्सβX

    अद्यतन: जेम्स-स्टीन अनुमानक को असमान भिन्नताओं के साथ देखें और जैसे यहाँ गुणांक के भिन्नताओं के बारे में ।β

  • नमूना माध्य नीचे दिए गए आयामों में इष्टतम है। इसका मतलब यह है कि जब प्रतिगमन मॉडल में केवल एक या दो भविष्यवाणियां होती हैं, तो रिज प्रतिगमन हमेशा सामान्य न्यूनतम वर्गों से भी बदतर होगा? वास्तव में, यह सोचने के लिए आओ, मैं 1D (यानी सरल, गैर-एकाधिक प्रतिगमन) में स्थिति की कल्पना नहीं कर सकता जहां रिज संकोचन फायदेमंद होगा ...

    अपडेट: नहीं। देखें कि रिज रिग्रेशन सामान्य से कम वर्ग के प्रतिगमन पर एक सुधार प्रदान करने में सक्षम है?

  • दूसरी ओर, नमूना माध्य हमेशा उपर्युक्त आयामों में 3 से अधिक होता है। क्या इसका मतलब यह है कि 3 से अधिक भविष्यवक्ता रिज प्रतिगमन हमेशा ओएलएस की तुलना में बेहतर होते हैं, भले ही सभी भविष्यवक्ता असंबद्ध (ऑर्थोगोनल) हों? आमतौर पर रिज रिग्रेशन मल्टीकोलिनरिटी से प्रेरित होता है और शब्द को "स्थिर" करने की आवश्यकता होती है ।(XX)1

    अद्यतन: हाँ! ऊपर जैसा ही धागा देखें।

  • एनोवा में विभिन्न कारकों को निश्चित या यादृच्छिक प्रभावों के रूप में शामिल किया जाना चाहिए या नहीं, इस बारे में अक्सर कुछ चर्चा होती है। क्या हमें एक ही तर्क से, हमेशा एक कारक को यादृच्छिक नहीं मानना ​​चाहिए, यदि इसके दो से अधिक स्तर हैं (या यदि दो से अधिक कारक हैं? अब मैं भ्रमित हूं)

    अपडेट करें: ?


अद्यतन: मुझे कुछ उत्कृष्ट उत्तर मिले, लेकिन कोई भी एक बड़ी तस्वीर प्रदान नहीं करता है, इसलिए मैं प्रश्न को "खुला" होने दूंगा। मैं एक नए उत्तर के लिए कम से कम 100 अंकों का इनाम देने का वादा कर सकता हूं जो मौजूदा लोगों से आगे निकल जाएगा। मैं ज्यादातर एक एकीकृत दृष्टिकोण की तलाश कर रहा हूं जो यह बता सकता है कि संकोचन की सामान्य घटना इन विभिन्न संदर्भों में खुद को कैसे प्रकट करती है और उनके बीच के प्रमुख अंतर को इंगित करती है।


मेरी समझ यह है कि रिज रिग्रेशन (और इसके चचेरे भाई जैसे कि लासो और इलास्टिक नेट) रिग्रेशन में सभी अवलोकनों (जैसे, छात्र की सामाजिक आर्थिक स्थिति और जीपीए) में साझा किए गए सहसंबंधित चर के लिए गुणांक को छोटा करते हैं, जबकि एक यादृच्छिक प्रभाव मॉडल गुणांक के लिए गुणांक पर संकोचन करता है। पारस्परिक रूप से अनन्य स्तर या सहसंबद्ध टिप्पणियों के समूह (जैसे कि छात्र की सामाजिक आर्थिक स्थिति स्कूल आईडी द्वारा समूहीकृत)।
रॉबर्टएफ

3
मुझे लगता है कि एकीकृत उत्तर पाने के लिए सबसे अच्छी जगह कीवर्ड BLUP (सर्वश्रेष्ठ रैखिक निष्पक्ष शिकारी के लिए) esp को देखना है। पशु प्रजनन साहित्य में। उदाहरण के लिए देखें सांख्यिकी विज्ञान में रॉबिन्सन का सर्वेक्षण । या मार्विन ग्रुबेर की किताब
शीआन

2
@ शीआन: बहुत-बहुत धन्यवाद, मैंने पहले से ही ग्रुबर की पुस्तक को स्वयं ढूंढ लिया है, और भले ही वह निश्चित रूप से जेम्स-स्टीन और रिज रिग्रेशन दोनों की बहुत चर्चा करता है, मुझे तुरंत दोनों की कोई प्रत्यक्ष तुलना नहीं मिली (पूरी किताब को पढ़ना है) मेरे लिए अभी कोई विकल्प नहीं है ...)। रॉबिन्सन के सर्वेक्षण के लिंक के लिए धन्यवाद, मैं एक नज़र डालूंगा; पशु प्रजनन ! किसने सोचा होगा। वैसे, मैंने आपकी टिप्पणियों को संबंधित थ्रेड्स पर देखा है, और लगता है कि आप उन लोगों में से एक हो सकते हैं जो वास्तव में यहां संतोषजनक उत्तर दे सकते हैं! यह बहुत अच्छा होगा; अब तक कोई जवाब मुझे संतुष्ट नहीं करता है।
अमीबा का कहना है कि

2
@ शीआन: ठीक है, आपकी उपयोगी टिप्पणियाँ नीचे मुझे यहाँ से एक जवाब याद आती है। वैसे भी, मैंने रॉबिन्सन को पढ़ना शुरू किया और महसूस किया कि "सर्वश्रेष्ठ रैखिक निष्पक्ष शिकारी" एक पक्षपाती अनुमानक है (जाहिर है, जैसा कि यह संकोचन लागू करता है)! कितनी अच्छी शब्दावली है।
अमीबा का कहना है कि

4
वे पशु प्रजनन के नामों में अच्छे हैं: कैसैला और जॉर्ज 1992 के बाद "गिब्स फॉर किड्स" को प्रकाशित होने के लिए अपना शीर्षक बदलना पड़ा, वांग एंड गियानोला ने 1993 में एक यूरोपीय एसोसिएशन फॉर एनिमल प्रोडक्शन मीटिंग में "सूअर के लिए गिब्स" परिचय लिखा!
शीआन

जवाबों:


30

जेम्स-स्टीन अनुमानक और रिज प्रतिगमन के बीच संबंध

चलो के अवलोकन का एक वेक्टर हो लंबाई के , , जेम्स-स्टीन आकलनकर्ता है, रिज रिग्रेशन के संदर्भ में, हम माध्यम से अनुमान लगा सकते हैं जहां समाधान यह देखना आसान है कि दो अनुमानक एक ही रूप में हैं, लेकिन हमें अनुमान लगाने की आवश्यकता हैyθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2जेम्स-स्टीन अनुमानक में , और क्रॉस-मान्यता के माध्यम से रिज प्रतिगमन में निर्धारित करते हैं ।λ

जेम्स-स्टीन अनुमानक और यादृच्छिक प्रभाव मॉडल के बीच संबंध

आइए हम पहले आनुवंशिकी में मिश्रित / यादृच्छिक प्रभाव मॉडल पर चर्चा करें। मॉडल है यदि कोई निश्चित प्रभाव नहीं है और , मॉडल बन जाता है जो जेम्स-स्टीमर अनुमानक की सेटिंग के बराबर है, कुछ के साथ बायसी विचार।

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

यादृच्छिक प्रभाव मॉडल और रिज प्रतिगमन के बीच संबंध

यदि हम ऊपर के रैंडम प्रभाव मॉडल पर ध्यान केंद्रित करते हैं, तो अनुमान समस्या को हल करने के बराबर है जब । प्रमाण को पैटर्न मान्यता और मशीन सीखने के अध्याय 3 में पाया जा सकता है ।

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

(बहुस्तरीय) यादृच्छिक प्रभाव मॉडल और जेनेटिक्स में कनेक्शन

ऊपर के यादृच्छिक प्रभाव मॉडल में, का आयाम और का । यदि हम रूप में को और उसके बाद समान रूप से दोहराते हैं , तो हमारे पास hierarchical / clustered संरचना, क्लस्टर और प्रत्येक इकाइयों के साथ है । यदि हम बार-बार पर प्राप्त करते हैं, तो हम प्रत्येक क्लस्टर के लिए पर का यादृच्छिक प्रभाव प्राप्त कर सकते हैं , हालांकि यह रिवर्स प्रतिगमन की तरह है।ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


आभार : पहले तीन बिंदुओं को मोटे तौर पर इन दो चीनी लेखों, 1 , 2 से सीखा जाता है ।


(+1) बहुत बहुत धन्यवाद! यह बहुत मददगार है, और मैं बिशप की पाठ्यपुस्तक में निश्चित रूप से देखूंगा जिसे मैं अच्छी तरह से जानता हूं और अक्सर परामर्श करता हूं। मुझे वहां मिश्रित मॉडल पर कुछ भी मिलने की उम्मीद नहीं थी, लेकिन ऐसा लगता है कि धारा 3.3 "बायेसियन रैखिक प्रतिगमन" वास्तव में इसके बारे में है, बस विभिन्न शब्दावली का उपयोग करता है। जानकर बहुत अच्छा लगा! लेकिन मेरी बुलेट के सवालों पर आपकी क्या राय है?
अमीबा का कहना है कि

किसी पोस्ट में आपके बहुत सारे प्रश्न हैं। :) 1) जैसा कि मैंने ऊपर कहा था, जब कोई covariates , या सिर्फ एक पहचान मैट्रिक्स नहीं है, तो जेम्स-स्टीन अनुमानक और रिज प्रतिगमन बराबर हैं । 2,3,4) के रूप में @James उल्लेख किया है, भविष्यवक्ताओं की संख्या ( ऊपर) जरूरी प्रतिक्रिया आयाम के बराबर नहीं हैं । Xpm
रान्डेल

BTW, मैं नमूना औसत नहीं देख सकता / मीन जेम्स-स्टीन अनुमानक में उपयोग किया जाता है, यह वास्तव में अनुमानक लेता है और फिर इसे । y0
रान्डेल

2
जेएस अनुमानक और रिज प्रतिगमन अलग हैं। का एक रिज प्रतिगमन अनुमान एक पी-वेक्टर के आयामी स्थान डिजाइन मैट्रिक्स से मेल खाती है है, जो अनुमान के लिए नेतृत्व करेंगे , जो (गैर-रेखीय) याद आ रही है। आकलनकर्ता के हर में पदpIp(1+λ)1Ipyy2
एंड्रयू एम

3
मुझे लगता है कि यह सब निर्भर करता है कि आप रिज अनुमानक को क्या कहते हैं। प्रारंभिक हॉर्ल और केनार्ड (1970) के अर्थ में, डेटा पर वास्तव में की कोई निर्भरता नहीं है । Casella के PhD थीसिस (1978) के बाद के अर्थ में, के मैनुअल निर्धारण को वर्गों के अवशिष्ट योग के एक फ़ंक्शन द्वारा प्रतिस्थापित किया जाता है। λλ
शीआन

6

मैं इस उत्तर को मांस देने के लिए समुदाय के लिए एक अभ्यास के रूप में इसे छोड़ने जा रहा हूं, लेकिन सामान्य रूप से कारण संकोचन अनुमानक * हावी हो जाएगा * परिमित नमूनों में निष्पक्ष अनुमानक है, क्योंकि बेय अनुमानक हावी नहीं हो सकते हैं - । और कई संकोचन अनुमानक बेयस के रूप में निकाले जा सकते हैं। 1234

यह सब निर्णय सिद्धांत के तत्वावधान में आता है। लेहमैन और कैसैला द्वारा एक संपूर्ण, बल्कि अमित्र संदर्भ "बिंदु अनुमान का सिद्धांत" है। हो सकता है कि अन्य लोग मित्रता के संदर्भ में झंकार कर सकते हैं?


1 एक आकलनकर्ता पैरामीटर का डेटा पर है प्रभुत्व एक और आकलनकर्ता द्वारा हर के लिए करता है, तो के जोखिम (जैसे, मीन स्क्वायर त्रुटि) बराबर या उससे अधिक बड़ा है , और धड़कता कम से कम एक के लिए । दूसरे शब्दों में, आपको पैरामीटर स्पेस में हर जगह लिए समान या बेहतर प्रदर्शन मिलता है।δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 एक आकलनकर्ता (चुकता त्रुटि नुकसान वैसे भी से कम) Bayes है अगर यह के पीछे उम्मीद है , डेटा को देखते हुए कुछ पूर्व के तहत , जैसे, , जहां उम्मीद को पीछे ले जाया जाता है। स्वाभाविक रूप से, अलग-अलग पुजारी अलग-अलग जोखिमों के लिए विभिन्न सबसेट के लिए जाते हैं । एक महत्वपूर्ण खिलौना उदाहरण पूर्व कि सभी पूर्व डालता है बिंदु बारे में जन । फिर आप दिखा सकते हैं कि बेयस अनुमानक स्थिर फ़ंक्शनθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, जो निश्चित रूप से पर और पास बहुत अच्छा प्रदर्शन है , और कहीं और बहुत खराब प्रदर्शन है। लेकिन फिर भी, यह हावी नहीं हो सकता है, क्योंकि केवल उस अनुमानक को पर शून्य जोखिम होता है ।θ0θ0

3 एक प्राकृतिक प्रश्न यह है कि क्या किसी भी अनुमानक को हावी नहीं किया जा सकता है (जिसे स्वीकार्य कहा जाता है , हालांकि अदम्य स्नैज़ियर नहीं होगा?) बेस होने की आवश्यकता है? उत्तर लगभग है। "पूर्ण कक्षा प्रमेय" देखें।

4 उदाहरण के लिए, रिज प्रतिगमन एक बायेसियन प्रक्रिया के रूप में उठता है जब आप एक सामान्य (0, ) को पहले , और यादृच्छिक प्रभाव मॉडल एक समान ढांचे में एक अनुभवजन्य बायेसियन प्रक्रिया के रूप में उत्पन्न होते हैं । ये दलीलें इस तथ्य से जटिल हैं कि बायेसियन स्वीकार्यता प्रमेयों के वेनिला संस्करण का मानना ​​है कि हर पैरामीटर पर एक उचित पूर्व रखा गया है। रिज रिग्रेशन में भी, यह सच नहीं है, क्योंकि "पूर्व" को विचरण पर रखा जा रहा है1/λ2βσ2त्रुटि शब्द का स्थिर कार्य (लेबेस लीग माप) है, जो उचित (पूर्णांक) संभाव्यता वितरण नहीं है। लेकिन फिर भी, कई ऐसे "आंशिक रूप से" बेयस अनुमानकों को यह दर्शाने के लिए स्वीकार्य माना जा सकता है कि वे अनुमानकर्ताओं के अनुक्रम के "सीमा" हैं जो उचित बेयस हैं। लेकिन यहाँ सबूत बल्कि दृढ़ और नाजुक मिलते हैं। "सामान्यीकृत बेअस अनुमानक" देखें।


1
बहुत बहुत धन्यवाद, बहुत दिलचस्प (+1)। मैं केवल यह कह सकता हूं कि आपका उत्तर अधिक विस्तृत था ... अपने फुटनोट (3) को पुनः भेजें: क्या आप कह रहे हैं कि सभी बेयर्स अनुमानक / अदम्य हैं (मुझे यह शब्द पसंद है), पूर्व से स्वतंत्र? लेकिन जेम्स-स्टीन अनुमानक अनुभवजन्य बेस से प्राप्त किया जा सकता है; फिर यह असंगत क्यों है? इसके अलावा, इसका मतलब यह होगा कि उदाहरण के तौर पर रिज रिग्रेशन में मैं पहले से केंद्रित नहीं लगभग शून्य पर, लेकिन कुछ अन्य मूल्य के आसपास ले जा सकता हूं: , और यह अभी भी रहेगा एक नियमितीकरण की रणनीति? βN(β0,1/λ2)
अमीबा का कहना है कि मोनिका

2
जेम्स-स्टीन अनुमानक के कारण असावधान होने के कारण, आप यहाँ उत्तर पा सकते हैं । लेहमन एंड कैसला (1998), थ्योरी ऑफ़ पॉइंट एस्टीमेशन में एक विस्तृत और दिलचस्प चर्चा है ।
रान्डेल

@ रैंडल: हाँ, मुझे पता है कि यह अनुचित है और उस तर्क को देखा है, मैं सोच रहा हूँ कि यह एंड्रयू के कथन पर कैसे फिट बैठता है (मुझे यह सही तरीके से समझ में आया) कि सभी बे अनुमान लगाने वाले स्वीकार्य हैं, क्योंकि जेम्स-स्टीन को अनुभवजन्य के माध्यम से समझा जा सकता है। बेयर्स ...
अमीबा का कहना है कि

2
@ अमोबा: हाँ, किसी भी बेस अनुमानक जो किसी स्वीकार्य पूर्व अनुमानक के लिए किसी भी उचित पूर्व सुराग के तहत पीछे है । जहाँ तक आनुभविक बेयस जाता है, ऐसी प्रक्रिया वास्तव में बोनाफाइड बेयस नहीं हैं, क्योंकि डेटा पर पूर्व निर्भर होने से विकृति हो सकती है। कभी-कभी उन्हें स्वीकार्य होने के लिए दिखाया जा सकता है, कभी-कभी वे नहीं होते हैं - आमतौर पर आपको केस-बाय-केस काम करना पड़ता है। मैंने इस बिंदु पर अपने उत्तर को थोड़ा और अधिक स्पष्ट करने के लिए संपादित किया है, क्योंकि वास्तव में मुझे नहीं पता कि शास्त्रीय रैखिक मिश्रित मॉडल स्वीकार्य हैं या नहीं!
एंड्रयू एम

3
बस यह इंगित करने की आवश्यकता है कि वास्तविक उचित बेयर्स अनुमानक जेम्स-स्टीन अनुमानक के रूप में शायद ही कभी काम करते हैं क्योंकि वे न्यूनतम नहीं हैं। उदाहरण के लिए बिल स्ट्रॉडरमैन ने दिखाया (1975 में) कि सामान्य सामान्य माध्य समस्या के लिए 5 से कम आयामों में कोई न्यूनतम न्यूनतम बेस अनुमानक मौजूद नहीं है, जिसने यह सब निर्धारित किया है।
शीआन

2
  • जेम्स-स्टीन मानते हैं कि प्रतिक्रिया का आयाम कम से कम 3. मानक रिज प्रतिगमन में प्रतिक्रिया एक आयामी है। आप प्रतिक्रिया आयाम के साथ भविष्यवक्ताओं की संख्या को भ्रमित कर रहे हैं।

  • यह कहा जा रहा है, मैं उन स्थितियों में समानता देखता हूं, लेकिन वास्तव में क्या करना है, जैसे कि एक कारक तय किया जाना चाहिए या यादृच्छिक होना चाहिए, कितना संकोचन लागू करना है, यदि बिल्कुल भी, विशेष डेटासेट पर निर्भर है। उदाहरण के लिए, जितने अधिक ऑर्थोगोनल भविष्यवक्ता होते हैं, उतना ही कम होता है जो रिजेन रिग्रेशन को मानक प्रतिगमन पर लेने के लिए समझ में आता है। मापदंडों की संख्या जितनी अधिक होगी, उतना ही यह एम्पिरिकल बे के माध्यम से डेटासेट से पूर्व को निकालने के लिए समझ में आता है और फिर पैरामीटर अनुमानों को सिकोड़ने के लिए इसका उपयोग करता है। सिग्नल-टू-शोर अनुपात जितना अधिक होगा, संकोचन के छोटे लाभ, आदि।


जवाब के लिए धन्यवाद। आपकी पहली बुलेट के बारे में: लेकिन रिज रिग्रेशन में जो सिकुड़ा जा रहा है , वह , जिसमें भविष्यवाणियों के जितने आयाम हैं, क्या यह नहीं है? β
अमीबा का कहना है कि

1
ठीक है, तो सिद्धांत रूप में जेएस को बेहतर काम करना चाहिए, यह मानते हुए कि यह उस स्थिति में बढ़ा दिया गया है जब एमएसई का अनुमान लगाया गया है और बीटा के विचरण-सहसंयोजक मैट्रिक्स मनमाना है। उस स्थिति में, जेएस केवल बीटा के बिंदु अनुमान को नहीं लेगा और इसे स्केलिंग कारक से गुणा करेगा। रिज रिग्रेशन के लिए सिमिलरी, बीटा के विभिन्न घटक अलग-अलग सिकुड़ जाएंगे।
जेम्स 15

सहसंयोजक मैट्रिक्स के बारे में बहुत अच्छी बात ! मुझे लगता है कि यह उत्तर (कम से कम सहज रूप से) मेरी पहली गोली है। β
अमीबा का कहना है कि मोनिका

2
@ नाम: रैखिक मॉडलों को नमूना (जो में रहता है ) को -dimensional उप-स्थान (डिजाइन मैट्रिक्स द्वारा फैलाया गया स्तंभ ) पर सोचा जा सकता है । विशेष रूप से, हम हमेशा इसे पहचान पर प्रोजेक्ट कर सकते हैं। एक का नमूना मतलब का उपयोग कर के रूप में ही है -vector जब आप केवल एक ही अवलोकन किया है। Rnpn
एंड्रयू एम

2

जैसा कि दूसरों ने कहा है, तीनों के बीच संबंध यह है कि आप माप में पूर्व सूचना को कैसे शामिल करते हैं।

  1. स्टीन विरोधाभास के मामले में, आप जानते हैं कि इनपुट चर के बीच सही सहसंबंध शून्य होना चाहिए (और सभी संभव सहसंबंध उपाय, चूंकि आप स्वतंत्रता को लागू करना चाहते हैं, न कि केवल असंबंधित), इसलिए आप सरल से बेहतर एक चर का निर्माण कर सकते हैं नमूना माध्य और विभिन्न सहसंबंध उपायों को दबाता है। बेयसियन फ्रेमवर्क में, आप एक पूर्व का निर्माण कर सकते हैं जो शाब्दिक रूप से उन घटनाओं का वजन करता है जो नमूना साधन के बीच सहसंबंध पैदा करते हैं और दूसरों का वजन करते हैं।
  2. रिज रिग्रेशन के मामले में आप सशर्त अपेक्षा मूल्य E (y | x) के लिए एक अच्छा अनुमान लगाना चाहते हैं। सिद्धांत रूप में यह एक अनंत-आयामी समस्या है और बीमार परिभाषित है क्योंकि हमारे पास केवल परिमित संख्या माप है। हालांकि, पूर्व ज्ञान यह है कि हम एक निरंतरता फ़ंक्शन की तलाश कर रहे हैं जो डेटा को मॉडल करता है। यह अभी भी बीमार परिभाषित है, क्योंकि निरंतरता के कार्यों को मॉडल करने के लिए अभी भी कई तरीके हैं, लेकिन सेट कुछ छोटा है। रिज रिग्रेशन संभव सातत्य कार्यों को क्रमबद्ध करने के लिए सिर्फ एक सरल तरीका है, उनका परीक्षण करें और स्वतंत्रता के अंतिम स्तर पर रोकें। एक व्याख्या कुलपति-आयाम चित्र है: रिज प्रतिगमन के दौरान, आप जांचते हैं कि स्वतंत्रता की दी गई डिग्री के साथ कितनी अच्छी तरह से af (x, p1, P2 ...) मॉडल डेटा में निहित अनिश्चितता का वर्णन करता है। व्यावहारिक रूप से, यह मापता है कि कितनी अच्छी तरह से एफ (एक्स, पी 1, पी 2 ... ) और आनुभविक P (p1, P2 ...) पूर्ण P (y | x) वितरण को पुन: निर्मित कर सकता है और E (y! x) नहीं। इस तरह बहुत अधिक स्वतंत्रता वाले मॉडल (जो आमतौर पर ओवरफिट होते हैं) को तौला जाता है, क्योंकि स्वतंत्रता के एक निश्चित डिग्री के बाद अधिक पैरामीटर का मतलब मापदंडों के बीच बड़ा संबंध होगा और परिणामस्वरूप बहुत व्यापक पी (एफ (एक्स, पी 1, पी 2)। ..)) वितरण। एक अन्य व्याख्या यह है कि मूल हानि फ़ंक्शन एक माप मान भी है, और यह किसी दिए गए नमूने पर मूल्यांकन अनिश्चितता के साथ आता है, इसलिए वास्तविक कार्य हानि फ़ंक्शन को कम नहीं कर रहा है, लेकिन एक न्यूनतम खोजने के लिए जो कि तुलना में काफी कम है अन्य (व्यावहारिक रूप से स्वतंत्रता की एक डिग्री से दूसरे में बदलते हुए एक बायेसियन निर्णय है, इसलिए एक पैरामीटर की संख्या में केवल तभी परिवर्तन करता है जब वे नुकसान फ़ंक्शन में महत्वपूर्ण कमी देते हैं)। रिज प्रतिगमन को इन दो चित्रों (सीवी-आयाम, अपेक्षित हानि) के लिए एक अनुमान के रूप में व्याख्या की जा सकती है। कुछ मामलों में आप स्वतंत्र रूप से उच्चतर डिग्री को प्राथमिकता देना चाहते हैं, उदाहरण के लिए कण भौतिकी में आप कण टकराव का अध्ययन करते हैं, जहां आप कणों की उत्पादित संख्या की उम्मीद एक पॉइसन वितरण करते हैं, इसलिए आप एक छवि पर कण ट्रैक को फिर से संगठित करते हैं (उदाहरण के लिए एक फोटो) ) एक तरह से जो दी गई संख्या को ट्रैक करता है और उन मॉडलों को दबाता है जिनमें छवि की छोटी या उच्चतर ट्रैक-संख्या-व्याख्या होती है।
  3. तीसरा मामला माप में एक पूर्व सूचना को लागू करने की कोशिश करता है, अर्थात् यह पिछले मापों से ज्ञात होता है कि छात्रों की ऊंचाई को गौसेन के वितरण द्वारा बहुत अच्छी तरह से मॉडल किया जा सकता है और उदाहरण के लिए कॉची द्वारा नहीं।

तो संक्षेप में, जवाब यह है कि आप माप की अनिश्चितता को कम कर सकते हैं यदि आप जानते हैं कि कुछ पिछले डेटा (पूर्व सूचना) के साथ डेटा की अपेक्षा और श्रेणीबद्ध करना क्या है। यह पिछला डेटा वह है जो आपके मॉडलिंग फ़ंक्शन को बाधित करता है जिसका उपयोग आप माप को फिट करने के लिए करते हैं। सरल मामलों में आप अपने मॉडल को बायेसियन फ्रेमवर्क में लिख सकते हैं, लेकिन कभी-कभी यह अव्यावहारिक होता है, जैसे कि बायेसियन मैक्सिमल ए पोस्टीरियर मूल्य वाले सभी को खोजने के लिए सभी संभावित सातत्य कार्यों को एकीकृत करने में।


2

जेम्स स्टीन अनुमानक और रिज प्रतिगमन

विचार करें

y=Xβ+ϵ

साथ ϵN(0,σ2I)

कम से कम चौकोर घोल फॉर्म का होता है

β^=S1Xy जहां ।S=XX

β^ के लिए निष्पक्ष है और covriance मैट्रिक्स है । इसलिए हम लिख सकते हैंβσ2S1

β^N(β,σ2S1) ध्यान दें कि अधिकतम संभावना अनुमान, MLE हैं।β^

जेम्स स्टीन

Jame Stein के लिए सरलता के लिए हम मान लेंगे । जेम्स और स्टीन फिर फॉर्म के पर एक पूर्व जोड़ देंगेS=Iβ

βN(0,aI)

और फॉर्म , का एक पिछला भाग प्राप्त करेंगे तो अनुमान लगाएगी के साथ और फार्म का एक जेम्स स्टीन आकलनकर्ता मिलaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^

रिज रिग्रेशन

रिज रिग्रेशन में आमतौर पर स्टैंडडाइज्ड (मतलब 0, vairance 1 प्रत्येक कॉलम के लिए ) होता है ताकि रिग्रेशन पैरामीटर्स तुलनीय हों। जब यह लिए ।XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

का एक रिज प्रतिगमन अनुमान , के रूप में परिभाषित किया गया है , होना करने के लिएβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ ध्यान दें कि MLE है।β^

कैसे हुआ ?? यादβ^(λ)

β^N(β^,σ2S1) और यदि हम पूर्व में एक बायेसियन जोड़ते हैं

βN(0,σ2λI)

तब हमें मिलता है

E(β|β^)=(S+λI)1Sβ^

रिज रिग्रेशन एस्टीमेट । तो यहाँ दिए गए जेम्स स्टीन का मूल रूप और लेता है ।β^(λ)S=Ia=σ2λ

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.