अशक्त परिकल्पना के तहत रेखीय प्रतिगमन में का वितरण क्या है ? जब है तो इसका मोड शून्य पर क्यों नहीं है ?


26

परिकल्पना तहत रैखिक अविभाजित एकाधिक प्रतिगमन में निर्धारण, या R वर्ग, के गुणांक का वितरण क्या है ?आर 2 एच 0 : β = 0R2H0:β=0

यह भविष्यवाणियों की संख्या और नमूनों की संख्या पर कैसे निर्भर करता है ? क्या इस वितरण की विधा के लिए एक बंद-रूप अभिव्यक्ति है?k n > केkn>k

विशेष रूप से, मुझे लगता है कि साधारण प्रतिगमन (एक पूर्वसूचक ) के लिए इस वितरण में शून्य पर मोड है, लेकिन कई प्रतिगमन के लिए मोड एक गैर-शून्य सकारात्मक मूल्य पर है। यदि यह वास्तव में सच है, तो क्या इस "चरण संक्रमण" का एक सहज स्पष्टीकरण है?एक्सx


अद्यतन करें

जैसा कि @ एलेकोस ने नीचे दिखाया है, वितरण वास्तव में शून्य पर चोट करता है जब के = k=2 और के = k=3 और शून्य पर नहीं जब k > 3k>3 । मुझे लगता है कि इस चरण संक्रमण पर एक ज्यामितीय दृष्टिकोण होना चाहिए। : OLS के ज्यामितीय दृश्य पर विचार करें yy में एक वेक्टर है आर एनRn , एक्सX परिभाषित करता है एक कश्मीरk वहाँ आयामी उपस्पेस। इस उप-स्थान पर \ mathbf y को प्रोजेक्ट करने के लिए OLS राशियाँ हैं yy, और R ^ 2 \ mathbf y और इसके प्रक्षेपण \ hat {\ mathbf y} केआर 2R2 बीच के कोण का कोसारा वर्ग है ।yyyy^

अब, @ एलेकोस के उत्तर से यह इस प्रकार है कि यदि सभी वैक्टर यादृच्छिक हैं, तो इस कोण की संभाव्यता वितरण k ^ 2 और k = 3 के90 90 लिए 90 ^ \ _ के बराबर हो जाएगी, लेकिन कुछ अन्य मान <90 ^ पर एक मोड होगा। k> 3 के लिए \ circ । क्यूं कर?!के = k=2के = k=3< 90 <90k > 3k>3


अद्यतन 2: मैं @ एलेकोस के उत्तर को स्वीकार कर रहा हूं, लेकिन अभी भी यह महसूस कर रहा हूं कि मुझे यहां कुछ महत्वपूर्ण अंतर्दृष्टि याद आ रही है। यदि कोई भी कभी भी इस घटना पर कोई अन्य (ज्यामितीय या नहीं) दृश्य सुझाता है जो इसे "स्पष्ट" बना देगा, तो मुझे एक इनाम देने में खुशी होगी।


1
क्या आप त्रुटि सामान्यता मानने को तैयार हैं?
दिमित्री वी। मास्टरोव

1
हां, मुझे लगता है कि इस सवाल का जवाब देने योग्य (?) बनाने के लिए किसी को यह मान लेना होगा।
अमीबा का कहना है कि मोनिका

1
क्या आपने इस davegiles.blogspot.jp/2013/05/good-old-r-squared.html की जाँच की है ?
खाशा

1
@ कशा: वास्तव में, मुझे यह स्वीकार करना होगा कि मैंने अपना प्रश्न पोस्ट करने से पहले उस ब्लॉगस्पॉट पृष्ठ को खोजा था। ईमानदारी से, मैं अभी भी हमारे मंच पर इस घटना की चर्चा करना चाहता था, इसलिए नाटक किया कि मैंने यह नहीं देखा।
अमीबा का कहना है कि मोनिका

1
दृढ़ता से संबंधित सीवी प्रश्न से संबंधित आँकड़े ।stackexchange.com
पापाडोपौलोस

जवाबों:


33

विशिष्ट परिकल्पना के लिए (कि सभी regressor गुणांक शून्य, कर रहे हैं नहीं और सामान्य के तहत निरंतर शब्द है, जो इस परीक्षण में जांच नहीं कर रहा है सहित), हम जानते हैं (देखें उदाहरण के लिए Maddala 2001, पी। 155, लेकिन ध्यान दें कि वहाँ, की गिनती निरंतर अवधि के बिना regressors, तो अभिव्यक्ति थोड़ा अलग लग रहा है) कि आंकड़ाकश्मीरk

एफ = एन - केk - 1 R21 - आर 2 एफ(के-1,एन-के)

F=nkk1R21R2
को केंद्रीय यादृच्छिक चर के रूप में वितरित किया जाता है ।F(k1,nk)

ध्यान दें कि यद्यपि हम निरंतर शब्द का परीक्षण नहीं करते हैं, इसे भी गिनता है।कश्मीरk

घूमती हुई चीजें,

( k - 1 ) F - ( k - 1 ) F R 2 = ( n - k ) R 2( k - 1 ) F = R 2 [ ( n - k ) + ( k - 1 ) F ]

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

आर 2 = ( के - 1 ) एफ( n - k ) + ( k - 1 ) F

R2=(k1)F(nk)+(k1)F

लेकिन दाहिना हाथ पक्ष विशेष रूप से बीटा वितरण के रूप में वितरित किया जाता है

आर 2 ~ बी टी एक ( कश्मीर - 12 ,एन-के2 )

R2Beta(k12,nk2)

इस वितरण की विधा है

मोड आर 2 = के - 12 -1के - 2 +एन-के2 -2=के-3एन - 5

modeR2=k121k12+nk22=k3n5

अंतिम और अद्वितीय मोड
उपरोक्त संबंध से हम अनुमान लगा सकते हैं कि वितरण के लिए हमारे पास एक विशिष्ट और सीमित मोड होना चाहिए।

कश्मीर 3 , n > 5

k3,n>5

यह बीटा वितरण के लिए सामान्य आवश्यकता के अनुरूप है, जो है

{ Α > 1 , बीटा 1 } ,या{ अल्फा 1 , β > 1 }

{α>1,β1},OR{α1,β>1}

के रूप में एक इस सीवी धागे से अनुमान लगा सकते हैं या यहाँ पढ़ सकते हैं
ध्यान दें कि अगर , हम समान वितरण प्राप्त करते हैं, तो सभी घनत्व बिंदु मोड (सीमित नहीं बल्कि अद्वितीय) हैं। जो प्रश्न बनाता है: क्यों, यदि , को रूप में वितरित किया जाता है ?{ α = 1 , β = 1 } k = 3 , n = 5 R 2 U ( 0 , 1 ){α=1,β=1}k=3,n=5R2U(0,1)

निहितार्थ
मान लें कि आपके पास (निरंतर सहित) regressors, और टिप्पणियों। बहुत अच्छा रिग्रेशन, ओवरफिटिंग नहीं। फिरके = एन = ९९k=5n=99

आर 2 | β = 0 ~ बी टी एक ( 2 , 47 ) , मोड आर 2 = 1470.021

R2β=0Beta(2,47),modeR2=1470.021

और घनत्व की साजिश

यहाँ छवि विवरण दर्ज करें

अंतर्ज्ञान कृपया: यह परिकल्पना के तहत का वितरण है जो वास्तव में कोई प्रतिगमन नहीं है जो प्रतिगमन के अंतर्गत आता है। इसलिए ए) वितरण regressors से स्वतंत्र है, ख) चूंकि नमूना आकार बढ़ता है, इसका वितरण शून्य की ओर केंद्रित होता है क्योंकि वृद्धि हुई जानकारी छोटे-नमूना परिवर्तनशीलता को निगलती है जो कुछ "फिट" लेकिन सी भी पैदा कर सकती है) अप्रासंगिक दबावों की संख्या के रूप में दिए गए नमूना आकार के लिए वृद्धि, वितरण ओर केंद्रित करता है , और हमारे पास "सहज फिट" घटना है। आर R21

लेकिन यह भी ध्यान दें कि यह कैसे "आसान" है, यह शून्य परिकल्पना को अस्वीकार करना है: विशेष उदाहरण में, संचयी संभावना पहले से ही तक पहुंच गई है , इसलिए एक प्राप्त "तुच्छ प्रतिगमन" के शून्य को अस्वीकार कर देगा "महत्व स्तर % पर।R 2 = 0.13 0.99 R 2 > 0.13 1R2=0.130.99R2>0.131

ADDENDUM वितरण
के मोड के बारे में नए मुद्दे पर प्रतिक्रिया देने के लिए , मैं विचार की निम्नलिखित पंक्ति (ज्यामितीय नहीं) की पेशकश कर सकता हूं, जो इसे "शानदार फिट" घटना से जोड़ता है: जब हम किसी डेटा पर कम से कम वर्ग चलाते हैं सेट, हम अनिवार्य रूप से अज्ञात के साथ रेखीय समीकरणों की एक प्रणाली को हल करते हैं (हाई-स्कूल गणित से एकमात्र अंतर यह है कि तब हम "ज्ञात गुणांक" कहते हैं जिसे रैखिक प्रतिगमन में हम "वैरिएबल / रेजिस्टर", "अज्ञात एक्स" कहते हैं अब हम "अज्ञात गुणांक" कहते हैं, और "निरंतर शब्द" जिसे हम जानते हैं "आश्रित चर" कहते हैं)। जब तकR 2 n k k < n 1 - R 2 k = n k R 2 1 k nR2nkk<nप्रणाली की पहचान की गई है और कोई सटीक समाधान नहीं है, केवल अनुमानित-और अंतर "निर्भर चर के अस्पष्टीकृत विचरण" के रूप में उभरता है, जिसे द्वारा कैप्चर किया गया है । यदि सिस्टम में एक सटीक समाधान है (रैखिक स्वतंत्रता को मानते हुए)। बीच में, जैसे ही हम की संख्या बढ़ाते हैं , हम सिस्टम की "अति-पहचान की डिग्री" को कम कर देते हैं और हम "एकल सटीक समाधान" की ओर बढ़ जाते हैं। इस दृष्टिकोण के तहत, यह समझ में आता है कि अप्रासंगिक रजिस्ट्रियों के जोड़ के साथ क्यों स्वाभाविक रूप से बढ़ता है, और इसके परिणामस्वरूप, इसका मोड धीरे-धीरे ओर बढ़ता है , क्योंकि दिए गए लिए बढ़ता है ।1R2k=nkR21kn


1
इसका गणित है। के लिए बीटा वितरण ( "के पहले पैरामीटर " मानक संकेत में) एकता की तुलना में छोटे हो जाता है। उस स्थिति में बीटा वितरण के पास कोई परिमित मोड नहीं है, keisan.casio.com/exec/system/1180573226 के साथ खेलते हैं कि कैसे आकृतियाँ बदलती हैं। k = 2 αk=2α
एलेकोस पापाडोपोलोस

1
@Alecos उत्कृष्ट जवाब! (+1) क्या मैं दृढ़ता से सुझाव दे सकता हूं कि आप अपने उत्तर को मोड में मौजूद होने की आवश्यकता से जोड़ दें? यह आमतौर पर और रूप में कहा जाता है , लेकिन अधिक सूक्ष्मता से, यह ठीक है अगर समानता दोनों में से एक में है ... मुझे लगता है कि हमारे उद्देश्यों के लिए यह और और इनमें से कम से कम एक असमानता सख्त हैα > 1 β > 1 कश्मीर 3 एन कश्मीर + 2α>1β>1k3 nk+2
सिल्वरफिश

2
@ खाशा को छोड़कर अगर सिद्धांत यह मांग करता है, तो मैं कभी भी अवरोधन को प्रतिगमन से बाहर नहीं करता -यह आश्रित चर, रजिस्टरों या नो रिग्रेसर्स का औसत स्तर है (और यह स्तर आमतौर पर सकारात्मक होता है, इसलिए यह एक मूर्खतापूर्ण स्व-निर्मित प्रक्षेपास्त्र होगा। इसे छोड़ दें)। लेकिन मैं हमेशा इसे प्रतिगमन के एफ-परीक्षण से बाहर रखता हूं, क्योंकि मुझे इस बात की परवाह नहीं है कि क्या आश्रित चर का एक गैर-शून्य बिना शर्त मतलब है, लेकिन क्या रजिस्टरों के पास कोई व्याख्यात्मक शक्ति है क्योंकि इस अर्थ से विचलन का संबंध है।
एलेकोस पापाडोपोलोस

1
+1! क्या गैर- लिए के वितरण के लिए परिणाम हैं ? आर 2 β जेआर2βj
बजे क्रिस्टोफ हनक

1
@ChristophHanck यह भी देखें davegiles.blogspot.jp/2013/05/good-old-r-squared.html
Alecos Papadopoulos

18

मैं rederive नहीं होगा में @ Alecos उत्तम जवाब वितरण (यह एक मानक परिणाम है, को देखने के लिए यहां किसी अन्य के लिए अच्छी चर्चा) लेकिन मैं परिणामों के बारे में अधिक जानकारी भरना चाहता हूं! सबसे पहले, का शून्य वितरण और के मानों की श्रेणी के लिए कैसा दिखता है ? @ एलेकोस के उत्तर में ग्राफ व्यावहारिक रूप से कई प्रतिगमन में होता है, लेकिन कभी-कभी अंतर्दृष्टि छोटे मामलों की तुलना में अधिक आसानी से चमक जाती है। मैंने माध्य, मोड (जहां यह मौजूद है) और मानक विचलन शामिल किया है। ग्राफ / तालिका एक अच्छी नेत्रगोलक के योग्य है: पूर्ण आकार में सबसे अच्छा देखा गयाबी टी एक ( कश्मीर - 12 ,एन - के2 )आर2एनकेएनकेबी टी एक ( कश्मीर - 12,एन - के2)आर2nकश्मीर। मैं कम पहलुओं को शामिल कर सकता था लेकिन पैटर्न कम स्पष्ट होता; मैंने Rकोड जोड़ा है ताकि पाठक और विभिन्न सबसेट के साथ प्रयोग कर सकें ।nकश्मीर

छोटे नमूना आकारों के लिए आर 2 का वितरण

आकार मापदंडों का मान

ग्राफ की रंग योजना इंगित करती है कि क्या प्रत्येक आकार पैरामीटर एक (लाल) से कम है, एक (नीला) के बराबर है, या एक से अधिक (हरा) है। बाएँ हाथ की ओर का मान दिखाता है, जबकि दाईं ओर । चूंकि , इसका मान सामान्य रूप से सामान्य अंतर से अंकगणितीय प्रगति में बढ़ जाता है, क्योंकि हम कॉलम से कॉलम तक सही तरीके से चलते हैं (हमारे मॉडल में एक प्रतिगामी जोड़ें) जबकि, नियत , घटकर । प्रत्येक पंक्ति (किसी दिए गए नमूना आकार के लिए) के लिए कुल तय किया गया है। अगर इसके बजाय हम ठीक करते हैंअल्फा बीटा अल्फा = कश्मीर - 1αβα = k - 22 एनβ=एन-के12nβ= एन - के22 α+β=n-1122 kαβ1α + β=n12kऔर कॉलम को नीचे ले जाएं (नमूना आकार को 1 से बढ़ाएं), फिर स्थिर रहता है और बढ़ जाता है । प्रतिगमन शब्दों में, मॉडल में शामिल रजिस्टरों की संख्या का आधा है, और स्वतंत्रता के अवशिष्ट डिग्री का आधा है । वितरण के आकार को निर्धारित करने के लिए हम विशेष रूप से जहां या बराबर एक में रुचि रखते हैं ।αβ2 αβαβ12αβαβ

बीजगणित के लिए सीधा है : हम है तो । यह वास्तव में पहलू भूखंड का एकमात्र स्तंभ है जो बाईं ओर नीला भरा है। इसी प्रकार के लिए ( स्तंभ बाईं तरफ लाल है) और के लिए (से स्तंभ के बाद, बाईं ओर हरे रंग की है)।α k - α2 =1k=3α<1k<3k=2α>1k>3k=4k12=1k=3α<1k < के = α > 1k > 3के =

के लिए हमारे पास इसलिए । ध्यान दें कि कैसे इन मामलों (एक नीले रंग के दाहिने हाथ के साथ चिह्नित) ने कटोरे को पूरे भूखंड में काट दिया। के लिए हम प्राप्त (विकर्ण रेखा की बाईं करने के लिए एक हरे रंग की बाईं ओर झूठ के साथ रेखांकन)। के लिए हम जरूरत है, जो केवल राइट ज्यादातर मामलों मेरी ग्राफ पर शामिल है: पर हमारे पास और वितरण पतित है, लेकिन जहां प्लॉट किया गया है (लाल रंग में दाईं ओर)।β = 1 n - कश्मीरβ= 12 =1कश्मीर=n-2β>1कश्मीर<n-2β<1कश्मीर>n-2n=कश्मीरβ=0एन=कश्मीर-1β=1एन - के2= 1के = एन - β> 1k < n - 2β< के > एन - 2n=kβ=0n=k12β=12

चूँकि PDF , यह स्पष्ट है कि यदि (और केवल यदि ) तब रूप में । हम इसे ग्राफ़ में देख सकते हैं: जब बाईं ओर लाल छायांकित होता है, तो व्यवहार को 0. पर देखें। इसी तरह जब तब रूप में । जिधर देखो उधर दाईं ओर लाल!एफ ( एक्स) ;α ,β ) α x α - 1 ( 1 - एक्स ) β - 1 α < 1 ( एक्स ) एक्स 0 β < 1 ( एक्स ) एक्स 1f(x;α,β)xα1(1x)β1α<1f(x)x0β<1f(x)x1

समानताएं

ग्राफ की सबसे आंख को पकड़ने वाली विशेषताओं में से एक समरूपता का स्तर है, लेकिन जब बीटा वितरण शामिल है, तो यह आश्चर्यजनक नहीं होना चाहिए!

बीटा वितरण स्वयं सममित है अगर । हमारे लिए यह तब होता है यदि जो सही ढंग से पैनल , , और । यह वितरण में सममित है , उस नमूना आकार के लिए हम मॉडल में कितने प्रतिगामी चर शामिल करते हैं, इस पर निर्भर करता है। यदि का वितरण 0.5 के बारे में पूरी तरह सममित है; अगर हम उससे कम वैरिएबल को शामिल करते हैं तो यह तेजी से असममित हो जाता है और प्रायिकता द्रव्यमान के बड़े पैमाने पर करीब हो जाता हैα = β n = 2 k - 1 ( k = 2 , n = 3 ) ( k = 3 , n = 5 ) ( k = 4 , n = 7 ) ( k = 5 , n = 9 ) R 2 = 0.5 k = एन + α=βn=2k1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9)R2=0.52 आर2आर2=0आर2=1केk=n+12R2R2=0; यदि हम अधिक चर शामिल करते हैं तो यह करीब शिफ्ट हो जाता है । याद रखें कि में इसकी गिनती में अवरोधन शामिल है, और यह कि हम अशक्त के तहत काम कर रहे हैं, इसलिए प्रतिगामी चर को सही ढंग से निर्दिष्ट मॉडल में गुणांक शून्य होना चाहिए।R2=1k

किसी भी दिए गए वितरण के बीच एक स्पष्ट रूप से समरूपता है , यानी facet ग्रिड में कोई पंक्ति। उदाहरण के लिए, की तुलना के साथ । यह क्या कारण है? याद रखें कि का वितरण पार की दर्पण छवि है । अब हमारे पास और । पर विचार करें और हम पाते हैं:n ( कश्मीर = 3 , n = 9 ) ( कश्मीर = 7 , n = 9 ) बी टी एक ( α , β ) बी टी एक ( β , α ) एक्स = 0.5 α कश्मीर , एन = कश्मीर - 1n(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)x=0.52 βकश्मीर,एन=एन-कश्मीरαk,n=k122 k=n-k+1βk,n=nk2k=nk+1

α कश्मीर ' , एन = ( n - कश्मीर + 1 ) - 12 =एन-के2 =βकश्मीर,एनβकश्मीर',n=n-(n-कश्मीर+1)

αk,n=(nk+1)12=nk2=βk,n
2 =के-12 =αके,एन
βk,n=n(nk+1)2=k12=αk,n

इसलिए यह समरूपता की व्याख्या करता है क्योंकि हम एक निश्चित नमूना आकार के लिए मॉडल में रजिस्टरों की संख्या को बदलते हैं। यह उन वितरणों की भी व्याख्या करता है जो स्वयं एक विशेष मामले के रूप में सममित हैं: उनके लिए, इसलिए वे स्वयं के साथ सममित होने के लिए बाध्य हैं!कश्मीर ' = कश्मीरk=k

यह हमें कुछ हम कई प्रतिगमन के बारे में अनुमान लगाया है नहीं हो सकता है बताता है: किसी दिए गए नमूने का आकार के लिए , और यह मानते हुए कोई regressors के साथ एक वास्तविक संबंध है , का उपयोग कर एक मॉडल के लिए regressors के साथ साथ एक अवरोधन एक ही वितरण किया गया है रूप में स्वतंत्रता के बाकी बचे के अवशिष्ट डिग्री वाले मॉडल के लिए करता हैn Y R 2 k - 1 1 - R 2 k - 1nYR2k11R2k1

विशेष वितरण

जब हमारे पास , जो एक मान्य पैरामीटर नहीं है। हालाँकि, वितरण के रूप में से वितरण एक स्पाइक के साथ पतित हो जाता है जैसे कि । यह उस चीज के साथ संगत है जिसे हम एक मॉडल के बारे में जानते हैं, जिसमें डेटा बिंदुओं के रूप में कई पैरामीटर हैं - यह सही फिट प्राप्त करता है। मैंने अपने ग्राफ़ पर पतित वितरण को नहीं खींचा है, लेकिन इसमें माध्य, मोड और मानक विचलन शामिल हैं।कश्मीर = n बीटा = 0 बीटा 0 पी ( आर 2 = 1 ) = 1k=nβ=0β0P(R2=1)=1

जब और हम जो कि आर्सेनिन वितरण है । यह सममित ( ) और बिमोडल (0 और 1) है। चूंकि यह एकमात्र मामला है, जहां दोनों और (दोनों पक्षों पर लाल चिह्नित), यह हमारा एकमात्र वितरण है जो समर्थन के दोनों सिरों पर अनंत तक जाता है।k = 2 n = 3 B e t a ( 1)k=2n=32 ,12 )अल्फा=बीटाअल्फा<1बीटा<1Beta(12,12)α=βα<1β<1

वितरण केवल बीटा वितरण हो रहा है आयताकार (वर्दी) । से 0 से 1 तक के सभी मान समान रूप से होने की संभावना है। और का एकमात्र संयोजन जिसके लिए होता है, और (दोनों पक्षों पर नीला)।बी टी ( 1 ,1 ) आर 2 के एन α = β = 1 के = 3 एन = 5Beta(1,1)R2knα=β=1k=3n=5

पिछले विशेष मामले सीमित प्रयोज्यता के हैं, लेकिन केस और (बाईं ओर हरा, दाईं ओर नीला) महत्वपूर्ण है। अब इसलिए हमारे पास एक है बिजली कानून पर वितरण [0, 1]। बेशक, यह संभावना नहीं है कि हम और साथ एक प्रतिगमन करेंगे , जो कि जब यह स्थिति होती है। लेकिन पिछले समरूपता तर्क, या पीडीएफ पर कुछ तुच्छ बीजगणित द्वारा, जब और , जो दो रजिस्टरों के साथ कई प्रतिगमन की लगातार प्रक्रिया है और एक गैर-तुच्छ नमूना आकार पर एक अवरोधन है,α > 1 β = 1 ( एक्स ;α>1β=1α ,β ) α x α - 1 ( 1 - एक्स ) β - 1 = x α - 1 कश्मीर = n - 2 कश्मीर > 3 कश्मीर = 3 n > 5 आर 2 एच 0 α = 1 β > 1f(x;α,β)xα1(1x)β1=xα1k=n2k>3k=3n>5R2 तहत [0, 1] पर एक प्रतिबिंबित बिजली कानून वितरण का पालन करेंगे । H0यह और मेल खाता है इसलिए बाईं ओर नीला, दाईं ओर हरा चिह्नित है।α=1β>1

आप यह भी देखा हो त्रिकोणीय वितरण पर और उसके प्रतिबिंब । हम उनके और से पहचान सकते हैं कि ये पावर-लॉ के केवल विशेष मामले हैं और परिलक्षित पावर-लॉ वितरण हैं जहां पावर ।( कश्मीर = 5 , n = 7 ) ( कश्मीर = 3 , n = 7 ) अल्फा बीटा 2 - 1 = 1(k=5,n=7)(k=3,n=7)αβ21=1

मोड

यदि और , भूखंड में सभी हरे, , और बीटा वितरण के साथ अवतल है एक अद्वितीय मोड । इन्हें और संदर्भ में रखने पर , स्थिति और जबकि मोड ।α > 1 β > 1 ( एक्स ;α>1β>1α ,β ) ( 0 ) = ( 1 ) = 0 α - 1f(x;α,β)f(0)=f(1)=0α + β - 2 कश्मीरnकश्मीर>3n>कश्मीर+2कश्मीर-3α1α+β2knk>3n>k+2एन - 5k3n5

अन्य सभी मामलों को ऊपर से निपटाया गया है। यदि हम को अनुमति देने के लिए असमानता को शिथिल करते हैं , तो हम और (समकक्ष, ) के साथ (हरा-नीला) शक्ति-कानून वितरण शामिल करते हैं । इन मामलों में स्पष्ट रूप से मोड 1 है, जो वास्तव में पिछले फॉर्मूले से सहमत है क्योंकि । अगर इसके बजाय हमने की अनुमति दी है, लेकिन अभी भी की मांग की है , तो हम और ) के साथ पावर-लॉ वितरण को प्रतिबिंबित (नीला-हरा) पाएंगे । उनकी विधा 0 है, जो सहमत है । हालाँकि, अगर हम दोनों असमानताओं को एक साथ अनुमति देने के लिए आराम करते हैंβ = 1 k = n - 2 k > 3 n > 5 ( n - 2 ) - 3β=1k=n2k>3n>5n - 5 =1α=1β>1कश्मीर=3n>53-3(n2)3n5=1α=1β>1k=3n>5n - 5 =0α=β=1k=3n=53-333n5=0α=β=1, हम और साथ (सभी नीले) समान वितरण पाएंगे , जिसमें एक अद्वितीय मोड नहीं है। इसके अलावा पिछले फॉर्मूले को इस मामले में लागू नहीं किया जा सकता है, क्योंकि यह अनिश्चित फॉर्म को लौटाएगा ।k=3n=5- =03355=00

जब हम मोड 1 के साथ पतित वितरण प्राप्त करते हैं। 1. जब (प्रतिगमन शब्दों में, तो स्वतंत्रता की केवल एक अवशिष्ट डिग्री होती है) तब as , और जब (प्रतिगमन शब्दों में, तो एक सरल रेखीय मॉडल अवरोधन और एक प्रतिगामी के साथ) तो रूप में । असामान्य मामले को छोड़कर ये अनोखे तरीके होंगे जहां और (तीन बिंदुओं पर एक सरल रैखिक मॉडल को फिट करना) जो कि 0 और 1 पर bimodal है। n = कश्मीर β < 1 एन = कश्मीर - 1 ( एक्स ) एक्स 1 α < 1 कश्मीर = 2 ( एक्स ) एक्स 0 कश्मीर = 2 n = 3n=kβ<1n=k1f(x)x1α<1k=2f(x)x0k=2n=3

मीन

मोड के बारे में पूछा गया प्रश्न, लेकिन अशक्त के तहत का मतलब भी दिलचस्प है - इसमें उल्लेखनीय रूप से सरल फॉर्म । एक निश्चित नमूने के आकार के लिए यह अंकगणितीय प्रगति में बढ़ जाता है क्योंकि मॉडल में अधिक रेजिस्टर जोड़े जाते हैं, जब तक कि इसका मतलब 1 नहीं है जब । बीटा डिस्ट्रीब्यूशन का मतलब इसलिए इस तरह की अंकगणितीय प्रगति हमारे पहले अवलोकन से अपरिहार्य थी कि, निश्चित , योग निरंतर है, लेकिन 0.5 के साथ बढ़ता है प्रत्येक प्रतिरूपक के लिए मॉडल में जोड़ा गया।आर 2 के - 1R2n - 1 k=nαk1n1k=nअल्फा + बीटा nअल्फा+बीटाअल्फाαα+βnα+βα

αα + β =(कश्मीर-1)/2( के - ) /+ ( एन - के ) / =के-एन - 1

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

भूखंडों के लिए कोड

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
वास्तव में प्रबुद्ध दृश्य। +1
खाशा

बढ़िया जोड़, +1, धन्यवाद। मैंने देखा कि जब आप वितरण को तो आप मोड को कॉल करते हैं, जब (और कहीं नहीं) - कुछ @Alecos ऊपर (टिप्पणियों में) करना नहीं चाहता था। मैं आपसे सहमत हूं: यह सुविधाजनक है। 0 + एक्स 00+x0
अमीबा का कहना है कि मोनिका

1
@amoeba ग्राफ़ से हम यह कहना चाहेंगे "मान 0 के आसपास सबसे अधिक होने की संभावना है" (या 1)। लेकिन अलेकोस का उत्तर भी कई अधिकारियों के साथ आत्मनिर्भर और सुसंगत दोनों है (लोग 0 और 1 पूर्ण स्टॉप के बारे में क्या करना चाहते हैं पर अलग-अलग हैं, अकेले चलो कि क्या वे एक मोड के रूप में गिन सकते हैं!)। मोड के लिए मेरा दृष्टिकोण एलेकोस से भिन्न होता है क्योंकि मैं अपने शुरुआती बिंदु को सूत्र के रूप में लेने के बजाय अल्फा और बीटा पर स्थितियों का उपयोग करता हूं, सूत्र के रूप में मेरे शुरुआती बिंदु को लेने और देखने के बजाय जो कि कश्मीर और समझदार उत्तर देते हैं।
सिल्वर फिश

1
(+1), यह एक बहुत ही भावपूर्ण जवाब है। को और दोनों के बहुत पास रखने से, प्रश्न का विस्तार से अध्ययन होता है, और इसलिए निर्णायक रूप से, बहुत अधिक और अप्रासंगिक रजिस्टरों के साथ वास्तव में छोटे नमूनों का मामला। k nkn
एलेकोस पापाडोपोलस

@amoeba आपने शायद देखा कि यह उत्तर इस बात के लिए बीजीय उत्तर प्रस्तुत करता है कि पर्याप्त रूप से बड़े , वितरण का मोड लिए 0 है, लेकिन लिए सकारात्मक है । चूँकि तब हमारे पास जिसमें स्पष्ट रूप से 0 के लिए पर मोड होगा , जबकि हमारे पास जिसका अधिकतम पथरी के द्वारा उद्धृत मोड सूत्र के रूप में पाया जा सकता है। जैसे-जैसे बढ़ता है, की शक्ति हर बार 0.5 बढ़ जाती है। यही तोn कश्मीर = 3 कश्मीर > 3 ( एक्स ) α एक्स ( कश्मीर - 3 ) / 2 ( 1 - एक्स ) ( n - कश्मीर - 2 ) / 2 कश्मीर = 3 ( एक्स ) α ( 1 - एक्स ) ( n - 5 ) / 2 एन > 5 के = 4 एफn( X ) α एक्स 1 / 2 ( 1 - एक्स ) ( n - 6 ) / 2 कश्मीर एक्स एक्स α - 1( 0 ) = 0 कारक जो बनाता है, तो 0 पर मोड को मारता है
सिल्वरफ़िश
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.