मैं rederive नहीं होगा में @ Alecos उत्तम जवाब वितरण (यह एक मानक परिणाम है, को देखने के लिए यहां किसी अन्य के लिए अच्छी चर्चा) लेकिन मैं परिणामों के बारे में अधिक जानकारी भरना चाहता हूं! सबसे पहले, का शून्य वितरण और के मानों की श्रेणी के लिए कैसा दिखता है ? @ एलेकोस के उत्तर में ग्राफ व्यावहारिक रूप से कई प्रतिगमन में होता है, लेकिन कभी-कभी अंतर्दृष्टि छोटे मामलों की तुलना में अधिक आसानी से चमक जाती है। मैंने माध्य, मोड (जहां यह मौजूद है) और मानक विचलन शामिल किया है। ग्राफ / तालिका एक अच्छी नेत्रगोलक के योग्य है: पूर्ण आकार में सबसे अच्छा देखा गयाबी ई टी एक ( कश्मीर - 12 ,एन - के2 )आर2एनकेएनकेबी ई टी एक ( कश्मीर - 12,एन - के2)आर2nकश्मीर। मैं कम पहलुओं को शामिल कर सकता था लेकिन पैटर्न कम स्पष्ट होता; मैंने R
कोड जोड़ा है ताकि पाठक और विभिन्न सबसेट के साथ प्रयोग कर सकें ।nकश्मीर
आकार मापदंडों का मान
ग्राफ की रंग योजना इंगित करती है कि क्या प्रत्येक आकार पैरामीटर एक (लाल) से कम है, एक (नीला) के बराबर है, या एक से अधिक (हरा) है। बाएँ हाथ की ओर का मान दिखाता है, जबकि दाईं ओर । चूंकि , इसका मान सामान्य रूप से सामान्य अंतर से अंकगणितीय प्रगति में बढ़ जाता है, क्योंकि हम कॉलम से कॉलम तक सही तरीके से चलते हैं (हमारे मॉडल में एक प्रतिगामी जोड़ें) जबकि, नियत , घटकर । प्रत्येक पंक्ति (किसी दिए गए नमूना आकार के लिए) के लिए कुल तय किया गया है। अगर इसके बजाय हम ठीक करते हैंअल्फा बीटा अल्फा = कश्मीर - 1αβ२ १α = k - १22 एनβ=एन-के12n२ १β= एन - के22 α+β=n-1122 kαβ1α + β=n−12kऔर कॉलम को नीचे ले जाएं (नमूना आकार को 1 से बढ़ाएं), फिर स्थिर रहता है और बढ़ जाता है । प्रतिगमन शब्दों में, मॉडल में शामिल रजिस्टरों की संख्या का आधा है, और स्वतंत्रता के अवशिष्ट डिग्री का आधा है । वितरण के आकार को निर्धारित करने के लिए हम विशेष रूप से जहां या बराबर एक में रुचि रखते हैं ।αβ2 αβαβ12αβαβ
बीजगणित के लिए सीधा है : हम है तो । यह वास्तव में पहलू भूखंड का एकमात्र स्तंभ है जो बाईं ओर नीला भरा है। इसी प्रकार के लिए ( स्तंभ बाईं तरफ लाल है) और के लिए (से स्तंभ के बाद, बाईं ओर हरे रंग की है)।α k - १α2 =1k=3α<1k<3k=2α>1k>3k=4k−12=1k=3α<1k < ३के = २α > 1k > 3के = ४
के लिए हमारे पास इसलिए । ध्यान दें कि कैसे इन मामलों (एक नीले रंग के दाहिने हाथ के साथ चिह्नित) ने कटोरे को पूरे भूखंड में काट दिया। के लिए हम प्राप्त (विकर्ण रेखा की बाईं करने के लिए एक हरे रंग की बाईं ओर झूठ के साथ रेखांकन)। के लिए हम जरूरत है, जो केवल राइट ज्यादातर मामलों मेरी ग्राफ पर शामिल है: पर हमारे पास और वितरण पतित है, लेकिन जहां प्लॉट किया गया है (लाल रंग में दाईं ओर)।β = 1 n - कश्मीरβ= 12 =1कश्मीर=n-2β>1कश्मीर<n-2β<1कश्मीर>n-2n=कश्मीरβ=0एन=कश्मीर-1β=1एन - के2= 1के = एन - २β> 1k < n - 2β< १के > एन - 2n=kβ=0n=k−12β=12
चूँकि PDF , यह स्पष्ट है कि यदि (और केवल यदि ) तब रूप में । हम इसे ग्राफ़ में देख सकते हैं: जब बाईं ओर लाल छायांकित होता है, तो व्यवहार को 0. पर देखें। इसी तरह जब तब रूप में । जिधर देखो उधर दाईं ओर लाल!एफ ( एक्स) ;α ,β ) α x α - 1 ( 1 - एक्स ) β - 1 α < 1 च ( एक्स ) → ∞ एक्स → 0 β < 1 च ( एक्स ) → ∞ एक्स → 1f(x;α,β)∝xα−1(1−x)β−1α<1f(x)→∞x→0β<1f(x)→∞x→1
समानताएं
ग्राफ की सबसे आंख को पकड़ने वाली विशेषताओं में से एक समरूपता का स्तर है, लेकिन जब बीटा वितरण शामिल है, तो यह आश्चर्यजनक नहीं होना चाहिए!
बीटा वितरण स्वयं सममित है अगर । हमारे लिए यह तब होता है यदि जो सही ढंग से पैनल , , और । यह वितरण में सममित है , उस नमूना आकार के लिए हम मॉडल में कितने प्रतिगामी चर शामिल करते हैं, इस पर निर्भर करता है। यदि का वितरण 0.5 के बारे में पूरी तरह सममित है; अगर हम उससे कम वैरिएबल को शामिल करते हैं तो यह तेजी से असममित हो जाता है और प्रायिकता द्रव्यमान के बड़े पैमाने पर करीब हो जाता हैα = β n = 2 k - 1 ( k = 2 , n = 3 ) ( k = 3 , n = 5 ) ( k = 4 , n = 7 ) ( k = 5 , n = 9 ) R 2 = 0.5 k = एन + १α=βn=2k−1(k=2,n=3)(k=3,n=5)(k=4,n=7)(k=5,n=9)R2=0.52 आर2आर2=0आर2=1केk=n+12R2R2=0; यदि हम अधिक चर शामिल करते हैं तो यह करीब शिफ्ट हो जाता है । याद रखें कि में इसकी गिनती में अवरोधन शामिल है, और यह कि हम अशक्त के तहत काम कर रहे हैं, इसलिए प्रतिगामी चर को सही ढंग से निर्दिष्ट मॉडल में गुणांक शून्य होना चाहिए।R2=1k
किसी भी दिए गए वितरण के बीच एक स्पष्ट रूप से समरूपता है , यानी facet ग्रिड में कोई पंक्ति। उदाहरण के लिए, की तुलना के साथ । यह क्या कारण है? याद रखें कि का वितरण पार की दर्पण छवि है । अब हमारे पास और । पर विचार करें और हम पाते हैं:n ( कश्मीर = 3 , n = 9 ) ( कश्मीर = 7 , n = 9 ) बी ई टी एक ( α , β ) बी ई टी एक ( β , α ) एक्स = 0.5 α कश्मीर , एन = कश्मीर - 1n(k=3,n=9)(k=7,n=9)Beta(α,β)Beta(β,α)x=0.52 βकश्मीर,एन=एन-कश्मीरαk,n=k−122 k′=n-k+1βk,n=n−k2k′=n−k+1
α कश्मीर ' , एन = ( n - कश्मीर + 1 ) - 12 =एन-के2 =βकश्मीर,एनβकश्मीर',n=n-(n-कश्मीर+1)
αk′,n=(n−k+1)−12=n−k2=βk,n
2 =के-12 =αके,एनβk′,n=n−(n−k+1)2=k−12=αk,n
इसलिए यह समरूपता की व्याख्या करता है क्योंकि हम एक निश्चित नमूना आकार के लिए मॉडल में रजिस्टरों की संख्या को बदलते हैं। यह उन वितरणों की भी व्याख्या करता है जो स्वयं एक विशेष मामले के रूप में सममित हैं: उनके लिए, इसलिए वे स्वयं के साथ सममित होने के लिए बाध्य हैं!कश्मीर ' = कश्मीरk′=k
यह हमें कुछ हम कई प्रतिगमन के बारे में अनुमान लगाया है नहीं हो सकता है बताता है: किसी दिए गए नमूने का आकार के लिए , और यह मानते हुए कोई regressors के साथ एक वास्तविक संबंध है , का उपयोग कर एक मॉडल के लिए regressors के साथ साथ एक अवरोधन एक ही वितरण किया गया है रूप में स्वतंत्रता के बाकी बचे के अवशिष्ट डिग्री वाले मॉडल के लिए करता है ।n Y R 2 k - 1 1 - R 2 k - 1nYR2k−11−R2k−1
विशेष वितरण
जब हमारे पास , जो एक मान्य पैरामीटर नहीं है। हालाँकि, वितरण के रूप में से वितरण एक स्पाइक के साथ पतित हो जाता है जैसे कि । यह उस चीज के साथ संगत है जिसे हम एक मॉडल के बारे में जानते हैं, जिसमें डेटा बिंदुओं के रूप में कई पैरामीटर हैं - यह सही फिट प्राप्त करता है। मैंने अपने ग्राफ़ पर पतित वितरण को नहीं खींचा है, लेकिन इसमें माध्य, मोड और मानक विचलन शामिल हैं।कश्मीर = n बीटा = 0 बीटा → 0 पी ( आर 2 = 1 ) = 1k=nβ=0β→0P(R2=1)=1
जब और हम जो कि आर्सेनिन वितरण है । यह सममित ( ) और बिमोडल (0 और 1) है। चूंकि यह एकमात्र मामला है, जहां दोनों और (दोनों पक्षों पर लाल चिह्नित), यह हमारा एकमात्र वितरण है जो समर्थन के दोनों सिरों पर अनंत तक जाता है।k = 2 n = 3 B e t a ( 1)k=2n=32 ,12 )अल्फा=बीटाअल्फा<1बीटा<1Beta(12,12)α=βα<1β<1
वितरण केवल बीटा वितरण हो रहा है आयताकार (वर्दी) । से 0 से 1 तक के सभी मान समान रूप से होने की संभावना है। और का एकमात्र संयोजन जिसके लिए होता है, और (दोनों पक्षों पर नीला)।बी ई टी ए ( 1 ,1 ) आर 2 के एन α = β = 1 के = 3 एन = 5Beta(1,1)R2knα=β=1k=3n=5
पिछले विशेष मामले सीमित प्रयोज्यता के हैं, लेकिन केस और (बाईं ओर हरा, दाईं ओर नीला) महत्वपूर्ण है। अब इसलिए हमारे पास एक है बिजली कानून पर वितरण [0, 1]। बेशक, यह संभावना नहीं है कि हम और साथ एक प्रतिगमन करेंगे , जो कि जब यह स्थिति होती है। लेकिन पिछले समरूपता तर्क, या पीडीएफ पर कुछ तुच्छ बीजगणित द्वारा, जब और , जो दो रजिस्टरों के साथ कई प्रतिगमन की लगातार प्रक्रिया है और एक गैर-तुच्छ नमूना आकार पर एक अवरोधन है,α > 1 β = 1 च ( एक्स ;α>1β=1α ,β ) α x α - 1 ( 1 - एक्स ) β - 1 = x α - 1 कश्मीर = n - 2 कश्मीर > 3 कश्मीर = 3 n > 5 आर 2 एच 0 α = 1 β > 1f(x;α,β)∝xα−1(1−x)β−1=xα−1k=n−2k>3k=3n>5R2 तहत [0, 1] पर एक प्रतिबिंबित बिजली कानून वितरण का पालन करेंगे । H0यह और मेल खाता है इसलिए बाईं ओर नीला, दाईं ओर हरा चिह्नित है।α=1β>1
आप यह भी देखा हो त्रिकोणीय वितरण पर और उसके प्रतिबिंब । हम उनके और से पहचान सकते हैं कि ये पावर-लॉ के केवल विशेष मामले हैं और परिलक्षित पावर-लॉ वितरण हैं जहां पावर ।( कश्मीर = 5 , n = 7 ) ( कश्मीर = 3 , n = 7 ) अल्फा बीटा 2 - 1 = 1(k=5,n=7)(k=3,n=7)αβ2−1=1
मोड
यदि और , भूखंड में सभी हरे, , और बीटा वितरण के साथ अवतल है एक अद्वितीय मोड । इन्हें और संदर्भ में रखने पर , स्थिति और जबकि मोड ।α > 1 β > 1 च ( एक्स ;α>1β>1α ,β ) च ( 0 ) = च ( 1 ) = 0 α - 1f(x;α,β)f(0)=f(1)=0α + β - 2 कश्मीरnकश्मीर>3n>कश्मीर+2कश्मीर-3α−1α+β−2knk>3n>k+2एन - 5k−3n−5
अन्य सभी मामलों को ऊपर से निपटाया गया है। यदि हम को अनुमति देने के लिए असमानता को शिथिल करते हैं , तो हम और (समकक्ष, ) के साथ (हरा-नीला) शक्ति-कानून वितरण शामिल करते हैं । इन मामलों में स्पष्ट रूप से मोड 1 है, जो वास्तव में पिछले फॉर्मूले से सहमत है क्योंकि । अगर इसके बजाय हमने की अनुमति दी है, लेकिन अभी भी की मांग की है , तो हम और ) के साथ पावर-लॉ वितरण को प्रतिबिंबित (नीला-हरा) पाएंगे । उनकी विधा 0 है, जो सहमत है । हालाँकि, अगर हम दोनों असमानताओं को एक साथ अनुमति देने के लिए आराम करते हैंβ = 1 k = n - 2 k > 3 n > 5 ( n - 2 ) - 3β=1k=n−2k>3n>5n - 5 =1α=1β>1कश्मीर=3n>53-3(n−2)−3n−5=1α=1β>1k=3n>5n - 5 =0α=β=1k=3n=53-33−3n−5=0α=β=1, हम और साथ (सभी नीले) समान वितरण पाएंगे , जिसमें एक अद्वितीय मोड नहीं है। इसके अलावा पिछले फॉर्मूले को इस मामले में लागू नहीं किया जा सकता है, क्योंकि यह अनिश्चित फॉर्म को लौटाएगा ।k=3n=5५ - ५ =०03−35−5=00
जब हम मोड 1 के साथ पतित वितरण प्राप्त करते हैं। 1. जब (प्रतिगमन शब्दों में, तो स्वतंत्रता की केवल एक अवशिष्ट डिग्री होती है) तब as , और जब (प्रतिगमन शब्दों में, तो एक सरल रेखीय मॉडल अवरोधन और एक प्रतिगामी के साथ) तो रूप में । असामान्य मामले को छोड़कर ये अनोखे तरीके होंगे जहां और (तीन बिंदुओं पर एक सरल रैखिक मॉडल को फिट करना) जो कि 0 और 1 पर bimodal है। n = कश्मीर β < 1 एन = कश्मीर - 1 च ( एक्स ) → ∞ एक्स → 1 α < 1 कश्मीर = 2 च ( एक्स ) → ∞ एक्स → 0 कश्मीर = 2 n = 3n=kβ<1n=k−1f(x)→∞x→1α<1k=2f(x)→∞x→0k=2n=3
मीन
मोड के बारे में पूछा गया प्रश्न, लेकिन अशक्त के तहत का मतलब भी दिलचस्प है - इसमें उल्लेखनीय रूप से सरल फॉर्म । एक निश्चित नमूने के आकार के लिए यह अंकगणितीय प्रगति में बढ़ जाता है क्योंकि मॉडल में अधिक रेजिस्टर जोड़े जाते हैं, जब तक कि इसका मतलब 1 नहीं है जब । बीटा डिस्ट्रीब्यूशन का मतलब इसलिए इस तरह की अंकगणितीय प्रगति हमारे पहले अवलोकन से अपरिहार्य थी कि, निश्चित , योग निरंतर है, लेकिन 0.5 के साथ बढ़ता है प्रत्येक प्रतिरूपक के लिए मॉडल में जोड़ा गया।आर 2 के - 1R2n - 1 k=nαk−1n−1k=nअल्फा + बीटा nअल्फा+बीटाअल्फाαα+βnα+βα
αα + β =(कश्मीर-1)/2( के - १ ) / २ + ( एन - के ) / २ =के-१एन - 1
αα+β=(k−1)/2(k−1)/2+(n−k)/2=k−1n−1
भूखंडों के लिए कोड
require(grid)
require(dplyr)
nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot
totaln <- length(nlist)
totalk <- length(klist)
df <- data.frame(
x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
k = rep(klist, times = totaln, each = 100),
n = rep(nlist, each = totalk * 100)
)
df <- mutate(df,
kname = paste("k =", k),
nname = paste("n =", n),
a = (k-1)/2,
b = (n-k)/2,
density = dbeta(x, (k-1)/2, (n-k)/2),
groupcol = ifelse(x < 0.5,
ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)
g <- ggplot(df, aes(x, density)) +
geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
scale_fill_brewer(palette="Set1") +
facet_grid(nname ~ kname) +
ylab("probability density") + theme_bw() +
labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
theme(panel.margin = unit(0.6, "lines"),
legend.title=element_text(size=20),
legend.text=element_text(size=20),
legend.background = element_rect(colour = "black"),
legend.position = c(1, 1), legend.justification = c(1, 1))
df2 <- data.frame(
k = rep(klist, times = totaln),
n = rep(nlist, each = totalk),
x = 0.5,
ymean = 7.5,
ymode = 5,
ysd = 2.5
)
df2 <- mutate(df2,
kname = paste("k =", k),
nname = paste("n =", n),
a = (k-1)/2,
b = (n-k)/2,
meanR2 = ifelse(k > n, NaN, a/(a+b)),
modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2),
ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)
g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
geom_text(data=df2, aes(x, ymode, label=modetext)) +
geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)