स्वतंत्रता की डिग्री कैसे समझें?


257

से विकिपीडिया , वहाँ एक आंकड़े के स्वतंत्रता की डिग्री की तीन व्याख्याओं हैं:

आंकड़ों में, स्वतंत्रता की डिग्री की संख्या एक आंकड़े की अंतिम गणना में मूल्यों की संख्या है जो अलग-अलग होने के लिए स्वतंत्र हैं

सांख्यिकीय मापदंडों का अनुमान विभिन्न मात्रा में जानकारी या डेटा पर आधारित हो सकता है। एक पैरामीटर के अनुमान में जाने वाली जानकारी के स्वतंत्र टुकड़ों की संख्या को स्वतंत्रता (डीएफ) की डिग्री कहा जाता है। सामान्य तौर पर, किसी पैरामीटर के अनुमान की स्वतंत्रता की डिग्री स्वतंत्र स्कोर की संख्या के बराबर होती है जो अनुमान के माइनस में जाती है, पैरामीटर के अनुमान में मध्यवर्ती चरणों के रूप में उपयोग किए जाने वाले मापदंडों की संख्या स्वयं (जो, नमूना विचरण में,) है एक, चूंकि नमूना माध्य एकमात्र मध्यवर्ती चरण है)।

गणितीय रूप से, स्वतंत्रता की डिग्री एक यादृच्छिक वेक्टर के डोमेन का आयाम है , या अनिवार्य रूप से 'मुक्त' घटकों की संख्या: वेक्टर पूरी तरह से निर्धारित होने से पहले कितने घटकों को जानने की आवश्यकता है

बोल्ड शब्द वही हैं जो मुझे समझ में नहीं आते हैं। यदि संभव हो तो, कुछ गणितीय सूत्र अवधारणा को स्पष्ट करने में मदद करेंगे।

क्या तीन व्याख्याएं एक-दूसरे से सहमत हैं?



जवाबों:


242

यह एक सूक्ष्म सवाल है। यह एक विचारशील व्यक्ति को उन उद्धरणों को नहीं समझने के लिए लेता है ! यद्यपि वे विचारोत्तेजक हैं, लेकिन यह पता चलता है कि उनमें से कोई भी वास्तव में सही या आम तौर पर सही नहीं है। मेरे पास समय नहीं है (और यहां जगह नहीं है) एक पूर्ण प्रदर्शनी देने के लिए, लेकिन मैं एक दृष्टिकोण और एक अंतर्दृष्टि साझा करना चाहता हूं जो सुझाव देता है।

स्वतंत्रता की डिग्री (DF) की अवधारणा कहां से उत्पन्न होती है? जिन संदर्भों में यह प्राथमिक उपचार में पाया जाता है वे हैं:

  • छात्र टी परीक्षण और इस तरह के Behrens फिशर की समस्या (जहां दो आबादी अलग प्रसरण है) करने के लिए वेल्च या Satterthwaite समाधान के रूप में उसके संस्करण।

  • ची-चुकता वितरण (स्वतंत्र मानक नॉर्मल के वर्गों के योग के रूप में परिभाषित), जिसे विचरण के नमूने वितरण में फंसाया जाता है

  • एफ परीक्षण (अनुमानित प्रसरण का अनुपात)।

  • ची-वर्ग परीक्षण , आकस्मिक तालिकाओं में स्वतंत्रता और (ख) वितरणात्मक अनुमान के फिट की भलाई के लिए परीक्षण के लिए (क) के परीक्षण में इसके उपयोग शामिल है।

आत्मा में, ये परीक्षण सटीक होने के लिए एक सरगम ​​चलाते हैं (स्टूडेंट टी-टेस्ट और एफ-टेस्ट नॉर्मल वेरिएंट के लिए) अच्छा अंदाजा लगाने के लिए (स्टूडेंट टी-टेस्ट और वेल्च / सेटरवाइट टेस्ट के लिए भी नहीं-बहुत बुरी तरह से तिरछा डेटा ) एसिम्प्टोटिक सन्निकटन (ची-स्क्वेर्ड टेस्ट) पर आधारित होना। इनमें से कुछ का एक दिलचस्प पहलू गैर-अभिन्न "स्वतंत्रता की डिग्री" (वेल्च / Satterthwaite परीक्षण और, जैसा कि हम देखेंगे, ची-चुकता परीक्षण) की उपस्थिति है। यह विशिष्ट हित है क्योंकि यह पहला संकेत है कि डीएफ इसके बारे में दावा की गई चीजों में से कोई भी नहीं है।

हम प्रश्न में कुछ दावों का तुरंत निपटान कर सकते हैं। क्योंकि "एक सांख्यिकीय की अंतिम गणना" अच्छी तरह से परिभाषित नहीं है (यह स्पष्ट रूप से गणना के लिए एक एल्गोरिथ्म का उपयोग करता है पर निर्भर करता है), यह अस्पष्ट सुझाव से अधिक नहीं हो सकता है और आगे की आलोचना के लायक नहीं है। इसी तरह, न तो "स्वतंत्र स्कोर की संख्या जो अनुमान में जाती है" और न ही "मध्यवर्ती चरणों के रूप में उपयोग किए जाने वाले मापदंडों की संख्या" अच्छी तरह से परिभाषित हैं।

"स्वतंत्र जानकारी [[a] के अनुमान में जाने वाली" से निपटने के लिए मुश्किल है, क्योंकि "स्वतंत्र" के दो अलग-अलग लेकिन अंतरंग रूप से संबंधित इंद्रियां हैं जो यहां प्रासंगिक हो सकती हैं। एक यादृच्छिक चर की स्वतंत्रता है; अन्य कार्यात्मक स्वतंत्रता है। उत्तरार्द्ध का एक उदाहरण के रूप में, लगता है हम विषयों के morphometric माप इकट्ठा -, कहते हैं, सादगी के लिए तीन पक्ष लंबाई , , , सतह क्षेत्रों , और मात्रा की लकड़ी के ब्लॉक का एक सेट। तीन तरफ की लंबाई को स्वतंत्र यादृच्छिक चर माना जा सकता है, लेकिन सभी पांच चर निर्भर आरवी हैं। पांच भी कार्यात्मक हैंY Z S = 2 ( X Y + Y Z + Z X ) V = X Y ZXYZS=2(XY+YZ+ZX)V=XYZनिर्भर क्योंकि codomain ( नहीं वेक्टर-मान यादृच्छिक चर के "डोमेन"!) बाहर में एक तीन आयामी कई गुना निशान आर 5 । (इस प्रकार, स्थानीय स्तर पर किसी भी बिंदु पर ω आर 5 , वहाँ दो कार्य हैं ω और जी ω जिसके लिए ω ( एक्स ( ψ ) , ... , वी ( ψ ) ) = 0 और जी ω ( एक्स ( ψ )(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0 अंक के लिए ψ "पास" ω और के डेरिवेटिव और पर मूल्यांकन किया जाता ω रैखिक स्वतंत्र हैं) हालांकि -। यहाँ किकर है - ब्लॉक पर कई संभावना उपायों के सबसेट के लिए चर ( जैसे , X , S , V ) यादृच्छिक चर के रूपमेंनिर्भरहोते हैं , लेकिन कार्यात्मकरूप से स्वतंत्र होते हैं।gω(X(ψ),,V(ψ))=0ψωfgω(X,S,V)

इन संभावित अस्पष्टताओं से सतर्क होने के बाद, आइए परीक्षा के लिए फिट टेस्ट की ची-स्क्वायर्ड अच्छाई को पकड़ें , क्योंकि (ए) यह सरल है, (बी) यह उन सामान्य स्थितियों में से एक है जहां लोगों को वास्तव में डीएफ प्राप्त करने के बारे में जानने की आवश्यकता होती है। p- मान सही और (c) यह अक्सर गलत तरीके से उपयोग किया जाता है। यहाँ इस परीक्षण के कम से कम विवादास्पद अनुप्रयोग का एक संक्षिप्त सारांश दिया गया है:

  • आपके पास जनसंख्या के नमूने के रूप में माना जाने वाला डेटा मान संग्रह है ।(x1,,xn)

  • आप कुछ मानकों का अनुमान है एक वितरण की। उदाहरण के लिए, आप मतलब अनुमान θ 1 और मानक विचलन θ 2 = θ पी एक सामान्य वितरण की, hypothesizing कि जनसंख्या सामान्य रूप से वितरित किया जाता है, लेकिन (डेटा प्राप्त करने के लिये पहले) नहीं जानते हुए भी क्या θ 1 या θ 2 हो सकता है।θ1,,θpθ1θ2=θpθ1θ2

  • अग्रिम में, आपने डेटा के लिए "bins" का एक सेट बनाया । (यह समस्याग्रस्त हो सकता है जब डिब्बे डेटा द्वारा निर्धारित किए जाते हैं, भले ही यह अक्सर किया जाता है।) इन डिब्बे का उपयोग करते हुए, डेटा प्रत्येक बिन के अंदर काउंट के सेट तक कम हो जाता है। आशंका क्या का सच मान ( θ ) हो सकता है, आप इसे इतना की व्यवस्था की है (उम्मीद) प्रत्येक बिन लगभग एक ही गिनती प्राप्त होगा। (बराबरी की संभावना बाइनिंग ने ची-स्क्वैर्ड वितरण का आश्वासन दिया है कि ची-स्क्वायड स्टेटिस्टिक के सही वितरण के बारे में बताया गया है।k(θ)

  • आपके पास बहुत अधिक डेटा है - यह आश्वस्त करने के लिए पर्याप्त है कि लगभग सभी डिब्बे 5 या अधिक की गिनती के लिए चाहिए। (यह, हमें आशा है, के नमूने वितरण सक्षम हो जाएगा कुछ लोगों द्वारा पर्याप्त रूप से अनुमान लगाया जा करने के लिए आंकड़ा χ 2 वितरण।)χ2χ2

पैरामीटर अनुमानों का उपयोग करके, आप प्रत्येक बिन में अपेक्षित गणना कर सकते हैं। ची-स्क्वैयर स्टैटिस्टिक अनुपात का योग है

(observedexpected)2expected.

यह, कई अधिकारियों ने हमें बताया, (एक बहुत करीबी सन्निकटन के लिए) एक ची-चुकता वितरण होना चाहिए। लेकिन इस तरह के वितरण का एक पूरा परिवार है। वे एक पैरामीटर द्वारा भिन्न होते हैं अक्सर "स्वतंत्रता की डिग्री" के रूप में संदर्भित किया जाता है। Ν का निर्धारण कैसे किया जाता है, इस बारे में मानक तर्क इस प्रकार हैνν

मैं मायने रखता है। ऐसा इसलिए है कश्मीर डेटा के टुकड़े। लेकिन उनके बीच ( कार्यात्मक ) रिश्ते हैं। शुरू करने के लिए, मुझे पहले से पता है कि गणना का योग बराबर n होना चाहिए । यही एक रिश्ता है। मैंने डेटा से दो (या पी , आम तौर पर) मापदंडों का अनुमान लगाया । यह दो (या पी ) अतिरिक्त रिश्ते हैं, पी + 1 कुल रिश्ते दे रहे हैं। यह मानते हुए कि वे (पैरामीटर) सभी ( कार्यात्मक रूप से ) स्वतंत्र हैं, जो केवल k - p - 1 ( कार्यात्मक रूप से ) स्वतंत्र "स्वतंत्रता की डिग्री" को छोड़ देता है: इसका उपयोग करने के लिए मूल्य हैkknppp+1kp1ν

इस तर्क के साथ समस्या (जो प्रश्न में उद्धरणों की गणना का प्रकार है) पर संकेत दे रही है कि कुछ विशेष अतिरिक्त शर्तें रखने के अलावा यह गलत है। इसके अलावा, उन परिस्थितियों का डेटा के "घटकों" की संख्या के साथ स्वतंत्रता (कार्यात्मक या सांख्यिकीय) के साथ कोई लेना- देना नहीं है, न ही मापदंडों की संख्या के साथ, और न ही मूल प्रश्न में संदर्भित कुछ और के साथ।

एक उदाहरण के साथ आपको दिखाता हूं। (इसे जितना संभव हो उतना स्पष्ट करने के लिए, मैं छोटी संख्या में डिब्बे का उपयोग कर रहा हूं, लेकिन यह आवश्यक नहीं है।) आइए 20 स्वतंत्र और समान रूप से वितरित (iid) मानक सामान्य चर उत्पन्न करें और सामान्य सूत्रों के साथ उनके मतलब और मानक विचलन का अनुमान लगाएं ( mean = sum / count, आदि )। फिट की अच्छाई का परीक्षण करने के लिए, एक मानक सामान्य के चतुर्थांश पर कटपॉइंट के साथ चार डिब्बे बनाएं: -0.675, 0, +0.657, और ची-स्क्वेरेड स्टेटिस्टिक उत्पन्न करने के लिए बिन काउंट का उपयोग करें। धैर्य की अनुमति के रूप में दोहराएं; मेरे पास 10,000 पुनरावृत्ति करने का समय था।

DF के बारे में मानक ज्ञान कहता है कि हमारे पास 4 डिब्बे हैं और 1 + 2 = 3 की कमी है, इन 10,000 ची-चुकता आँकड़ों के वितरण का अर्थ है कि 1 DF के साथ ची-चुकता वितरण का पालन करना चाहिए। यहाँ हिस्टोग्राम है:

आकृति 1

गहरे नीले रंग की लाइन एक की पीडीएफ को आरेखित करता वितरण - एक हमने सोचा कि काम करेगा - जबकि गहरे लाल रेखा एक की कि ग्राफ़ बनाता है χ 2 ( 2 ) वितरण (जो कि एक अच्छा अनुमान हो सकता है अगर किसी थे आपको यह बताने के लिए कि ν = 1 गलत है)। न ही डेटा फिट बैठता है।χ2(1)χ2(2)ν=1

आप डेटा सेट के छोटे आकार ( = 20) या शायद डिब्बे की संख्या के छोटे आकार के कारण समस्या की उम्मीद कर सकते हैं । हालांकि, समस्या बहुत बड़े डेटासेट और बड़ी संख्या में डिब्बे के साथ भी बनी रहती है: यह केवल एक असममित सन्निकटन तक पहुंचने में विफलता नहीं है।n

चीजें गलत हो गईं क्योंकि मैंने ची-स्क्वेर्ड परीक्षण की दो आवश्यकताओं का उल्लंघन किया:

  1. आपको मापदंडों के अधिकतम संभावना अनुमान का उपयोग करना चाहिए । (यह आवश्यकता, व्यवहार में, थोड़ा उल्लंघन हो सकती है।)

  2. आपको आधार का अनुमान लगाना चाहिए कि वास्तविक आंकड़ों पर नहीं , बल्कि मायने रखता है ! (यह महत्वपूर्ण है ।)

चित्र 2

लाल हिस्टोग्राम इन आवश्यकताओं का पालन करते हुए 10,000 अलग-अलग पुनरावृत्तियों के लिए ची-स्क्वेर्ड आंकड़ों को दर्शाता है। पर्याप्त रूप से, यह the 2 ( 1 ) वक्र (नमूना त्रुटि की स्वीकार्य राशि के साथ ) का अनुसरण करता है , जैसा कि हमने मूल रूप से उम्मीद की थी।χ2(1)

जो मुझे आशा है कि तुम आ रहे हो देखा है - - इस तुलना का मुद्दा यह है कि सही DF कंप्यूटिंग पी मूल्यों के लिए उपयोग करने के लिए है कई बातों पर निर्भर अन्य कई गुना के आयामों, कार्यात्मक संबंध के मायने रखता है, या सामान्य variates की ज्यामिति की तुलना में । कुछ कार्यात्मक निर्भरताओं के बीच एक सूक्ष्म, नाजुक बातचीत होती है, जैसा कि मात्रा के बीच गणितीय संबंधों में पाया जाता है, और डेटा के वितरण , उनके आंकड़े, और उनसे बने अनुमानक। तदनुसार, यह मामला नहीं हो सकता है कि बहुभिन्नरूपी सामान्य वितरण की ज्यामिति के संदर्भ में या कार्यात्मक स्वतंत्रता के संदर्भ में, या मापदंडों के मायने के रूप में, या इस प्रकृति की किसी अन्य चीज के रूप में डीएफ पर्याप्त रूप से व्याख्या योग्य है।

हमें यह देखने के लिए नेतृत्व किया जाता है कि, "स्वतंत्रता की डिग्री" केवल एक अनुमान है जो बताता है कि एक (टी, ची-वर्ग या एफ) के नमूने का वितरण क्या होना चाहिए, लेकिन यह डिस्पोजेबल नहीं है। विश्वास है कि यह विघटनकारी है जो गंभीर त्रुटियों की ओर जाता है। (उदाहरण के लिए, Google पर शीर्ष हिट "फिट की अच्छाई की तलाश" जब आईवी लीग विश्वविद्यालय का एक वेब पेज होता है, जो इस पूरी तरह से गलत हो जाता है! विशेष रूप से, इसके निर्देशों के आधार पर एक सिमुलेशन दिखाता है कि ची-स्क्वेयर! यह 7 DF होने के रूप में मूल्य की सिफारिश करता है वास्तव में 9 DF है।)

इस अधिक बारीक समझ के साथ, यह विचाराधीन विकिपीडिया लेख को फिर से पढ़ने के लिए सार्थक है: इसके विवरण में यह सही है, यह इंगित करते हुए कि डीएफ हेयुरिस्टिक काम करने के लिए कहां जाता है और जहां यह एक सन्निकटन है या बिल्कुल भी लागू नहीं होता है।


यहाँ सचित्र घटना का एक अच्छा वर्णन (ची-स्क्वार्ड GOF परीक्षणों में अप्रत्याशित रूप से उच्च DF) 5 वें संस्करण केंडल एंड स्टुअर्ट के वॉल्यूम II में दिखाई देता है । इस अद्भुत पाठ पर मुझे वापस ले जाने के लिए इस प्रश्न के लिए अवसर के लिए मैं आभारी हूं, जो इस तरह के उपयोगी विश्लेषणों से भरा है।


संपादित करें (जनवरी 2017)

यहां R"डीएफ के बारे में मानक ज्ञान ..." के बाद की आकृति का उत्पादन करने के लिए कोड है।

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
यह एक अद्भुत उत्तर है। आप इसके लिए इंटरनेट पर जीते हैं।
एडम

6
@caracal: जैसा कि आप जानते, मूल डेटा के लिए एमएल तरीकों दिनचर्या और बड़े पैमाने पर कर रहे हैं: सामान्य वितरण के लिए, उदाहरण के लिए, के MLE नमूना है मतलब है और के MLE σ (नमूना मानक विचलन का वर्गमूल है बिना सामान्य पूर्वाग्रह सुधार)। गणना के आधार पर अनुमान प्राप्त करने के लिए, मैंने गणना के लिए फ़ंक्शन फ़ंक्शन की गणना की - इसके लिए कटपॉइंट पर सीडीएफ के कंप्यूटिंग मूल्यों की आवश्यकता होती है, उनके लॉग्स लेते हैं, काउंट्स को गुणा करते हैं, और जोड़ते हैं - और जेनेरिक ऑप्टिमाइज़ेशन सॉफ़्टवेयर का उपयोग करके इसे अनुकूलित किया है। μσ
whuber

4
@caracal आपको अब इसकी कोई आवश्यकता नहीं है, लेकिन द्विलिखित Rडेटा के एमएल फिटिंग के लिए कोड का एक उदाहरण अब संबंधित प्रश्न में दिखाई देता है: आँकड़ें ।stackexchange.com / a / 34894
व्हिबर

1
"इस तर्क के साथ समस्या (जो प्रश्न में उद्धरणों की गणना के प्रकार है) पर संकेत दे रही है कि कुछ विशेष अतिरिक्त शर्तों को रखने के अलावा यह गलत है।" मैं एक रैखिक मॉडल अनुक्रम के दो सेमेस्टर के माध्यम से अब (लगभग) हूं, और मैं द्विघात रूप के "मध्य" में मैट्रिक्स की रैंक होने की स्वतंत्रता की डिग्री समझता हूं। ये "अतिरिक्त शर्तें" क्या हैं?
शहनाई

4
@ कल्लिनेटिस्ट मेरे जवाब का मुख्य बिंदु यह सुझाव देना है कि आपको जो सिखाया गया है, वह डीएफ की दो अवधारणाओं की उलझन पर आधारित है। यद्यपि यह भ्रम मानक न्यूनतम-वर्गों के लिए कोई समस्या नहीं पैदा करता है सामान्य-सिद्धांत मॉडल, यह आकस्मिक तालिकाओं के विश्लेषण जैसी सरल, सामान्य परिस्थितियों में भी त्रुटियों की ओर जाता है। वह मैट्रिक्स रैंक कार्यात्मक DF देता है । कम से कम वर्गों के रेखीय मॉडल में कुछ प्रकार के परीक्षणों जैसे एफ परीक्षणों के लिए सही DF देने के लिए ऐसा होता है। ची-स्क्वेर्ड परीक्षण के लिए, विशेष स्थितियों को बाद में अंक (1) और (2) के रूप में उत्तर दिया जाता है।
whuber

74

या बस: एक संख्यात्मक सरणी में तत्वों की संख्या जिसे आपको बदलने की अनुमति दी जाती है ताकि सांख्यिकीय का मूल्य अपरिवर्तित रहे।

# for instance if:
x + y + z = 10

आप उदाहरण के लिए, x और y को यादृच्छिक रूप से बदल सकते हैं, लेकिन आप z नहीं बदल सकते हैं (आप कर सकते हैं, लेकिन यादृच्छिक नहीं, इसलिए आप इसे बदलने के लिए स्वतंत्र नहीं हैं - हार्वे की टिप्पणी देखें), 'क्योंकि आप मान बदल देंगे सांख्यिकीय का (10 = 10)। तो, इस मामले में डीएफ = 2।


19
यह कहना सही नहीं है कि "आप z नहीं बदल सकते"। वास्तव में, आपको राशि को समान बनाने के लिए z को बदलना होगा। 10. लेकिन आपके पास इस बारे में कोई विकल्प नहीं है (स्वतंत्रता नहीं है) कि यह किससे बदलता है। आप किसी भी दो मूल्यों को बदल सकते हैं, लेकिन तीसरे को नहीं।
बजे हार्वे मोटुलस्की जूल

53

यह अवधारणा गणितीय सटीक बनाने के लिए बिल्कुल भी मुश्किल नहीं है कि -डायमेंशनल यूक्लिडियन ज्यामिति, उप-स्थान और ऑर्थोगोनल अनुमानों के सामान्य ज्ञान को थोड़ा सा दिया जाए ।n

अगर एक है orthogonal प्रक्षेपण से आर एन एक करने के लिए पी आयामी उपस्पेस एल और एक्स है एक मनमाना n -vector तो पी एक्स में एल , एक्स - पी एक्स और पी एक्स ओर्थोगोनल और कर रहे हैं एक्स - पी एक्स एल में है एल के ऑर्थोगोनल पूरक । इस ऑर्थोगोनल पूरक का आयाम, L th , n - p है । अगरPRnpLxnPxLxPxPxxPxLLLnp एक n- डायमेंशनल स्पेसमें भिन्न होने के लिए स्वतंत्र हैतो x - P x एक n - p डायमेंशनल स्पेसमें भिन्न होने के लिए स्वतंत्रहै। इस कारण से हम कहते हैं कि x - P x में n - p स्वतंत्रता की डिग्री हैxnxPxnpxPxnp

इन विचारों के आँकड़े के लिए महत्वपूर्ण हैं क्योंकि अगर एक है n आयामी यादृच्छिक वेक्टर और एल अपने मतलब का एक मॉडल है, कि है, मतलब वेक्टर ( एक्स ) में है एल , तो हम कहते हैं एक्स - पी एक्स के वेक्टर बच , और हम अवशिष्ट का उपयोग विचरण का अनुमान लगाने के लिए करते हैं। अवशिष्ट के सदिश में n - p स्वतंत्रता की डिग्री है, अर्थात यह आयाम n - p के एक उप-वर्ग के लिए विवश है ।XnLE(X)LXPXnpnp

के निर्देशांक हैं स्वतंत्र और सामान्य रूप से एक ही विचरण के साथ वितरित कर रहे हैं σ 2 तबXσ2

  • वैक्टर और एक्स - पी एक्स स्वतंत्र हैं।PXXPX
  • तो बच के वेक्टर के वर्ग के आदर्श का वितरण | | एक्स - पी एक्स | | 2 एक है χ 2 -distribution पैमाने पैरामीटर के साथ σ 2 और एक अन्य पैरामीटर है कि की स्वतंत्रता डिग्री होता है n - पीE(X)L||XPX||2χ2σ2np

इन तथ्यों के प्रमाण का स्केच नीचे दिया गया है। सामान्य वितरण पर आधारित सांख्यिकीय सिद्धांत के आगे विकास के लिए दो परिणाम केंद्रीय हैं। यह भी ध्यान दें कि यह है कि क्यों -distribution parametrization यह है है। यह भी एक है Γ पैमाने पैरामीटर के साथ -distribution 2 σ 2 और आकार पैरामीटर ( n - पी ) / 2 , लेकिन संदर्भ में ऊपर यह स्वतंत्रता की डिग्री के मामले में parametrize स्वाभाविक है।χ2Γ2σ2(np)/2

मुझे यह स्वीकार करना चाहिए कि मुझे विशेष रूप से ज्ञानवर्धक लेख से उद्धृत अनुच्छेदों में से कोई भी नहीं मिला, लेकिन वे वास्तव में गलत या विरोधाभासी नहीं हैं। वे एक अव्यवस्था में, और एक सामान्य ढीले अर्थ में कहते हैं, कि जब हम विचरण पैरामीटर के अनुमान की गणना करते हैं, लेकिन अवशिष्ट के आधार पर ऐसा करते हैं, तो हम एक वेक्टर पर गणना को आधार बनाते हैं जो केवल आयाम की जगह में भिन्न होने के लिए स्वतंत्र है। - पीnp

रैखिक सामान्य मॉडल के सिद्धांत से परे स्वतंत्रता की डिग्री की अवधारणा का उपयोग भ्रामक हो सकता है। उदाहरण के लिए, -distribution के पैराड्राइज़ेशन में उपयोग किया जाता है या नहीं, ऐसी किसी भी चीज़ का संदर्भ है जो स्वतंत्रता की कोई डिग्री हो सकती है। जब हम श्रेणीबद्ध डेटा के सांख्यिकीय विश्लेषण पर विचार करते हैं, तो इस बारे में कुछ भ्रम हो सकता है कि क्या "स्वतंत्र टुकड़े" को सारणीयन से पहले या बाद में गिना जाना चाहिए। इसके अलावा, बाधाओं के लिए, यहां तक ​​कि सामान्य मॉडल के लिए, जो कि उप-बाधा नहीं हैं, यह स्पष्ट नहीं है कि स्वतंत्रता की डिग्री की अवधारणा को कैसे बढ़ाया जाए। विभिन्न सुझाव आम तौर पर स्वतंत्रता की प्रभावी डिग्री के नाम से मौजूद हैं ।χ2

इससे पहले कि आजादी की डिग्री के किसी भी अन्य उपयोग और अर्थ पर विचार किया जाए मैं रैखिक सामान्य मॉडलों के संदर्भ में इसके साथ आश्वस्त होने की जोरदार सिफारिश करूंगा। इस मॉडल वर्ग के साथ एक संदर्भ रैखिक मॉडल सिद्धांत में एक पहला पाठ्यक्रम है , और रैखिक मॉडल पर अन्य शास्त्रीय पुस्तकों के लिए पुस्तक की प्रस्तावना में अतिरिक्त संदर्भ हैं।

ऊपर दिए गए परिणामों का सबूत: चलो , ध्यान दें कि विचरण मैट्रिक्स है σ 2 मैं और एक orthonormal आधार चुनें z 1 , ... , जेड पी की एल और एक orthonormal आधार z पी + 1 , ... , z n of L । फिर z 1 , , z n , R n का एक सामान्य आधार है । आज्ञा देना ˜ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~निरूपित के गुणांकों के -vector एक्स इस आधार में, वह यह है कि ~ एक्स मैं = जेड टी मैं एक्स यह भी रूप में लिखा जा सकता है ~ एक्स = जेड टी एक्स जहां जेड के साथ orthogonal मैट्रिक्स है z मैं 'कॉलम में रों। फिर हम कि उपयोग करने के लिए ~ एक्स मतलब के साथ एक सामान्य वितरण है जेड टी ξ और, क्योंकि जेड ओर्थोगोनल है, विचरण मैट्रिक्स σ 2 मैंnX

X~i=ziTX.
X~=ZTXZziX~ZTξZσ2I। यह सामान्य वितरण के सामान्य रैखिक परिवर्तन परिणामों से होता है। आधार चुना गया था ताकि के गुणांकों हैं ~ एक्स मैं के लिए मैं = 1 , ... , पी , और के गुणांकों एक्स - पी एक्स हैं ~ एक्स मैं के लिए मैं = पी + 1 , ... , एन । चूंकि गुणांक असंबंधित और संयुक्त रूप से सामान्य हैं, वे स्वतंत्र हैं, और इसका मतलब है कि पी एक्स = पी ffic मैंPXX~ii=1,,pXPXX~ii=p+1,,n और एक्स-पीएक्स= n Σ मैं = पी + 1 ~ एक्स मैंजेडमैं स्वतंत्र हैं। इसके अलावा | | एक्स-पीएक्स| | 2= n Σ मैं = पी + 1 ~ एक्स 2 मैं यदिξएलतो( ~ एक्स मैं
PX=i=1pX~izi
XPX=i=p+1nX~izi
||XPX||2=i=p+1nX~i2.
ξL के लिए मैं = पी + 1 , ... , n तो क्योंकि z मैंएल और इसलिए जेड मैंξ । इस मामले में | | एक्स - पी एक्स | | 2 का योग है n - पी स्वतंत्र एन ( 0 , σ 2 )E(X~i)=ziTξ=0i=p+1,,nziLziξ||XPX||2npN(0,σ2)-distributed यादृच्छिक चर, जिसका वितरण परिभाषा के अनुसार एक है -distribution पैमाने पैरामीटर के साथ σ 2 और एन - पी स्वतंत्रता की डिग्री।χ2σ2np

NRH, धन्यवाद! (१) L के अंदर आवश्यकता क्यों है ? (२) पी एक्स और एक्स - पी एक्स क्यों स्वतंत्र हैं? (३) क्या डॉफ को इसके नियतात्मक मामले में रैंडम वेरिएबल डिफेंस से परिभाषित किया गया है? उदाहरण के लिए, इसका कारण है | | एक्स - पी एक्स | | 2 में d n n - p है क्योंकि यह सच है जब X एक यादृच्छिक चर के बजाय एक निर्धारक चर है? (४) क्या ऐसे संदर्भ (पुस्तकें, पत्र या लिंक) हैं जो आपके समान / समान राय रखते हैं?E(X)LPXXPX||XPX||2npX
टिम

@ टिम, और एक्स - पी एक्स स्वतंत्र हैं, क्योंकि वे सामान्य और असंबंधित हैं। PXXPX
mpiktas

@ समय पर, मैंने उत्तर को थोड़ा बदल दिया है और दिए गए परिणामों का प्रमाण दिया है। D 2 -distribution के बारे में परिणाम को साबित करने के लिए माध्य में होना आवश्यक है । यह एक मॉडल धारणा है। साहित्य में आपको रैखिक सामान्य मॉडल या सामान्य रेखीय मॉडल की तलाश करनी चाहिए, लेकिन अभी मैं केवल कुछ पुराने, अप्रकाशित व्याख्यान नोट्स याद कर सकता हूं। मैं देखूंगा कि क्या मुझे एक उपयुक्त संदर्भ मिल सकता है। Lχ2
NRH

अद्भुत जवाब। अंतर्दृष्टि के लिए धन्यवाद। एक सवाल: मैं खो गया आप वाक्यांश "मतलब वेक्टर द्वारा क्या मतलब में है एल "। क्या तुम समझा सकते हो? क्या आप E को परिभाषित करने का प्रयास कर रहे हैं ? एल को परिभाषित करने के लिए ? कुछ और? हो सकता है कि यह वाक्य बहुत अधिक करने की कोशिश कर रहा हो या मेरे लिए बहुत संक्षिप्त हो। क्या आप विस्तृत कर सकते हैं कि आपके द्वारा उल्लेखित संदर्भ में E की परिभाषा क्या है : क्या यह सिर्फ E ( x 1 , x 2 , , x n ) = ( x 1 + x 2 + what + x हैEXLELE ? क्या आपइस संदर्भ में एल क्या है(सामान्य iid निर्देशांक के बारे में)विस्तार से बता सकते हैं? यह सिर्फ एल = आर है ? E(x1,x2,,xn)=(x1+x2++xn)/nLL=R
डीडब्ल्यू

@DW उम्मीद ऑपरेटर है। तो ( एक्स ) की coordinatewise उम्मीदों का वेक्टर है एक्स । Subpace L , R n का कोई भी p- डायमेंशनल सबस्पेस है । यह एन- डॉक्टरों का एक स्थान है और निश्चित रूप से आर नहीं है , लेकिन यह बहुत अच्छी तरह से एक आयामी हो सकता है। सबसे सरल उदाहरण शायद तब होता है जब इसे 1 -वेक्टर द्वारा 1 के साथ सभी n- तारकोर्ड पर लगाया जाता है। यह एक्स के सभी निर्देशांक का मॉडल है, जिसमें समान माध्य मान है, लेकिन कई अधिक जटिल मॉडल संभव हैं। EE(X)XLpRnnR1nX
एनआरएच

30

यह वास्तव में किसी भी अन्य क्षेत्र में "स्वतंत्रता की डिग्री" शब्द के काम करने के तरीके से अलग नहीं है। उदाहरण के लिए, मान लें कि आपके पास चार चर हैं: एक आयत की लंबाई, चौड़ाई, क्षेत्र और परिधि। क्या तुम सच में चार बातें जानते हो? नहीं, क्योंकि स्वतंत्रता के केवल दो डिग्री हैं। यदि आप लंबाई और चौड़ाई जानते हैं, तो आप क्षेत्र और परिधि प्राप्त कर सकते हैं। यदि आप लंबाई और क्षेत्र जानते हैं, तो आप चौड़ाई और परिधि प्राप्त कर सकते हैं। यदि आप क्षेत्र और परिधि को जानते हैं तो आप लंबाई और चौड़ाई (रोटेशन तक) प्राप्त कर सकते हैं। यदि आपके पास सभी चार हैं, तो आप या तो कह सकते हैं कि प्रणाली सुसंगत है (सभी चर एक दूसरे से सहमत हैं), या असंगत (कोई आयत वास्तव में सभी स्थितियों को संतुष्ट नहीं कर सकती)। एक वर्ग आयत की एक डिग्री के साथ हटा दिया गया है;

आंकड़ों में, चीजें अधिक अस्पष्ट हो जाती हैं, लेकिन विचार अभी भी समान है। यदि किसी फ़ंक्शन के लिए इनपुट के रूप में उपयोग किए जा रहे सभी डेटा स्वतंत्र चर हैं, तो आपके पास इनपुट के रूप में स्वतंत्रता के कई डिग्री हैं। लेकिन अगर वे किसी तरह से निर्भरता रखते हैं, जैसे कि अगर आपके पास n - k इनपुट हैं तो आप शेष कश्मीर का पता लगा सकते हैं, तो आप वास्तव में केवल n - k की स्वतंत्रता की डिग्री प्राप्त कर सकते हैं। और कभी-कभी आपको यह ध्यान में रखने की आवश्यकता होती है कि कहीं ऐसा न हो कि आप खुद को समझाएं कि डेटा अधिक विश्वसनीय हैं या उनके पास वास्तव में करने की तुलना में अधिक डेटा बिंदु हैं, जबकि आपके पास वास्तव में डेटा के स्वतंत्र बिट्स हैं।

( Http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?connxt=3 पर एक पोस्ट से लिया गया ।)

इसके अलावा, तीनों परिभाषाएं लगभग एक ही संदेश देने की कोशिश कर रही हैं।


1
मूल रूप से सही है, लेकिन मुझे चिंता है कि मध्य अनुच्छेद को इस तरह से पढ़ा जा सकता है जो सहसंबंध, स्वतंत्रता (यादृच्छिक चर), और कार्यात्मक स्वतंत्रता (मापदंडों के कई गुना) को भ्रमित करता है। सहसंबंध-स्वतंत्रता भेद विशेष रूप से बनाए रखने के लिए महत्वपूर्ण है।
whuber

@ शुभकर्ता: क्या यह अब ठीक है?
बायोस्टेट

3
यह सही है, लेकिन जिस तरह से यह शब्दों का उपयोग करता है, वह कुछ लोगों को भ्रमित करेगा। यह अभी भी कार्यात्मक निर्भरता से यादृच्छिक चर की निर्भरता को स्पष्ट रूप से अलग नहीं करता है। उदाहरण के लिए, (nondegenerate) में दो चर गैरजरो सहसंबंध के साथ सामान्य वितरण निर्भर करते हैं (यादृच्छिक चर के रूप में) लेकिन वे अभी भी स्वतंत्रता की दो डिग्री प्रदान करते हैं।
whuber


2
हमारा सहायता केंद्र दूसरों द्वारा लिखित सामग्री को संदर्भित करने के तरीके के बारे में स्पष्ट मार्गदर्शन प्रदान करता है , इसलिए मुझे उम्मीद है कि ओपी इस पोस्ट पर उचित कार्रवाई करने और रचनात्मक बातचीत में संलग्न होने के लिए वापस आएगा (हमने उसे थोड़ी देर के लिए नहीं देखा है, हालांकि)।
chl

19

मैं वास्तव में सांख्यिकीय अभ्यास की छोटी पुस्तिका से पहला वाक्य पसंद करता हूं । फ्रीडम चैप्टर की डिग्री

एक प्रश्न के एक अभिन्न सूत्र एक गणितीय अनौपचारिक दर्शकों से सबसे अधिक है, "वास्तव में स्वतंत्रता की डिग्री क्या है?"

मुझे लगता है कि आप इस अध्याय को पढ़ने से स्वतंत्रता की डिग्री के बारे में वास्तव में अच्छी समझ प्राप्त कर सकते हैं।


6
आजादी की डिग्री क्यों महत्वपूर्ण है, इसके बजाए स्पष्टीकरण देना अच्छा होगा । उदाहरण के लिए, यह दर्शाता है कि 1 / n के साथ विचरण का अनुमान पक्षपाती है लेकिन 1 / (n-1) का उपयोग करने से निष्पक्ष अनुमान लगाने वाले की उपज होती है।
ट्रिस्टन

9

विकिपीडिया का दावा है कि एक यादृच्छिक वेक्टर की स्वतंत्रता की डिग्री को वेक्टर उप-स्थान के आयामों के रूप में व्याख्या की जा सकती है। मैं चरण-दर-चरण जाना चाहता हूं, मूल रूप से इसके माध्यम से विकिपीडिया प्रविष्टि पर आंशिक उत्तर और विस्तार के रूप में।

प्रस्तावित उदाहरण एक यादृच्छिक वेक्टर का है जो विभिन्न विषयों के लिए एक सतत चर के माप के अनुरूप है, मूल से फैले वेक्टर के रूप में व्यक्त किया गया है । वेक्टर पर इसका ऑर्थोगोनल प्रक्षेपण [ [abc]T एक सदिश में परिणाम माप साधन के वेक्टर (के प्रक्षेपण के बराबर ˉ एक्स = 1 / 3 ( एक + + ) ), यानी [ ˉ एक्स[111]Tx¯=1/3(a+b+c),1 वेक्टर केसाथ बिंदीदार,[1[x¯x¯x¯]T1 इस प्रक्षेपण पर लोगों के वेक्टर द्वारा फैलाए गए उप-स्थान पर 1 है[111]Tअवशिष्टवेक्टर (माध्य से दूरी) पर कम से कम वर्गों प्रक्षेपण है ( n - 1 ) आयामी ओर्थोगोनल इस उपस्पेस के पूरक है, और n - 11degree of freedom(n1) , n वेक्टर के घटकों की कुल संख्या (हमारे मामले में 3 चूंकि हमउदाहरणमें आर 3 में हैं)। यह केवल [ ˉ x का डॉट उत्पाद प्राप्त करके साबित किया जा सकता है।n1degrees of freedomn3R3के बीच अंतर के साथ[a[x¯x¯x¯]T और [ x[abc]T:[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0

और यह रिश्ता किसी प्लेन ऑर्थोगोनल [ in x] के किसी भी बिंदु तक फैला हुआ है । यह अवधारणा समझने में महत्वपूर्ण है कि क्यों1[x¯x¯x¯]T , टी वितरण (की व्युत्पत्ति में एक कदमयहाँऔरयहाँ)।1σ2((X1X¯)2++(XnX¯)2)χn12

चलो बात करते हैं , तीन अवलोकनों के अनुरूप। माध्य 55 है , और सदिश [ 55][355080]T55 प्लेन का सामान्य (ऑर्थोगोनल), ५५ x + ५५ y + ५५ z = D है । बिंदु में प्लग करना विमान समीकरण, डी = - 9075 में समन्वयित करता है।[555555]T55x+55y+55z=DD=9075

अब हम इस विमान में किसी भी अन्य बिंदु को चुन सकते हैं, और इसके निर्देशांक का मतलब हो सकता है , ज्यामितीय रूप से वेक्टर पर इसके प्रक्षेपण के अनुरूप है [ 1]55 । इसलिए प्रत्येक औसत मूल्य (हमारे उदाहरण में, 55 ) हम R 2 में निर्देशांककेजोड़ेकोबिना किसी प्रतिबंध केचुन सकते हैं( 2)[111]T55R2 ); फिर भी, चूंकि विमान R 3 में है , तीसरा समन्वय विमान के समीकरण द्वारा निर्धारित होगा (या, ज्यामितीय रूप से बिंदु पर ऑर्थोगोनल प्रक्षेपण [ 55]2degrees of freedomR3[555555]T

यहाँ तीन बिंदुओं (सफ़ेद में) का प्रतिनिधित्व विमान (सेरुलियन ब्लू) ऑर्थोगोनल (तीर): [ 35[555555]T , [ 80[355080]T और [ 90[80805] विमान पर सभी ( २ के साथ उप-स्थान)[901560] ), और फिर 55 के उनके घटकों के साधन के साथ , और [ 1] के लिए एक ऑर्थोगोनल प्रक्षेपण2df55 ( 1 के साथ उप-क्षेत्र)[111]T ) [ 55 के बराबर1df :[555555]T


9

मेरी कक्षाओं में, मैं एक "सरल" स्थिति का उपयोग करता हूं जो आपको आश्चर्यचकित करने में मदद कर सकता है और शायद स्वतंत्रता की डिग्री का क्या मतलब हो सकता है के लिए एक आंत की भावना विकसित करता है।

यह विषय के लिए "फॉरेस्ट गंप" दृष्टिकोण की तरह है, लेकिन यह कोशिश के लायक है।

विचार करें कि आप 10 स्वतंत्र टिप्पणियों है है कि एक सामान्य आबादी जिसका मतलब से सही आया μ और विचरण σ 2 अज्ञात हैं।X1,X2,,X10N(μ,σ2)μσ2

अपनी टिप्पणियों आप के लिए सामूहिक रूप से दोनों के बारे में जानकारी लाने और σ 2 । आखिरकार, आपकी टिप्पणियों को एक केंद्रीय मूल्य के आसपास फैलाया जाता है, जिसे μ के वास्तविक और अज्ञात मूल्य के करीब होना चाहिए और इसी तरह, यदि μ बहुत अधिक या बहुत कम है, तो आप देख सकते हैं कि आपके अवलोकन चारों ओर इकट्ठा होंगे एक बहुत ही उच्च या बहुत कम मूल्य क्रमशः। Μ के लिए एक अच्छा "स्थानापन्न" (इसके वास्तविक मूल्य के ज्ञान के अभाव में) subst X है , जो आपके अवलोकन का औसत है। μσ2μμμX¯

इसके अलावा, अगर अपनी टिप्पणियों एक दूसरे के बहुत करीब हैं, कि एक संकेत है कि आप उम्मीद कर सकते हैं वह यह है कि वैसे ही छोटा होना चाहिए और, अगर σ 2 बहुत बड़ी है, तो आप के लिए बेतहाशा विभिन्न मूल्यों देखने की उम्मीद कर सकते हैं एक्स 1 को एक्स 10σ2σ2X1X10

जिस पर आप अपने सप्ताह के वेतन शर्त करना हो तो की वास्तविक मान होना चाहिए और σ 2 , आप की आवश्यकता होगी चुनें जिसमें आप अपने पैसे शर्त होगी मूल्यों की एक जोड़ी। चलो अपनी तनख्वाह खोने के रूप में नाटकीय रूप में कुछ भी नहीं सोचते हैं जब तक कि आप अनुमान नहीं लगाते हैं कि 200 वीं दशमलव स्थिति तक सही ढंग से μ । नहीं। के कि करीब आप अनुमान लगा prizing प्रणाली के कुछ प्रकार की सोचते हैं μ और σ 2 अधिक आप पुरस्कृत।μσ2μμσ2

कुछ अर्थों में, अपने बेहतर और अधिक जानकारी, और अधिक विनम्र के लिए अनुमान के मूल्य हो सकता है ˉ एक्स । इस संदर्भ में, आप का अनुमान है कि μ के आसपास कुछ मान होना चाहिए ˉ एक्स । इसी तरह, एक अच्छा "विकल्प" के लिए σ 2 (अब के लिए नहीं) की आवश्यकता है एस 2 , अपने नमूना विचरण है, जिसके लिए एक अच्छा अनुमान बनाता σμX¯μX¯σ2S2σ

यदि आपका थे विश्वास है कि उन लोगों के विकल्प के वास्तविक मान रहे हैं और σ 2 , तो आप शायद, गलत होगा क्योंकि बहुत पतली संभावना है कि आप इतने भाग्यशाली है कि अपनी टिप्पणियों के लिए खुद को समन्वित आप का उपहार प्राप्त करने के लिए कर रहे थे ˉ एक्स बराबर होने के करने के लिए μ और एस 2 के बराबर σ 2 । नहीं, शायद यह नहीं हुआ।μσ2X¯μS2σ2

लेकिन आप गलत के विभिन्न स्तरों पर हो सकते हैं, थोड़ा गलत से वास्तव में भिन्न, वास्तव में, वास्तव में बुरी तरह से गलत (उर्फ, "बाय-बाय, पेचेक; अगले हफ्ते मिलते हैं!")।

ठीक है, लीजिए कि आपने μ के लिए अपने अनुमान के रूप में you X लिया । सिर्फ दो परिदृश्यों पर विचार करें: एस 2 = 2 और एस 2 = 20 , 000 , 000 । पहले में, आपके अवलोकन सुंदर और एक दूसरे के करीब बैठते हैं। उत्तरार्द्ध में, आपकी टिप्पणियों में बेतहाशा अंतर होता है। किस परिदृश्य में आपको अपने संभावित नुकसान से अधिक चिंतित होना चाहिए? यदि आप दूसरे के बारे में सोचते हैं, तो आप सही हैं। Changes 2 के बारे में अनुमान लगाने से आपकी शर्त पर आपका विश्वास काफी हद तक बदल जाता है, बड़े about 2 के लिए, आप जितना व्यापक हो सकते हैं, σ XX¯μS2=2S2=20,000,000σ2σ2X¯ परिवर्तन करना।

लेकिन, के बारे में जानकारी से परे और σ 2 , अपनी टिप्पणियों भी सिर्फ शुद्ध यादृच्छिक उतार-चढ़ाव की कुछ राशि है कि जानकारीपूर्ण नहीं है ले जाने के बारे में न तो μ और न ही के बारे में σ 2μσ2μσ2

आप इसे कैसे नोटिस कर सकते हैं?

ठीक है, के तर्क की खातिर मान, एक भगवान है कि वहाँ और वह खाली समय पर्याप्त खुद आप विशेष रूप से कह रही दोनों के वास्तविक (और अब तक अज्ञात) मूल्यों की निरर्थकता देने के लिए है कि जाने और σμσ

और यहाँ इस गीतकार के कष्टप्रद कथानक का मोड़ है: जब आप अपना दांव लगाते हैं, तो वह आपको यह बताता है । शायद आपको प्रबुद्ध करने के लिए, शायद आपको तैयार करने के लिए, शायद आपका मजाक उड़ाने के लिए। तुम्हे कैसे पता?

ठीक है, के बारे में जानकारी बनाता और σ 2 अब अपनी टिप्पणियों काफी बेकार में निहित। अपनी टिप्पणियों 'केंद्रीय स्थान ˉ एक्स और विचरण एस 2 के वास्तविक मूल्यों के साथ नज़दीकी बढ़ाने किसी भी मदद के नहीं रह रहे हैं μ और σ 2 , आप पहले से ही उन्हें पता है के लिए।μσ2X¯S2μσ2

भगवान के साथ अपने अच्छे परिचित के लाभों में से एक यह है कि आप वास्तव में आप कितना सही ढंग से लगता है कि करने में विफल रहा द्वारा पता है का उपयोग करके ˉ एक्स , कि है, ( ˉ एक्स - μ ) अपने आकलन त्रुटि।μX¯(X¯μ)

ठीक है, के बाद से , तो ˉ एक्स ~ एन ( μ , σ 2 / 10 ) (मुझे उस में विश्वास करते हों तो आप करेंगे), भी ( ˉ एक्स - μ ) ~ एन ( 0 , σ 2 / 10 ) (ठीक है, बहुत पर है कि में मुझ पर भरोसा) और, अंत में, ˉ एक्स - μXiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10) (लगता है क्या? मुझे उस एक में भरोसा रूप में अच्छी तरह) है, जो के बारे में बिल्कुल नहीं जानकारी वहनμयाσ2

X¯μσ/10N(0,1)
μσ2

आपको पता है कि? आप के लिए एक अनुमान के रूप में अपने व्यक्तिगत प्रेक्षणों के किसी भी ले लिया तो , अपने आकलन त्रुटि ( एक्स मैं - μ ) के रूप में वितरित किया जाएगा एन ( 0 , σ 2 ) । ठीक है, का आकलन करने के बीच μ साथ ˉ एक्स और किसी भी एक्स मैं चयन करते समय, ˉ एक्स , बेहतर कारोबार होगा क्योंकि वी एक आर ( ˉ एक्स ) = σ 2 / 10 < σ 2 = वीμ(Xiμ)N(0,σ2)μX¯XiX¯ , तो ˉ एक्स कम से भटक होना होने का खतरा था μ एक व्यक्ति की तुलना में एक्स मैंVar(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

वैसे भी, भी न के बारे में पूरी तरह से गैर जानकारीपूर्ण है μ और न ही σ 2(Xiμ)/σN(0,1)μσ2

"क्या यह कहानी कभी खत्म होगी?" आप सोच रहे होंगे। आप यह भी सोच सकते "वहाँ किसी भी अधिक यादृच्छिक उतार-चढ़ाव के बारे में गैर जानकारीपूर्ण है है और σ 2 ?"।μσ2

[मैं यह सोचना पसंद करता हूं कि आप बाद के बारे में सोच रहे हैं।]

हाँ वहाँ है!

के लिए अपने अनुमान त्रुटि के वर्ग के साथ एक्स मैं से विभाजित σ , ( एक्स मैं - μ ) 2μXiσ एक ची-वर्ग वितरण, जो वर्ग के वितरण हैजेड2एक मानक सामान्य कीजेड~एन(0,1), मुझे यकीन है कि क्या आपने देखा या तो के बारे में बिल्कुल नहीं जानकारी है हूँ जोμऔर न हीσ2, लेकिन उस परिवर्तनशीलता के बारे में जानकारी देता है जिसका आपको सामना करना चाहिए।

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

: यह एक बहुत अच्छी तरह से जाना जाता वितरण है कि आप अपने दस टिप्पणियों में से हर एक और भी अपने मतलब से के लिए समस्या जुआ के बहुत परिदृश्य से स्वाभाविक रूप से उत्पन्न होता है

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10)। उन एकल ची-चुकता वितरण में से प्रत्येक एक राशि है जो यादृच्छिक परिवर्तनशीलता की राशि के लिए एक योगदान है जो आपको राशि के लिए योगदान की लगभग एक ही राशि के साथ सामना करना चाहिए।

प्रत्येक योगदान का मूल्य गणितीय रूप से अन्य नौ के बराबर नहीं है, लेकिन उन सभी के वितरण में एक समान अपेक्षित व्यवहार है। इस मायने में, वे किसी तरह सममित हैं।

उन ची-वर्ग में से प्रत्येक शुद्ध, यादृच्छिक परिवर्तनशीलता की मात्रा में एक योगदान है जो आपको उस राशि में उम्मीद करनी चाहिए।

यदि आपके पास 100 अवलोकन हैं, तो उपरोक्त राशि के केवल बड़े होने की उम्मीद की जाएगी क्योंकि इसमें संदर्भों के अधिक स्रोत हैं

समान व्यवहार वाले प्रत्येक "योगदान के स्रोत" को स्वतंत्रता की डिग्री कहा जा सकता है ।

अब एक या दो कदम पीछे हटें, पिछले पैराग्राफ को फिर से पढ़ें अगर आपकी खोजी- स्वतंत्रता की डिग्री के अचानक आगमन को समायोजित करने की आवश्यकता हो ।

μσ2

बात यह है, आप परिवर्तनशीलता के उन 10 समकक्ष स्रोतों के व्यवहार पर भरोसा करना शुरू करते हैं। यदि आपके पास 100 अवलोकन हैं, तो आपके पास उस राशि के लिए सख्ती से यादृच्छिक उतार-चढ़ाव के 100 स्वतंत्र समान व्यवहार वाले स्रोत होंगे।

χ102χ12

μσ2

μσ2

चीजें अजीब लगने लगती हैं।

X¯S2μσ2

X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

i=110(XiX¯)2i=110(Xiμ)2

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

"क्या यह सब कुछ नहीं था?"

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.

पहले कार्यकाल में 10 डिग्री स्वतंत्रता के साथ ची-चुकता वितरण है और अंतिम शब्द में एक डिग्री स्वतंत्रता (!) के साथ ची-चुकता वितरण है।

हम केवल ची के वर्ग को दो भागों में परिवर्तनशीलता के 10 स्वतंत्र समान व्यवहार वाले स्रोतों के साथ विभाजित करते हैं, दोनों सकारात्मक: एक हिस्सा परिवर्तनशीलता के एक स्रोत के साथ एक ची-वर्ग है और दूसरा हम साबित कर सकते हैं (विश्वास की छलांग? WO द्वारा जीत? ) 9 (= 10-1) परिवर्तनशीलता के स्वतंत्र रूप से समान रूप से व्यवहार किए गए स्रोतों के साथ एक ची-वर्ग होना, दोनों भाग एक दूसरे से स्वतंत्र होते हैं।

यह पहले से ही एक अच्छी खबर है, क्योंकि अब हमारे पास इसका वितरण है।

σ2

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

t

[^ 1]: @whuber ने नीचे टिप्पणी में बताया कि गॉसेट ने गणित नहीं किया, बल्कि इसके बजाय अनुमान लगाया ! मैं वास्तव में नहीं जानता कि उस समय के लिए कौन सी उपलब्धि अधिक आश्चर्यजनक है।

t(101)X¯μS2X¯

तुम वहाँ जाओ। तकनीकी विवरणों की एक बहुत के साथ, मोटे तौर पर गलीचा के पीछे बह गया, लेकिन पूरी तरह से अपने पूरे पेचेक को खतरनाक रूप से दांव लगाने के लिए भगवान के हस्तक्षेप पर निर्भर नहीं करता है।


1
1010

आपके मूल्यांकन के लिए बहुत बहुत धन्यवाद, @whuber! यह आश्चर्यजनक है कि आपने जो भी लिखा था उसे भूल जाने के बाद कितने टाइपो पॉप अप हुए। आपके मूल्यांकन के बारे में, मेरा इरादा सिर्फ एक और तरीका सोचने का है - कुछ अर्थों में थोड़ा कम गणितीय। इसके अलावा, मैं पूरी तरह से आप के साथ क्या मतलब नहीं है अगर आप इसके बजाय 10 स्वतंत्र ची-वर्ग वाले संस्करणों के बजाय 10 स्वतंत्र सामान्य संस्करणों को अभिव्यक्त किया था, तो आप के साथ खत्म हो जाएगा - एक सामान्य संस्करण - जिसे मैंने आपका मुख्य बिंदु रखने का अनुमान लगाया था । मैं इसके बारे में विस्तार से बताने की कोशिश करूंगा, इससे पोस्ट में सुधार होगा।
मार्सेलो वेंचुरा

2

स्वतंत्रता की डिग्री की एक सहज व्याख्या यह है कि वे ब्याज के एक पैरामीटर (यानी, अज्ञात मात्रा) के आकलन के लिए डेटा में उपलब्ध जानकारी के स्वतंत्र टुकड़ों की संख्या का प्रतिनिधित्व करते हैं ।

उदाहरण के रूप में, फॉर्म के एक सरल रेखीय प्रतिगमन मॉडल में:

Yi=β0+β1Xi+ϵi,i=1,,n

ϵiσβ0β1nn2n2σ


मेरे उत्तर के लिए आपके संपादन के लिए बहुत बहुत धन्यवाद, @COOLSerdash!
इसाबेला घीमे

2

nX1,,Xni=1n(XiX¯n)2Xn12X¯n=1ni=1nXin1(X¯n=1ni=1nXi)

अधिक जानकारी के लिए इसे देखें


0

मेरे लिए मेरे द्वारा समझा गया पहला विवरण था:

यदि आप माध्य या भिन्नता जैसे कुछ सांख्यिकीय मूल्य जानते हैं, तो प्रत्येक चर के मूल्य को जानने से पहले आपको कितने डेटा की आवश्यकता होगी?

यह वही है जो aL3xa ने कहा है, लेकिन किसी भी डेटा बिंदु को एक विशेष भूमिका दिए बिना और जवाब में दिए गए तीसरे मामले के करीब है। इस तरह एक ही उदाहरण होगा:

यदि आप डेटा का मतलब जानते हैं, तो आपको सभी डेटा बिंदुओं के मूल्य को जानने के लिए सभी लेकिन एक डेटा बिंदु के मूल्यों को जानना होगा।


चर -> अवलोकन
रिचर्ड हार्डी

0

xyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1x1x¯=0i=1n(xix¯)2n100xn=2x1x2x¯=x1+x22x¯x1x2nx¯nn1

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.