कैसे वास्तव में सांख्यिकीविदों ने अनुकरण के बिना जनसंख्या विचरण के लिए निष्पक्ष अनुमानक के रूप में (n-1) का उपयोग करने के लिए सहमति व्यक्त की?


67

भाजक में कंप्यूटिंग संस्करण के लिए सूत्र है:(n1)

s2=i=1N(xix¯)2n1

मैंने हमेशा सोचा है कि क्यों। हालांकि, "क्यों" के बारे में कुछ अच्छे वीडियो पढ़ना और देखना, ऐसा लगता है, जनसंख्या विचरण का एक अच्छा निष्पक्ष अनुमानक है। जबकि कम आंकलन करता है और जनसंख्या विचरण को कम करता है।(n1)n(n2)

मैं यह जानने के लिए उत्सुक हूं कि क्या बिना कंप्यूटर के इस युग में यह पसंद किया गया था? क्या कोई वास्तविक गणितीय प्रमाण यह साबित कर रहा है या इस विशुद्ध रूप से अनुभवजन्य और सांख्यिकीविदों ने उस समय "सर्वश्रेष्ठ स्पष्टीकरण" के साथ आने के लिए हाथों की गणना की थी?

सिर्फ 19 वीं शताब्दी की शुरुआत में कंप्यूटर की सहायता से सांख्यिकीविदों ने इस फॉर्मूले को कैसे अपनाया? मैनुअल या आंख से मिलने की तुलना में अधिक है?


13
मैं आपको " कंप्यूटर की सहायता के बिना " कहने का मतलब मानता हूं । उत्तर है - शायद अनिश्चित रूप से - बीजगणित के उपयोग से। व्युत्पत्ति काफी सरल है और कई स्थानों पर सांख्यिकी छात्रों के लिए इसे एक अभ्यास के रूप में प्राप्त करना / इसे अंडरग्राउंड के रूप में सीखना सामान्य है।
ग्लेन_ब

मुझे लगता है कि यह एक बहुत अच्छी व्याख्या देता है: en.wikipedia.org/wiki/Variance#Sample_variance
वीरेना हुनस्च्मिड


मैं अपने सूत्र का उपयोग करने के लिए संपादित किया है और के रूप में हर में के लिए है नमूना विचरण (लैटिन प्रतीक) नहीं जनसंख्या विचरण (यूनानी प्रतीकों)। s2x¯n1
एलेक्सिस

जवाबों:


40

सुधार को बेसेल का सुधार कहा जाता है और इसका एक गणितीय प्रमाण है। व्यक्तिगत रूप से, मुझे यह आसान तरीका सिखाया गया था: का उपयोग करके आप ( यहां देखें ) का पूर्वाग्रह सही करते हैं ।n1E[1n1n(xix¯)2]

आप स्वतंत्रता की डिग्री की अवधारणा के आधार पर सुधार की व्याख्या भी कर सकते हैं, सिमुलेशन की सख्त आवश्यकता नहीं है।


15
प्रूफ वैकल्पिक # 3 में एक सुंदर सहज व्याख्या है जिसे एक व्यक्ति भी समझ सकता है। मूल विचार यह है कि नमूना का मतलब जनसंख्या के साधन के समान नहीं है। आपकी टिप्पणियों को स्वाभाविक रूप से जनसंख्या के मतलब की तुलना में नमूना माध्य के करीब होने जा रहे हैं, और यह उन शब्दों शब्दों के साथ कम करके आंका गया है । यह संभवतः अधिकांश लोगों के लिए स्पष्ट है, लेकिन मैंने कभी भी "अंतर्ज्ञान" के बारे में नहीं सोचा था कि अब तक पक्षपाती नमूना विचलन पक्षपाती क्यों है। मैंने केवल औपचारिक साक्ष्यों को सीखा है। (xiμ)2(xix¯)2
वेटलैबस्टूडेंट

2
एक ज्यामितीय दृष्टिकोण भी है क्यों n-1 के साथ सही करने के लिए (Saville और लकड़ी में बहुत अच्छी तरह से समझाया गया है: सांख्यिकीय तरीके: ज्यामितीय दृष्टिकोण)। इसे शीघ्र ही डालें: n के नमूने को n-आयामी डेटा स्थान माना जा सकता है। नमूना बिंदु वैक्टर एक मनाया वेक्टर में जोड़ते हैं जो कि पी-आयाम के साथ एक मॉडल वेक्टर के साथ विघटित किया जा सकता है जो पी पैरामीटर के अनुरूप है और एनपी आयाम के साथ एक त्रुटि वेक्टर है। त्रुटि वेक्टर के इसी पाइथागोरसियन ब्रेप में np वर्ग होते हैं जो औसत भिन्नता के लिए एक उपाय है।
जिओरडनो

मैं आपको एक सुंदर लिंक दूंगा जिसमें एक संक्षिप्त विवरण शामिल है: en.wikipedia.org/wiki/Bias_of_an_estimator
क्रिस्टीना

क्या आप बता सकते हैं कि प्रमाण (वैकल्पिक 3) में हम यह क्यों मानते हैं कि दोनों सही और पक्षपाती भिन्नताओं की गणना उपयोग से की गई है ? जब हमारे पास एक आबादी (सच्चे विचरण के साथ) और एक नमूना (पक्षपाती विचरण के साथ) विभिन्न भिन्नताओं की समस्या उत्पन्न होती है। लेकिन अगर हम एक ही डेटा पर भिन्नता की गणना करते हैं, अर्थात् उन्हें कभी अलग क्यों होना चाहिए? वहाँ हम के बारे में सोच ठीक उसी का प्रयोग कर गणना एक सच्चे विचरण के रूप में पक्षपाती एक के रूप में की । मैं इस प्रमाण से सहमत नहीं हो सकता। कृपया मदद करें, मुझे क्या याद आ रहा है? n xx1,x2,...,xnσ2xsbiased2
तुर्क बादालोव

56

अधिकांश सबूत जो मैंने देखे हैं, वे काफी सरल हैं कि गॉस (हालांकि उसने ऐसा किया) शायद यह साबित करना बहुत आसान था।

मैं सीवी पर एक व्युत्पत्ति की तलाश कर रहा हूं जिसे मैं आपको लिंक कर सकता हूं (यहां ऑफ-साइट के साक्ष्यों के लिए कई लिंक हैं, जिनमें से कम से कम एक का उत्तर यहां दिया गया है), लेकिन मुझे सीवी में यहां एक नहीं मिला है खोजों की जोड़ी, इसलिए पूर्णता के लिए, मैं एक सरल एक दे दूँगा। इसकी सरलता को देखते हुए, यह देखना आसान है कि लोग किस तरह से बसेल के सुधार को आमतौर पर इस्तेमाल करना शुरू कर देंगे ।

यह को ग्रहण किए गए ज्ञान के रूप में लेता है, और यह मानता है कि पहले कुछ बुनियादी परिवर्तन गुण ज्ञात हैं।E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
कौन सी संपत्ति शब्द गायब कर देती है? 2x¯i=1nxi
सिप्रियन टॉमोयागै सिप

3
यह गायब नहीं होता है। क्या आपने देखा कि अंतिम शब्द का चिन्ह बदल गया है?
Glen_b

1
(+1) मैंने हाल ही में एक महान प्रमाण सुना है कि मैं व्यक्तिगत रूप से अधिक सहज ज्ञान युक्त हूं। फैक्टर के साथ नमूना विचरण को सभी जोड़े बिंदुओं के बीच सभी वर्ग अंतरों के औसत के रूप में फिर से व्यक्त किया जा सकता है। अब ध्यान दें कि जो जोड़े एक ही बिंदु पर दो बार प्रवेश करते हैं वे सभी शून्य हैं, और यह अभिव्यक्ति को पूर्वाग्रहित करता है। यह उचित है कि इन सभी जोड़ियों को दोहरे योग से बाहर कर केवल पूर्वाग्रह को ठीक किया जाए और बाकी के औसत को ही छोड़ दिया जाए। इससे बेसेल का सुधार होता है। 1/n
अमीबा

1
नहीं, कभी नहीं, यह समझ से बाहर। , तो आप बस उसी पहचान को लागू कर रहे हैं जो आपने ऊपर बताई है दोनों पंक्ति 3 में।V[x¯]=V[x]n
tel

1
आईआईडी के किसी भी संस्करण में एक ही पल होता है। हम उन सभी के बारे में बात करने से बस एक की चर्चा करते हैं। आप के रूप में आसानी लिया सकता है (और कुछ लोगों को करना) या या ... लेकिन मैं ले लिया है वेंx1x2xni
Glen_b

37

वेसस्टीन की गणित की दुनिया के अनुसार, यह पहली बार 1823 में गॉस द्वारा सिद्ध किया गया था। संदर्भ गॉस के वीर्के की मात्रा 4 है, जिसे https://archive.org/details/werkecarlfol4gausrich पर पढ़ा जा सकता है । प्रासंगिक पृष्ठ 47-49 प्रतीत होते हैं। ऐसा लगता है कि गॉस ने इस सवाल की जांच की और एक सबूत के साथ आया। मैं लैटिन नहीं पढ़ता, लेकिन पाठ में एक जर्मन सारांश है। पृष्ठ 103-104 बताएं कि उसने क्या किया (संपादित करें: मैंने एक मोटा अनुवाद जोड़ा):

एलेइन दा मैन नीच बेराचिट्ट इस् ट, डाई सिचर्स्टन वेर्थ फुअर डाई वेरेन वर्थ सेल्बस्ट जू हेलन, इसलिए ueberzeugt man sich leicht, dass man durch dieses Verfahren accmal den wahrscheinlichsh undittler Feittler Feittler Feittler Feittler Feittler als sie wirklich besitzen। [लेकिन चूँकि कोई व्यक्ति सबसे संभावित मूल्यों को मानने का हकदार नहीं है क्योंकि वे वास्तविक मूल्य थे, कोई भी आसानी से अपने आप को समझा सकता है कि व्यक्ति को हमेशा यह पता लगाना चाहिए कि सबसे अधिक संभावित त्रुटि और औसत त्रुटि बहुत छोटी है, और इसलिए दिए गए परिणाम वास्तव में उनके पास अधिक सटीकता है।]

जिससे यह प्रतीत होता है कि यह सर्वविदित था कि नमूना विचरण जनसंख्या विचरण का एक पक्षपाती अनुमान है। लेख में कहा गया है कि दोनों के बीच के अंतर को आमतौर पर नजरअंदाज कर दिया जाता है क्योंकि यह महत्वपूर्ण नहीं है अगर नमूना आकार काफी बड़ा है। फिर यह कहता है:

डेर वर्फेस्सर हैट डेहर डेसेन गेगेनस्टाइन एनी नेक्स्टोनस यूटरसचुंग अन्टरवॉर्फेन, डाई जू ईइनम सेहर मेर्कवुर्दिजेन होचस्ट ईनफैचेन रिजल्ट ज्यफुहार्ट हैट। मैन ब्रूच नीमलिच डेन नाच डेम एग्जेजिगेन फाहलरहफ्टेन वेरफाहेन जियफंडेनन मिट्टलरेन फेहलर, उम इहां इन डाइ रिचटिजेन जू वर्वंडेलन, नर्स मिट

πρπ

zu multiplicieren, wo die Anzahl der beobachtungen (टिप्पणियों की संख्या) und die Anzahl der unbekannten groessen (अज्ञात की संख्या) bedeutet। [लेखक ने इसलिए इस वस्तु का एक विशेष अध्ययन किया है जिसके कारण बहुत ही विचित्र और अत्यंत सरल परिणाम प्राप्त हुआ है। अर्थात्, किसी व्यक्ति को उपरोक्त त्रुटिपूर्ण प्रक्रिया द्वारा दी गई औसत त्रुटि को (सही व्यंजक) द्वारा इसे सही में बदलने के लिए केवल गुणा करना होगा, जहां टिप्पणियों की संख्या है और अज्ञात मात्राओं की संख्या है।]πρπρ

इसलिए यदि यह वास्तव में पहली बार है कि सुधार पाया गया था, तो ऐसा लगता है कि यह गॉस द्वारा एक चतुर गणना द्वारा पाया गया था, लेकिन लोगों को पहले से ही पता था कि कुछ सुधार की आवश्यकता थी, इसलिए शायद किसी और को इससे पहले यह अनुभवजन्य रूप से मिल सकता था। । या संभवतः पिछले लेखकों ने सटीक उत्तर प्राप्त करने की परवाह नहीं की क्योंकि वे वैसे भी काफी बड़े डेटा सेट के साथ काम कर रहे थे।

सारांश: मैनुअल, लेकिन लोगों को पहले से ही पता था कि हर में काफी सही नहीं था।n


अगर कोई जर्मन का अनुवाद प्रदान कर सकता है, तो यह अच्छा होगा। मैं एक जर्मन नहीं पढ़ता हूं।
फहीम मीठा

2
हां, मेरी वर्तनी त्रुटियों के कारण Google अनुवाद इतनी अच्छी तरह से काम नहीं करता है! मैं अनुवाद में एक प्रयास में जोड़ देंगे; यह मेरे जर्मन अभ्यास का एक अच्छा तरीका होगा।
फ्लंडरर

14

मेरे लिए अंतर्ज्ञान का एक टुकड़ा है

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

अर्थात्,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

वास्तव में उपरोक्त समीकरण को साबित करना बीजगणित का एक सा लगता है (यह बीजगणित @ Glen_b के उत्तर के ऊपर बहुत समान है)। लेकिन यह सच है, हम प्राप्त करने के लिए पुनर्व्यवस्थित कर सकते हैं:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

मेरे लिए, अंतर्ज्ञान का एक और टुकड़ा यह है कि बजाय उपयोग पूर्वाग्रह का परिचय देता है। और यह पूर्वाग्रह बिल्कुल बराबर है ।X¯μE[(X¯μ)2]=σ2n


12

अधिकांश उत्तर पहले ही विस्तृत रूप से बता चुके हैं, लेकिन इसके अलावा एक सरल चित्रण है जो एक उपयोगी हो सकता है:

मान लीजिए कि आपको दिया गया है और पहले तीन नंबर हैं:n=4

8,4,6 , _

अब चौथा नंबर कुछ भी हो सकता है क्योंकि कोई अड़चन नहीं है। अब उस स्थिति पर विचार करें जब आपको और , तो यदि पहले तीन नंबर हैं: तो चौथे नंबर को होना चाहिए ।n=4x¯=68,4,66

यह कहना है कि यदि आप मान और जानते हैं , तो मान को कोई स्वतंत्रता नहीं है। इस प्रकार हमें एक निष्पक्ष अनुमानक देता है।n1x¯nthn1

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.