मानक विचलन की गणना करते समय द्वारा विभाजित करने के लिए सहज व्याख्या ?


136

मुझे आज क्लास में पूछा गया था कि आप मानक विचलन की गणना करते समय के साथ द्वारा वर्ग त्रुटि का योग क्यों विभाजित करते हैं ।एनn1n

मैंने कहा कि मैं इसका उत्तर कक्षा में नहीं दे रहा हूँ (क्योंकि मैं निष्पक्ष अनुमानकर्ताओं में नहीं जाना चाहता था), लेकिन बाद में मैंने सोचा - क्या इसके लिए कोई सहज व्याख्या है ?!


29
मैं इस जिंजर बुक न्यूमेरिकल रेसिपीज से उद्धृत करना चाहता हूं : "... यदि और बीच का अंतर कभी आपके लिए मायने रखता है, तो आप शायद वैसे भी अच्छे नहीं हैं - जैसे, एक संदिग्ध परिकल्पना को पुष्ट करने की कोशिश करना सीमांत डेटा के साथ। " nn1
JM एक सांख्यिकीविद

11
वास्तव में सुरुचिपूर्ण, सहज स्पष्टीकरण यहां प्रस्तुत किया गया है (प्रमाण के नीचे) en.wikipedia.org/wiki/… मूल विचार यह है कि आपकी टिप्पणियों में स्वाभाविक रूप से, जनसंख्या के मतलब की तुलना में नमूने के करीब होने जा रहे हैं।
वेटलैबस्टूडेंट

12
@ ताल, यही कारण है कि स्कूलों चूसना। आप उन्हें पूछना "क्यों इस ?", और वे जवाब "बस यह याद"।
पचेरियर

1
यदि आप एक सहज व्याख्या की तलाश कर रहे हैं, तो आपको वास्तव में नमूने लेकर अपने लिए कारण देखना चाहिए! इसे देखें, यह आपके प्रश्न का सटीक उत्तर देता है। youtube.com/watch?v=xslIhnquFoE
साहिल चौधरी

tl; dr: (शीर्ष उत्तर से :) "... मानक विचलन जिसकी गणना नमूने से विचलन का उपयोग करके की जाती है, का अर्थ जनसंख्या के वांछित मानक विचलन को कम करके आंका जाता है ..." यह भी देखें: en.wikipedia.org/wiki/… इसलिए, जब तक आप कुछ जटिल की गणना करने का मन नहीं करते हैं, अगर यह नमूने से सिर्फ n-1 का उपयोग करें।
एंड्रयू

जवाबों:


99

विभाजक के साथ गणना की गई मानक विचलन नमूना से मानक विचलन है, जो उस जनसंख्या के मानक विचलन के अनुमान के रूप में होता है जहां से नमूना खींचा गया था। क्योंकि देखे गए मान गिरते हैं, औसतन, जनसंख्या के मतलब की तुलना में नमूने के करीब, मानक विचलन जो नमूने के विचलन का उपयोग करके गणना किया जाता है, जनसंख्या के वांछित मानक विचलन को कम करके आंका जाता है। का उपयोग करते हुए के बजाय भाजक के रूप में परिणाम कर रही एक छोटा सा बड़ा द्वारा उस के लिए ठीक कर दे।एन - 1 एनn1n1n

ध्यान दें कि सुधार बड़ा होने पर आनुपातिक प्रभाव होता है जब बड़े की तुलना में छोटा होता है, जो कि हम चाहते हैं क्योंकि जब n बड़ा होता है तो नमूना का मतलब जनसंख्या के अच्छे अनुमानक होने की संभावना है।n

नमूना पूरी आबादी है जब हम साथ मानक विचलन का उपयोग भाजक के रूप में क्योंकि नमूना मतलब है जनसंख्या मतलब है।n

(मैं इस बात पर ध्यान देता हूं कि एक ज्ञात, निश्चित अर्थ के आसपास पुनरावृत्त होने वाले दूसरे क्षण के साथ शुरू होने वाली कोई भी चीज सहज ज्ञान युक्त स्पष्टीकरण के लिए प्रश्नकर्ता के अनुरोध को पूरा करने वाली नहीं है।


13
चलो "नॉनटेक्निकल" के साथ "सहज" भ्रमित न करें।
whuber

32
@ माइकल, यह नहीं समझाता है कि हम (या यहां तक ) के n−1बजाय क्यों उपयोग करते हैं ? n−2n−3
पचेरियर

1
@Pacerier उस बिंदु पर विस्तार से नीचे व्हिबर के जवाब पर एक नज़र है। संक्षेप में, सुधार n-2 आदि के बजाय n-1 है क्योंकि n-1 सुधार परिणाम देता है जो कि हमारी आवश्यकता के बहुत करीब हैं। अधिक सटीक सुधार यहां दिखाए गए हैं: en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
माइकल ल्यू

1
हाय @Michael, तो क्यों नमूना मतलब से विचलन की गणना जनसंख्या मतलब से छोटा हो जाता है?
एलन

1
"क्योंकि देखे गए मूल्य औसतन, जनसंख्या के मतलब की तुलना में नमूना माध्य के करीब आते हैं, मानक विचलन जिसे नमूने से विचलन का उपयोग करके गणना की जाती है, जनसंख्या के वांछित मानक विचलन को कम करके आंका जाता है।" नमूना हमेशा कम क्यों आंका जाता है? क्या होगा अगर यह overestimates?
बोरा एम। अल्पर

55

एक आम बात यह है कि विचरण की परिभाषा (किसी वितरण की) किसी ज्ञात, निश्चित माध्य के आसपास पुनरावृत्त होने वाला दूसरा क्षण है, जबकि अनुमानक एक अनुमानित माध्य का उपयोग करता है। स्वतंत्रता की एक डिग्री के इस नुकसान (माध्य को देखते हुए, आप डेटा मानों के सिर्फ के ज्ञान के साथ डेटासेट को पुनर्गठित कर सकते हैं) परिणाम को "समायोजित" करने के लिए बजाय के उपयोग की आवश्यकता है ।एन - 1 एनn1n1n

इस तरह की व्याख्या एनोवा और विचरण घटकों के विश्लेषण में अनुमानित भिन्नताओं के अनुरूप है। यह वास्तव में सिर्फ एक विशेष मामला है।

कुछ समायोजन करने की आवश्यकता है जो विचरण को फुला सकते हैं, मुझे लगता है, एक वैध तर्क के साथ सहज रूप से स्पष्ट किया जा सकता है जो वास्तव में केवल हाथ से लहराते हुए पूर्व पोस्ट नहीं है । (मैं याद दिलाता हूं कि छात्र ने टी-टेस्ट पर अपने 1908 के पेपर में इस तरह का तर्क दिया हो सकता है।) क्यों विचरण के लिए समायोजन बिल्कुल का एक कारक होना चाहिए औचित्य के लिए कठिन है, खासकर जब आप विचार करते हैं कि समायोजित एसडी है नहीं एक निष्पक्ष आकलनकर्ता। (यह केवल भिन्नता के एक निष्पक्ष अनुमानक का वर्गमूल है। निष्पक्ष होने के नाते आमतौर पर एक अरेखीय परिवर्तन नहीं बचता है।) इसलिए, वास्तव में, एसडी को अपने पूर्वाग्रह को हटाने के लिए सही समायोजन का कारक नहीं है।n/(n1)n/(n1) बिल्कुल भी!

कुछ परिचयात्मक पाठ्यपुस्तकें समायोजित एसडी को शुरू करने से भी परेशान नहीं करती हैं: वे एक सूत्र सिखाते हैं ( द्वारा विभाजित करें )। मैंने पहली बार इस पर नकारात्मक प्रतिक्रिया व्यक्त की कि जब इस तरह की किताब से पढ़ाया जाता है, लेकिन ज्ञान की सराहना करने के लिए बढ़ी: अवधारणाओं और अनुप्रयोगों पर ध्यान केंद्रित करने के लिए, लेखक सभी असुविधाजनक गणितीय बारीकियों को बाहर निकालते हैं। यह पता चला कि कुछ भी चोट नहीं है और किसी को गुमराह नहीं किया गया है।n


1
शुक्रिया Whuber मुझे एन -1 सुधार के साथ छात्रों को पढ़ाना है, इसलिए अकेले एन में विभाजित करना एक विकल्प नहीं है। जैसा कि मेरे सामने लिखा गया है, दूसरे क्षण के संबंध का उल्लेख करना एक विकल्प नहीं है। यद्यपि यह उल्लेख करने के लिए कि कैसे पहले से ही अनुमान लगाया गया था ताकि हमें एसडी के लिए कम "डेटा" के साथ छोड़ दिया जाए - यह महत्वपूर्ण है। एसडी के पूर्वाग्रह के बारे में - मुझे याद आया कि इसका सामना करना पड़ा - उस बिंदु पर घर चलाने के लिए धन्यवाद। बेस्ट, ताल
ताल गैली

3
@ मैं आपकी भाषा में लिख रहा था, आपके छात्रों के बारे में नहीं, क्योंकि मुझे विश्वास है कि आप जो कुछ भी जानते हैं, उसमें अनुवाद करने में पूरी तरह सक्षम हैं। दूसरे शब्दों में, मैंने आपके लिए "सहज" की व्याख्या की जिसका अर्थ है कि आप के लिए सहज ज्ञान युक्त ।
whuber

1
हाय व्हीबर। विश्वास मत के लिए धन्यवाद :)। प्रत्याशा के अनुमान के लिए स्वतंत्रता की डिग्री का ढीलापन वह है जो मैं कक्षा में उपयोग करने के बारे में सोच रहा था। समस्या यह है कि "स्वतंत्रता की डिग्री" की अवधारणा वह है जो ज्ञान / अंतर्ज्ञान की आवश्यकता है। लेकिन इसे इस धागे में दिए गए कुछ अन्य उत्तरों के साथ जोड़ना उपयोगी होगा (मेरे लिए, और मुझे उम्मीद है कि भविष्य में अन्य)। बेस्ट, ताल
ताल गैली

बड़े , आमतौर पर या विभाजित करने के बीच बहुत अंतर नहीं होता है , इसलिए यह अपरिवर्तित सूत्र को लागू करने के लिए स्वीकार्य होगा बशर्ते इसे बड़े नमूनों पर लागू करने का इरादा था, नहीं? n n - 1nnn1
PatrickT

1
@Patrick आप, मेरा उत्तर में बहुत ज्यादा पढ़ने जा सकता है, क्योंकि यह है कारणों के बारे में स्पष्ट है: वे शैक्षणिक हैं और चाहे कोई लेना देना नहीं है बड़ी है या नहीं। n
व्हिबर

50

परिभाषा के अनुसार, भिन्नता को माध्य से वर्ग अंतर के योग द्वारा और आकार से विभाजित करके गणना की जाती है। हमारे पास सामान्य सूत्र है

μएनσ2=iN(Xiμ)2N जहां माध्य है और जनसंख्या का आकार है।μN

इस परिभाषा के अनुसार, एक नमूने के विचरण (जैसे नमूना ) की गणना भी इस तरह से की जानी चाहिए।t

¯ एक्स nσt2=in(XiX¯)2n जहां मीन है और इस छोटे नमूने का आकार है ।X¯n

हालाँकि, नमूना विचरण , हमारा मतलब जनसंख्या विचरण का अनुमानक है । हम नमूने से मानों का उपयोग करके केवल अनुमान कैसे लगा सकते हैं ?σ 2 σ 2S2σ2σ2

ऊपर दिए गए सूत्रों के अनुसार, यादृच्छिक चर नमूना माध्य से विचरण साथ विचलन । नमूना मतलब भी से भटक विचरण के साथ क्योंकि नमूना मतलब नमूने के लिए नमूना से विभिन्न मूल्यों हो जाता है और यह मतलब के साथ एक यादृच्छिक चर है और विचरण । (एक आसानी से साबित हो सकता है।)¯ एक्स σ 2 टी ¯ एक्स μ σ 2XX¯σt2X¯μ μσ2σ2nμσ2n

इसलिए, मोटे तौर पर, को एक विचरण के साथ से विचलन करना चाहिए जिसमें दो शामिल हैं इसलिए इन दोनों को जोड़ लें और प्राप्त करें । इसे हल करने से, हमें । बदलने से जनसंख्या विचरण के लिए हमारा अनुमानक देता है:μ σ 2 = σ 2 टी + σ 2Xμ σ2=σ 2 टी ×nσ2=σt2+σ2n σ 2 टीσ2=σt2×nn1σt2

S2=in(XiX¯)2n1

एक यह भी साबित कर सकता है कि सत्य है।E[S2]=σ2


मुझे आशा है कि यह बहुत तुच्छ नहीं है: क्या यह तथ्य है कि नमूना माध्य ND ( , ) में रूपांतरित हो जाता है क्योंकि n मनमाने ढंग से बड़ा कारण हो जाता है कि क्यों नमूना से विचलन होता है असली मतलब विचरण ? σμ σ2σnσ2n
रेक्सयुआन

6
यह दूसरों की तुलना में बेहतर व्याख्या है क्योंकि यह सांख्यिकीय शब्दों के साथ बस यग्गा ​​यगा करने के बजाय समीकरणों और व्युत्पत्तियों को दर्शाता है।
नव

1
@sevenkul क्या हम कुछ इसे नेत्रहीन कैसे देख सकते हैं? जब आप कहते हैं, X को उस शुद्ध विचरण के साथ से विचलन करना चाहिए , तो मैं यह देखने में खो गया किμ
पार्थिबन राजेंद्रन

17

यह कुल अंतर्ज्ञान है, लेकिन सबसे सरल उत्तर यह है कि 0 के बजाय एक तत्व के नमूने के मानक विचलन को अपरिभाषित बनाने के लिए किया गया सुधार है।


11
क्यों नहीं, फिर, या यहां तक ​​कि को सुधार के रूप में उपयोग करें? :-) 1nn211exp(1)exp(1/n)
whuber

1
@whuber पारसीमोनी (-;

4
1n1 और भी अधिक "पारसमणि" है। :-)
whuber

2
@mbq, आपके उत्तर के बारे में ~ "यह 0 के बजाय अपरिभाषित एक तत्व के नमूने के मानक विचलन को बनाने के लिए किया गया एक सुधार है", क्या वास्तव में यही कारण है, या यह एक मजाक का जवाब है? आप गैर-गणितज्ञों को जानते हैं जैसे हम नहीं बता सकते।
पचेरियर

4
औपचारिक रूप से, यह कारण की तुलना में एक परिणाम है, लेकिन, जैसा कि मैंने लिखा है, मुझे यह याद रखने के लिए एक अच्छा इरादा है।

14

आप अकेले ज्यामिति के माध्यम से शब्द की गहरी समझ हासिल कर सकते हैं, न कि केवल इसलिए कि यह नहीं है , लेकिन यह बिल्कुल इस रूप को क्यों लेता है, लेकिन आपको पहले अपने अंतर्ज्ञान को -dimensional ज्यामिति के साथ सामना करने की आवश्यकता हो सकती है। हालाँकि, यह रैखिक मॉडल (यानी मॉडल df और अवशिष्ट df) में स्वतंत्रता की डिग्री की गहरी समझ के लिए एक छोटा सा कदम है। मुझे लगता है कि थोड़ा संदेह है कि फिशर ने इस तरह से सोचा। यहाँ एक पुस्तक है जो इसे धीरे-धीरे बनाती है:एन एनn1nn

सैविले डीजे, वुड जीआर। सांख्यिकीय तरीके: ज्यामितीय दृष्टिकोण । तीसरा संस्करण। न्यूयॉर्क: स्प्रिंगर-वर्लाग; 1991. 560 पृष्ठ। 9780387975177

(हां, 560 पृष्ठ। मैंने धीरे-धीरे कहा।)


धन्यवाद onestop - मुझे नहीं लगता कि उस दिशा से कोई उत्तर मिलेगा। अंतर्ज्ञान को योग करने का कोई तरीका, या क्या यह संभव होने की संभावना नहीं है? चीयर्स, ताल
ताल गैली

मैं खुद ऐसा नहीं कर सका, लेकिन एक पुस्तक समीक्षक ने आमेर में एक पैराग्राफ में दृष्टिकोण को संक्षेप में प्रस्तुत किया। स्टेट। 1993 में: jstor.org/stable/2684984 । जब तक आप इसे पूरे पाठ्यक्रम के लिए नहीं अपना लेते, तब तक मुझे यकीन नहीं है कि यह वास्तव में आपके छात्रों के साथ इस दृष्टिकोण का उपयोग करने के लिए व्यावहारिक है।
OneStop

क्या आप केवल एक पुस्तक संदर्भ के बजाय अंतर्ज्ञान का एक सारांश प्रस्तुत कर सकते हैं?
ओलिवम

12

जनसंख्या के नमूने के आधार पर लगाए जाने पर जनसंख्या भिन्नता का अनुमान पक्षपाती होता है। एन के बजाय n-1 से विभाजित करने की आवश्यकता पर उस पूर्वाग्रह के लिए समायोजित करने के लिए। जब हम n-1 के बजाय n-1 से विभाजित करते हैं, तो नमूना गणितीय रूप से अनुमान लगा सकता है कि नमूना विचरण का अनुमान निष्पक्ष है। एक औपचारिक प्रमाण यहाँ दिया गया है:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

प्रारंभ में यह गणितीय शुद्धता थी जिसके कारण सूत्र बन गया, मुझे लगता है। हालाँकि, यदि कोई सूत्र में अंतर्ज्ञान जोड़ना चाहता है, तो पहले से ही सुझाए गए सुझाव उचित प्रतीत होते हैं।

सबसे पहले, एक नमूने का अवलोकन जनसंख्या के औसत की तुलना में नमूना औसत के करीब है। विचरण अनुमानक नमूना माध्य का उपयोग करता है और परिणामस्वरूप जनसंख्या के वास्तविक विचलन को कम करके आंका जाता है। उस पूर्वाग्रह के लिए n सही के बजाय n-1 द्वारा विभाजित करना।

इसके अलावा, एन -1 से विभाजित करने से शून्य के बजाय एक-तत्व के नमूने का परिवर्तन अपरिभाषित हो जाता है।


12

क्यों से विभाजित के बजाय ? क्योंकि यह प्रथागत है, और परिणाम में एक निष्पक्ष अनुमान नहीं है। हालांकि, यह मानक विचलन के एक पक्षपाती (कम) अनुमान के परिणामस्वरूप होता है, जैसा कि जेन्सेन की असमानता को अवतल कार्य, वर्गमूल में लागू करके देखा जा सकता है।एनn1n

तो एक निष्पक्ष अनुमानक होने के बारे में बहुत अच्छा क्या है? यह जरूरी नहीं कि चौकोर त्रुटि हो। एक सामान्य वितरण के लिए MLE को बजाय से विभाजित करना है । अपने छात्रों को एक सदी पहले से प्रतिगामी धारणाओं को फिर से समझने और दिमाग लगाने के बजाय, सोचना सिखाएं।एन - 1nn1


8
(+1) मैं इस स्थिति के बारे में अधिक सोचता हूं (और मैंने कुछ वास्तविक विचार दिए हैं, पहले के शोधपत्रों की शोध की हद तक जैसे कि छात्र के 1908 बायोमेट्रिक योगदान ने नीचे ट्रैक करने की कोशिश कब और क्यों ने अपनी उपस्थिति बनाई थी ), जितना अधिक मुझे लगता है कि "क्योंकि यह प्रथागत है" एकमात्र संभव सही उत्तर है। मैं चढ़ाव को देखकर दुखी हूं और केवल यह अनुमान लगा सकता हूं कि वे अंतिम वाक्य का जवाब दे रहे हैं, जिसे आसानी से ओपी पर हमला करते हुए देखा जा सकता है, भले ही मुझे संदेह है कि आपका इरादा था। n1
whuber

1
मेरा अंतिम वाक्य ओपी पर हमले के विरोध के रूप में सभी संबंधितों के लिए अनुकूल सलाह था।
मार्क एल। स्टोन

बहुत अधिक उपयोग में यह कोई फर्क नहीं पड़ेगा, जब परीक्षणों में या आत्मविश्वास अंतराल के लिए उपयोग किया जाता है, तो प्रक्रिया के अन्य भागों को समायोजित करना होगा और अंत में एक ही परिणाम प्राप्त होगा!
kjetil b halvorsen

8

यह सर्वविदित है (या आसानी से सिद्ध) कि द्विघात में पर एक चरम है । इससे पता चलता है कि, किसी भी वास्तविक संख्याओं के लिए मात्रा का न्यूनतम मान है जब ।जेड = - βαz2+2βz+γz=βαnx1,x2,,xn

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯

अब, मान लीजिए कि अज्ञात मा और अज्ञात विचरण साथ वितरण से आकार का एक नमूना है । हम रूप में का अनुमान लगा सकते हैं, जो गणना करना काफी आसान है, लेकिन रूप में का अनुमान लगाने का प्रयास समस्या का सामना करता है जिसे हम नहीं जानते हैं । हम निश्चित रूप से, आसानी से गणना कर सकते हैं और हम जानते हैं कि , लेकिन कितना बड़ा है ? इसका उत्तर है कि xinμσ2μ1ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)लगभग कारक द्वारा से बड़ा है , वह है, और इसलिए अनुमान के लिए वितरण के विचरण को द्वारा अनुमानित किया जा सकता है G(x¯)nn1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

तो, की एक सहज व्याख्या क्या है ? खैर, हमारे पास वह के बाद से । अब, (1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
सिवाय जब हमारे पास एक असामान्य रूप से असामान्य नमूना होता है जिसमें सभी (या वे सभी से छोटे होते हैं ) से बड़े होते हैं , दाईं ओर के डबल योग में पक्ष सकारात्मक के साथ-साथ नकारात्मक मूल्यों को भी लेता है और इस प्रकार बहुत कुछ रद्द हो जाता है। इस प्रकार, डबल योग के छोटे निरपेक्ष मान होने की उम्मीद की जा सकती है , और हम के दाईं ओर स्थित शब्द की तुलना में इसे अनदेखा करते हैं । इस प्रकार, हो जाता है जैसा कि दावा किया गया हैxiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
केवल इस स्टैक एक्सचेंज पर यह कभी एक सहज जवाब माना जाएगा।
जोसफ गार्विन

6

नमूना विचरण को सभी नमूना बिंदुओं के बीच "ऊर्जा" का सटीक अर्थ माना जा सकता है । नमूना विचरण की परिभाषा तब (xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

यह युग्मित ऊर्जा की अपेक्षा के रूप में एक यादृच्छिक चर के परिभाषित विचरण से भी सहमत है, अर्थात और समान वितरण के साथ स्वतंत्र यादृच्छिक चर हैं, तो XY

V(X)=E((XY)22)=E((XE(X))2).

नमूना विचरण के विचलन के यादृच्छिक चर विक्षेपण से जाने के लिए एक माध्य द्वारा एक अपेक्षा का अनुमान लगाने का मामला है जिसे विशिष्टता के दार्शनिक सिद्धांत द्वारा उचित ठहराया जा सकता है: नमूना एक विशिष्ट प्रतिनिधित्व वितरण है। (ध्यान दें, यह संबंधित है, लेकिन क्षणों के अनुमान के समान नहीं है।)


2
मैं पिछले पैराग्राफ में आपका अनुसरण नहीं कर सका। क्या गणितीय तथ्य यह नहीं है कि ? भले ही समीकरण दिलचस्प है, मुझे नहीं मिलता है कि इसका उपयोग n-1 को सहज रूप से सिखाने के लिए कैसे किया जा सकता है? V(X)=E((XY)22)=E((XE(X))2)
केएच किम

4
मुझे यह दृष्टिकोण पसंद है, लेकिन यह एक महत्वपूर्ण विचार को छोड़ देता है: नमूना बिंदुओं के सभी जोड़े के बीच औसत ऊर्जा की गणना करने के लिए , किसी को मानों को गिनना होगा , भले ही वे सभी शून्य हों। इस प्रकार का अंश एक ही रहता है लेकिन भाजक होना चाहिए , नहीं । यह सफ़ाई के- हाथ आ गई है कि पता चलता है: किसी भी तरह, आप का औचित्य साबित करने की जरूरत नहीं जैसे अपनी जोड़े भी शामिल है। (क्योंकि वे कर रहे हैं विचरण के अनुरूप आबादी परिभाषा में शामिल, यह एक स्पष्ट बात नहीं है।)(xixi)2s2nn1
whuber

4

मान लीजिए कि आपके पास एक यादृच्छिक घटना है। फिर से मान लीजिए कि आपको केवल एक नमूना, या प्राप्ति, । आगे की धारणाओं के बिना, नमूना औसत के लिए आपकी "केवल" उचित पसंद । यदि आप अपने भाजक से घटाते नहीं हैं, तो (बिना सही) का नमूना विचलन , या होगा:N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

विचित्र रूप से, विचरण केवल एक नमूने के साथ शून्य होगा। और एक दूसरा नमूना होने , अपने विचरण को बढ़ाने के लिए करता है, तो जोखिम होता । इसका कोई अर्थ नहीं निकलता। वास्तव में, एक अनंत विचरण एक ध्वनि परिणाम होगा, और आप इसे केवल " विभाजित करके" प्राप्त कर सकते हैं ।yxyN1=0

एक माध्य का अनुमान डेटा के लिए डिग्री के साथ एक बहुपद फिटिंग है , जिसमें एक डिग्री की स्वतंत्रता (dof) है। यह बेसेल का सुधार स्वतंत्रता मॉडल के उच्च डिग्री पर भी लागू होता है: बेशक आप पूरी तरह से अंक को डिग्री बहुपद के साथ dofs के साथ फिट कर सकते हैं । शून्य-चुकता-त्रुटि का भ्रम केवल अंकों की संख्या को घटाकर dofs की संख्या से विभाजित करके ही प्रतिशोधित किया जा सकता है। यह समस्या विशेष रूप से संवेदनशील है जब बहुत छोटे प्रयोगात्मक डेटासेट के साथ काम कर रहा है ।0d+1dd+1


यह स्पष्ट नहीं है कि "एक अनंत विचरण एक ध्वनि परिणाम क्यों होगा" एक शून्य विचरण की तुलना में। वास्तव में, आप "नमूना विचरण" का उपयोग विचरण अनुमानक के अर्थ में करते हैं , जो अभी तक अधिक भ्रामक है।
whuber

1
मै समझता हुँ। दो विकल्पों के बीच एक सहज स्पष्टीकरण का जवाब देने के लिए, मैंने यह सुझाव देने की कोशिश की कि दोनों में से कोई भी अस्वीकार्य है, जो कि सांसारिक नियम के आधार पर है कि । एक रीफ्रेशिंग वास्तव में आवश्यक है, और आगामी0<
लॉरेंट डुवल

4

व्हुबेर के सुझाव पर , इस उत्तर को एक और समान प्रश्न से कॉपी किया गया है ।

असली विचरण के अनुमानक के रूप में नमूना विचरण का उपयोग करने में पूर्वाग्रह को सही करने के लिए बेसेल के सुधार को अपनाया जाता है। अकाट्य सांख्यिकीय में पूर्वाग्रह इसलिए होता है क्योंकि नमूना माध्य वास्तविक अर्थ की तुलना में अवलोकनों के मध्य के करीब होता है, और इसलिए नमूना माध्य के आसपास वर्ग विचलन सही अर्थ के आसपास वर्ग विचलन को कम करके आंका जाता है।

इस घटना को बीजगणितीय रूप से देखने के लिए, बस बेसेल के सुधार के बिना एक नमूना विचरण के अपेक्षित मूल्य को प्राप्त करें और देखें कि यह कैसा दिखता है। दे निरूपित uncorrected नमूना प्रसरण (का उपयोग करते हुए भाजक के रूप में) हमने:S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

उम्मीदों की पैदावार लेना:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

तो आप देख सकते हैं कि अनरेटेड सैंपल वेरिएशन स्टैटिस्टिक सच वर्जन कम करके आंका । बेसेल का सुधार साथ हर की जगह लेता है जो एक निष्पक्ष अनुमानक देता है। प्रतिगमन विश्लेषण में यह अधिक सामान्य मामले तक विस्तारित होता है जहां अनुमानित मतलब कई भविष्यवाणियों का एक रैखिक कार्य होता है, और इस बाद के मामले में, भाजक को डिग्री की स्वतंत्रता की कम संख्या के लिए और कम किया जाता है। n - 1σ2n1


सबूत के लिए धन्यवाद!
upupming

0

आमतौर पर हर में "एन" का उपयोग जनसंख्या विचरण की तुलना में छोटे मान देता है जो कि हम अनुमान लगाना चाहते हैं। यह विशेष रूप से तब होता है जब छोटे नमूने लिए जाते हैं। आंकड़ों की भाषा में, हम कहते हैं कि नमूना विचरण जनसंख्या के विचरण का एक "पक्षपाती" अनुमान प्रदान करता है और इसे "निष्पक्ष" बनाने की आवश्यकता है।

यदि आप एक सहज व्याख्या की तलाश कर रहे हैं, तो आपको अपने छात्रों को वास्तव में नमूने लेने के कारण खुद को देखने देना चाहिए! इसे देखें, यह आपके प्रश्न का सटीक उत्तर देता है।

https://www.youtube.com/watch?v=xslIhnquFoE


0

नमूना माध्य को , जो काफी सहज है। लेकिन नमूना प्रसरण । कहां से आया?X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

इस प्रश्न का उत्तर देने के लिए, हमें निष्पक्ष अनुमानक की परिभाषा पर वापस जाना चाहिए। एक निष्पक्ष अनुमानक वह होता है जिसकी अपेक्षा सच्ची अपेक्षा के अनुरूप होती है। नमूना माध्य एक निष्पक्ष अनुमानक है। यह देखने के लिए कि:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

आइए हम नमूना विचरण की उम्मीद पर नजर डालें,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

ध्यान दें कि एक यादृच्छिक चर है और एक स्थिर नहीं है, इसलिए अपेक्षा एक भूमिका निभाता है। यह पीछे का कारण हैX¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

जैसा कि आप देख सकते हैं, अगर हमारे पास बजाय रूप में हर होता, तो हमें विचरण के लिए एक पक्षपाती अनुमान मिलता! लेकिन के साथ अनुमानक एक निष्पक्ष अनुमानक है।एन - 1 एनnn1n1S2


3
लेकिन यह पालन नहीं करता है कि मानक विचलन का एक निष्पक्ष अनुमानक है। S
स्कॉर्टची

-1

मुझे लगता है कि यह बेयसियन अनुमान के संबंध को इंगित करने के लायक है। आप मान अपने डेटा गाऊसी है, और इसलिए आप मतलब मापने मान लीजिए और विचरण का एक नमूना के अंक। आप जनसंख्या के बारे में निष्कर्ष निकालना चाहते हैं। बायेसियन दृष्टिकोण नमूना पर पश्चवर्ती भविष्य कहनेवाला वितरण का मूल्यांकन करना होगा, जो एक सामान्यीकृत छात्र का टी वितरण (टी-टेस्ट की उत्पत्ति) है। इस वितरण का अर्थ है , और विचरणσ 2 n μ σ 2 ( एन + 1μσ2nμ

σ2(n+1n1),

जो सामान्य सुधार से भी बड़ा है। (यह स्वतंत्रता की डिग्री है।)2n

सामान्यीकृत छात्र के टी वितरण में तीन पैरामीटर हैं और आपके सभी तीन आँकड़ों का उपयोग करता है। यदि आप कुछ जानकारी फेंकने का निर्णय लेते हैं, तो आप अपने प्रश्न में वर्णित दो-पैरामीटर सामान्य वितरण का उपयोग करके अपने डेटा को लगभग अनुमानित कर सकते हैं।

एक बायेसियन दृष्टिकोण से, आप कल्पना कर सकते हैं कि मॉडल के हाइपरपेरमेटर्स में अनिश्चितता (माध्य और विचरण पर वितरण) जनसंख्या के विचरण से अधिक होने के कारण पूर्ववर्ती भविष्यवाणियों के विचरण का कारण बनता है।


-4

मेरी अच्छाई यह जटिल हो रही है! मुझे लगा कि सरल उत्तर था ... यदि आपके पास सभी डेटा बिंदु हैं जो आप "एन" का उपयोग कर सकते हैं, लेकिन अगर आपके पास "नमूना" है, तो यह एक यादृच्छिक नमूना है, आपको मानक विचलन के अंदर से अधिक नमूना अंक मिले हैं। बाहर से (मानक विचलन की परिभाषा)। आपके पास बस यह सुनिश्चित करने के लिए बाहर पर्याप्त डेटा नहीं है कि आपको उन सभी डेटा बिंदुओं की आवश्यकता है जो आपको यादृच्छिक रूप से चाहिए। एन -1 "वास्तविक" मानक विचलन की ओर विस्तार करने में मदद करता है।


3
इसका कोई मतलब नहीं है। एसडी के अंदर से अधिक अंक बाहर से? अगर इसका मतलब 1 एसडी के भीतर है, तो यह सच है कि क्या नमूना लेने से कोई लेना-देना नहीं है। माध्य के चारों ओर अंतराल के भीतर भिन्नता के लिए आवश्यक बाधाओं के लिए, चेबेशेव की असमानता देखें। यहां मुख्य प्रश्न के लिए, "विस्तार करने में मदद करता है" को बिल्कुल भी स्पष्ट नहीं करता है , जैसा कि आपके तर्क को भी देना अभी भी बेहतर हो सकता है, और आगे भी, क्योंकि यहां कोई बीजगणित नहीं है, यहां तक ​​कि अंतर्निहित भी। दुर्भाग्य से यह विचारों के भ्रमित सेट को छोड़कर अन्य उत्तरों में कुछ भी नहीं जोड़ता है, या तो गलत या अप्रासंगिक है। एन - 2n1n2
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.