मूल परिकल्पना परीक्षण क्यों माध्य पर केंद्रित है और मध्यिका पर नहीं?


32

बुनियादी अंडर-ग्रेड आँकड़ों के पाठ्यक्रमों में, छात्रों को (आमतौर पर?) आबादी के मतलब के लिए परिकल्पना परीक्षण सिखाया जाता है।
ऐसा क्यों है कि ध्यान माध्य पर है न कि माध्यिका पर? मेरा अनुमान है कि केंद्रीय सीमा प्रमेय के कारण माध्य का परीक्षण करना आसान है, लेकिन मैं कुछ शिक्षित स्पष्टीकरण पढ़ना पसंद करूंगा।


3
माध्य में विशिष्टता, गणना और कैलकुलस के लिए उपयोगी गुण हैं। यह अक्सर पर्याप्त आँकड़ों से संबंधित होता है।
हेनरी

जवाबों:


40

क्योंकि एलन ट्यूरिंग का जन्म रोनाल्ड फिशर के बाद हुआ था।

पुराने दिनों में, कंप्यूटर से पहले, यह सब सामान हाथ से किया जाना था या, सबसे अच्छे से, जिसे अब हम कैलकुलेटर कहते हैं। तुलना के लिए टेस्ट इस तरह से किए जा सकते हैं - यह श्रमसाध्य है, लेकिन संभव है। क्वांटिल्स (जैसे कि माध्यिका) के लिए टेस्ट इस तरह से करना बहुत असंभव होगा।

उदाहरण के लिए, मात्रात्मक प्रतिगमन अपेक्षाकृत जटिल कार्य को कम करने पर निर्भर करता है। यह हाथ से संभव नहीं होगा। यह प्रोग्रामिंग के साथ संभव है। उदाहरण के लिए कोएंकर या विकिपीडिया देखें ।

क्वांटाइल रिग्रेशन ओएलएस रिग्रेशन की तुलना में कम धारणाएं हैं और अधिक जानकारी प्रदान करता है।


6
उस समय कंप्यूटर मौजूद थे, लेकिन इसका मतलब कुछ अलग था जिसका मतलब है कि अब हम इसके साथ हैं।
मर्टन ब्यूस

6
वास्तव में! कंप्यूटर वे लोग थे जिन्होंने गणना की थी।
पीटर Flom - को पुनः स्थापित मोनिका

2
@nafrtiti पाठ्यक्रम बदल रहा है, लेकिन धीरे-धीरे। पर काबू पाने के लिए बहुत सी गति है और बाहर के लोगों को नए विचारों के लिए इस्तेमाल नहीं किया जाता है इसलिए उन्हें अस्वीकार कर सकते हैं।
पीटर Flom - को पुनः स्थापित मोनिका

3
@SunQingyao सॉर्टिंग जोड़ने की तुलना में बहुत अधिक महंगा है। जोड़ना O (n) है और यह हार्डवेयर के सबसे बुनियादी ऑपरेशनों में से एक है और इसके लिए केवल एक रजिस्टर की आवश्यकता होती है। उसके अलावा, मुझे केवल इतना जानना चाहिए कि कुल वस्तुओं की संख्या और अधिक डेटा और नए माध्य की गणना है। माध्यिका की गणना करने के लिए, मुझे पूरे सेट की आवश्यकता है
बजे

3
त्वरित चयन के साथ (और यदि गलत pivots यादृच्छिक चुने गए हैं, तो धुरी का चयन करने के लिए माध्यियन -5 का उपयोग करके) आप ओ (एन) में एक मात्रात्मक पा सकते हैं, जिससे औसत और औसत के बीच का अंतर कम हो जाता है। बेशक आपको यह जानना होगा कि ऐसी विधियाँ मौजूद हैं (जो कि टुरिंग्स के समय भी अज्ञात थी)।
सुरत

22

मैं हार्लेल और फ्लॉम द्वारा दिए गए सही कारणों में एक तीसरा कारण जोड़ना चाहूंगा। कारण यह है कि हम यूक्लिडियन दूरी (या L2) का उपयोग करते हैं न कि मैनहट्टन की दूरी (या L1) की निकटता या त्रुटि के हमारे मानक माप के रूप में। यदि किसी के पास और कई संख्याएँ हैं , तो वह अनुमान लगाने के लिए एक एकल संख्या चाहता है , एक स्पष्ट धारणा उस संख्या को खोजने के लिए है जो उस 'त्रुटि ’को कम से कम करती है जो संख्या चुने गए संख्या और के बीच सबसे छोटा अंतर पैदा करती है संख्या जो डेटा का गठन करती है। गणितीय संकेतन में, किसी दिए गए त्रुटि फ़ंक्शन ई के लिए, एक को खोजने के लिए करना चाहता है मी मैं n θ एक्स 1 , ... एक्स nx1,xnθ । एक के लिए ई (एक्स, वाई) एल 2 आदर्श या दूरी, है कि लेता है( एक्स , वाई ) = ( एक्स - y ) 2 तो सब कुछ खत्म हो minimizer θ आर मतलब है। यदि कोई L1 या मैनहट्टन दूरी लेता है, तो सभी पर न्यूनतमminθR(E(θ,x1,xn)=minθR(i=1i=nE(θ,xi))E(x,y)=(xy)2θRθR मंझला है। इस प्रकार माध्य प्राकृतिक गणितीय विकल्प है - यदि कोई L2 दूरी का उपयोग कर रहा है!


6
चूँकि को मोटे तौर पर अपेक्षा को निरूपित करने के लिए उपयोग किया जाता है , मैं सुझाव देता हूं कि E के साथ, Err को प्रतिस्थापित करें । EEErr
रिचर्ड हार्डी

3
शायद यह ध्यान देने योग्य है कि x = 0 पर भिन्न होता है जबकि | x | नहीं है। मेरी राय में, यह एक सूक्ष्म लेकिन महत्वपूर्ण अंतर्निहित कारण है कि एमएसई एमएई की तुलना में गणितीय आंकड़ों के क्षेत्र में अधिक प्रचलित है। x2x=0|x|
Just_to_Answer

1
@Just_to_Answer - मुझे लगता है कि अभी तक एक और कारण है। मैंने वर्षों से इस बारे में बहुत सोचा है। मेरे लिए, मैंने निष्कर्ष निकाला है कि आप जो कहते हैं वह इस बात से जुड़ा है कि हम आम तौर पर यूक्लिडियन का उपयोग करते हैं और मैनहट्टन की दूरी का उपयोग नहीं करते हैं :)
aginensky

19

अक्सर औसत को माध्यिका पर चुना जाता है, क्योंकि यह अधिक प्रतिनिधि, मजबूत या अर्थपूर्ण नहीं है, लेकिन क्योंकि लोग अनुमान लगाने वाले के साथ अनुमान लगाते हैं। एक और तरीका रखो, कुछ लोग ब्याज की मात्रा के रूप में आबादी का मतलब चुनते हैं क्योंकि एक सामान्य वितरण के साथ नमूना माध्य नमूना माध्यिका की तुलना में अधिक सटीक है। इसके बजाय उन्हें अधिक सोचना चाहिए, जैसा कि आपने किया है, ब्याज की सही मात्रा के बारे में।

एक साइडबार: हमारे पास जनसंख्या के मध्यमान के लिए एक गैरपारंपरिक विश्वास अंतराल है, लेकिन जनसंख्या के औसत के लिए एक विश्वास अंतराल प्राप्त करने के लिए कोई गैरपारंपरिक विधि (शायद संख्यात्मक रूप से गहन अनुभवजन्य संभावना विधि के अलावा) नहीं है। यदि आप वितरण-मुक्त रहना चाहते हैं तो आप मंझले पर ध्यान केंद्रित कर सकते हैं।

ध्यान दें कि केंद्रीय सीमा प्रमेय अभी तक की तुलना में कम उपयोगी है, जैसा कि इस साइट पर कहीं और चर्चा की गई है। यह प्रभावी रूप से मानता है कि प्रसरण ज्ञात है या यह कि वितरण सममित है और इसका आकार ऐसा है कि नमूना प्रसरण फैलाव का प्रतिस्पर्धी आकलनकर्ता है।


2
मेरा मानना ​​है कि इस माध्य के लिए एक गैरपारंपरिक विश्वास अंतराल का निर्माण संभव है - एक क्रमचय परीक्षण के माध्यम से कहें (यह उदाहरण के लिए, किसी भी विशिष्ट कार्यात्मक रूप को ग्रहण किए बिना समरूपता की धारणा के तहत किया जा सकता है)। यह कुछ हद तक प्रतिबंधित स्थिति है, हालांकि यह समरूपता की तुलना में कुछ अन्य मान्यताओं के तहत भी संभव है। यदि आप अनुमानित कवरेज से निपटने के लिए तैयार हैं जो बूटस्ट्रैपिंग के साथ आता है, तो समरूपता जैसी मान्यताओं के बिना अपारदर्शी अंतराल प्राप्त कर सकते हैं।
Glen_b -Reinstate मोनिका

2
यदि यह समरूपता मानता है तो यह पैरामीट्रिक है। इसे गैर-सममित मामलों में विस्तारित नहीं देखा गया है। बूटस्ट्रैप (सभी वेरिएंट को छोड़कर, शायद स्टूडेंट टी विधि) गंभीर विषमता के तहत बेहद गलत है। आँकड़े
फ्रैंक

5
समरूपता परिमित-पैरामीट्रिक नहीं है। एक विलकॉक्सन हस्ताक्षरित रैंक परीक्षण शून्य के तहत समरूपता (संकेतों के विनिमेयता के क्रम में) को मानता है। आप उस पैरामीट्रिक को कॉल करेंगे?
Glen_b -Reinstate मोनिका


2
सममिति के बारे में @Glen_b प्रश्न पर - यह एक उत्कृष्ट प्रश्न है। विल्कोक्सन हस्ताक्षरित रैंक परीक्षण एक दिलचस्प मामला है क्योंकि, वायरलॉक्सन 2-नमूना परीक्षण के विपरीत, एक भारी समरूपता धारणा बनाता है। मुझे लगता है कि आप कह सकते हैं कि आप गैर-पैरामीट्रिक हो सकते हैं, जबकि अभी भी समरूपता जैसी किसी तरह की सामान्य धारणा की आवश्यकता है। शायद शब्दावली "प्रतिबंधों के साथ अपरंपरागत" होनी चाहिए? दूसरी ओर nonparametric 2-नमूना परीक्षण के संबंध में प्रतिबंध है जो टाइप II त्रुटि का अनुकूलन करता है (लेकिन टाइप I त्रुटि नहीं)।
फ्रैंक हरेल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.