क्या एक से अधिक "माध्यिका" सूत्र है?


16

मेरे काम में, जब लोग किसी डेटा सेट के "माध्य" मान को संदर्भित करते हैं, तो वे आम तौर पर अंकगणित माध्य (यानी "औसत", या "अपेक्षित मूल्य") का उल्लेख करते हैं। यदि मैंने ज्यामितीय माध्य प्रदान किया है, तो लोग यह सोचेंगे कि मैं स्नाइड या गैर-सहायक हो रहा हूं, क्योंकि "मीन" की परिभाषा पहले से ज्ञात है।

मैं यह निर्धारित करने की कोशिश कर रहा हूं कि क्या डेटा सेट के "माध्यिका" की कई परिभाषाएं हैं। उदाहरण के लिए, एक सहकर्मी द्वारा प्रदान की गई परिभाषाओं में से एक समान तत्वों के साथ सेट किए गए डेटा का माध्य खोजने के लिए होगा:

एल्गोरिथम 'ए'

  • तत्वों की संख्या को दो से विभाजित करें, नीचे गोल करें।
  • वह मान माध्यिका का सूचकांक है।
  • यानी निम्नलिखित सेट के लिए, माध्यिका होगी 5
  • [4, 5, 6, 7]

यह समझ में आता है, हालांकि गोलाई-डाउन पहलू थोड़ा मनमाना लगता है।

एल्गोरिथम 'बी'

किसी भी मामले में, एक अन्य सहयोगी ने एक अलग एल्गोरिथ्म का प्रस्ताव दिया है, जो कि एक सांख्यिकी पाठ्यपुस्तक में था (नाम और लेखक को प्राप्त करने की आवश्यकता है):

  • तत्वों की संख्या 2 से विभाजित करें, और राउंड-अप और राउंड-डाउन पूर्णांक की एक प्रति रखें। उनका नाम n_loऔर n_hi
  • तत्वों का अंकगणित माध्य लो n_loऔर n_hi
  • यानी निम्नलिखित सेट के लिए, माध्यिका होगी (5+6)/2 = 5.5
  • [4, 5, 6, 7]

हालांकि यह गलत लगता है, क्योंकि 5.5इस मामले में औसत मूल्य वास्तव में मूल डेटा सेट में नहीं है। जब हमने कुछ परीक्षण कोड में 'बी' के लिए एल्गोरिदम 'ए' को स्वैप किया, तो यह बुरी तरह से टूट गया (जैसा कि हमें उम्मीद थी)।

सवाल

क्या डेटा सेट के माध्य की गणना करने के लिए इन दो तरीकों के लिए एक औपचारिक "नाम" है? यानी "कम-से-दो माध्यिका" बनाम "औसत-मध्यम-तत्वों और बनाने-नए-नए डेटा मध्यस्थ"?


16
मैंने एल्गोरिथ्म "ए" को कभी माध्यिका नहीं माना है। यह एक समस्या नहीं होनी चाहिए कि डेटा की केंद्रीय प्रवृत्ति का एक वर्णनात्मक आंकड़ा स्वयं डेटा के बीच नहीं है: आखिरकार, अधिकांश साधन डेटा में नहीं हैं, या तो। एक अधिक मौलिक संपत्ति जो हम चाहते हैं कि मंझला है कि जब डेटा का क्रम उलट जाता है तो यह नहीं बदलता है, क्योंकि डेटा को सबसे छोटे से सबसे बड़े या सबसे बड़े से लेकर सबसे छोटे तक ऑर्डर करना स्वाद का एक मनमाना मामला है। इस कारण से अधिकांश लेखक एल्गोरिथ्म "बी" के रूप में माध्य को परिभाषित करते हैं, क्योंकि यह अब तक का सबसे सरल संभव क्रम-अपरिवर्तनीय प्रक्रिया है।
whuber

3
@whuber एल्गोरिथ्म 'ए' को कभी - कभी निम्न-मध्यिका कहा जाता है । वहाँ भी एक इसी उच्च मंझला है। आमतौर पर माध्यिका दो का औसत होता है (जो माध्यिका पर गणना की जाती है, उसमें से एक तत्व हो सकता है या नहीं)।
user603

8
टिप्पणी को दोहराने के लिए एक अच्छा समय और स्थान है कि दो केंद्रीय मूल्यों को एक समान संख्या में टिप्पणियों के साथ देखा जाता है - जैसे 3 और 4 में 1, 2, 3, 4, 5, 6 - को कॉमेडियन माना जाता है (स्वतंत्र रूप से एसएम स्टिग्लर, आर। कोएन्कर, और दूसरों पर कोई संदेह नहीं)।
निक कॉक्स

3
क्या दोनों एल्गोरिदम डेटा को सॉर्ट करने के महत्वपूर्ण चरण को याद नहीं कर रहे हैं?
एमिल

3
यदि आपको हमेशा डेटा सेट का एक तत्व होने के लिए अपने "माध्यिका" की आवश्यकता होती है, तो आप वास्तव में एक मेडॉइड की तलाश में हो सकते हैं ।
इल्मरी करोनें

जवाबों:


23

टीएल; डीआर - मुझे विशिष्ट नामों के बारे में पता नहीं है जो नमूना मध्यस्थों के विभिन्न अनुमानकों को दिए जा रहे हैं। कुछ आंकड़ों से नमूना आंकड़ों का अनुमान लगाने की विधियां उधम मचाती हैं और विभिन्न संसाधन विभिन्न परिभाषाएं देते हैं।

गणितीय सांख्यिकी के हॉग, मैककेन और क्रेग के परिचय में , लेखक यादृच्छिक नमूनों के मध्यस्थों की एक परिभाषा प्रदान करते हैं , लेकिन केवल इस मामले में कि विषम संख्या में नमूने हैं! लेखक लिखते हैं

nY(n+1)/2

Yमैंमैं

n

एल्गोरिथम बी की संपत्ति है कि आधा डेटा मूल्य से ऊपर गिरता है, और आधा डेटा मूल्य से नीचे आता है। एक यादृच्छिक चर के माध्य की परिभाषा के प्रकाश में , यह अच्छा लगता है।


चाहे कोई विशेष अनुमानक तोड़ता है या नहीं, इकाई परीक्षण इकाई परीक्षणों की एक संपत्ति है - एक विशिष्ट अनुमानक के खिलाफ लिखी गई इकाई परीक्षण आवश्यक रूप से तब आयोजित नहीं होगा जब आप किसी अन्य अनुमानक को प्रतिस्थापित करते हैं। आदर्श मामले में, यूनिट परीक्षणों को चुना गया क्योंकि वे आपके संगठन की महत्वपूर्ण आवश्यकताओं को दर्शाते हैं, न कि परिभाषाओं के लिए एक सिद्धांतवाद तर्क के कारण।


2
(+1) हम इसे भी जोड़ सकते हैं (1) जब मान वज़न के साथ आते हैं तो सिद्धांत रूप में और व्यवहार में मध्यस्थों की परिभाषा को भी कवर करना चाहिए। (अब तक के उत्तरों में स्पष्ट रूप से, सभी भार बराबर हैं, इसलिए सारहीन है।) जबकि भार के संचयी योग में रैखिक प्रक्षेप सबसे सरल है, ऐसी परिस्थितियां हैं जहां अन्य प्रकार के प्रक्षेप का अर्थ हो सकता है। (2) माध्य की अधिक कठोर परिभाषाएँ आमतौर पर असतत और निरंतर और संकर वितरण को समान रूप से कवर करने के लिए होती हैं, जिनमें कहीं न कहीं प्रायिकता भी होती है।
निक कॉक्स

25

@ साइकोरेक्स क्या कहता है।

तथ्य की बात के रूप में, सामान्य मात्राओं की आश्चर्यजनक रूप से कई परिभाषाएं हैं, इसलिए विशेष रूप से मध्यस्थों की भी। Hyndman & Fan (1996, द अमेरिकन स्टेटिस्टिशियन ) एक संक्षिप्त विवरण देता है, जो कि AFAIK, अभी भी व्यापक है। विभिन्न प्रकार के औपचारिक नाम नहीं हैं। आपको बस स्पष्ट करने की आवश्यकता हो सकती है कि आप किस प्रकार का उपयोग कर रहे हैं। (यह अक्सर यथार्थवादी आकारों के डेटा सेट के साथ बड़ा अंतर नहीं करता है।)

ध्यान दें कि यह आम तौर पर एक मान के लिए स्वीकार किया जाता है जो डेटा सेट में मौजूद नहीं है, जैसे कि माध्य, उदाहरण के लिए 5.5, (4, 5, 6, 7)। यह R के लिए डिफ़ॉल्ट व्यवहार है:

> median(4:7)
[1] 5.5

आर के median()डिफ़ॉल्ट का उपयोग करता है के द्वारा Hyndman और फैन के वर्गीकरण के 7 टाइप करें।


6
+1 के लिए "यह अक्सर यथार्थवादी आकारों के डेटा सेट के साथ बड़ा अंतर नहीं करता है।" मैं चुरा लूंगा, मेरे सामान्य के बजाय "अगर इससे कोई फर्क पड़ता है, तो आपको शायद अधिक डेटा की आवश्यकता होगी।" :)
जेसन

1
यदि आपके पास 0, 1 (कहते हैं) और समान रूप से कई 0s और 1s (0.5 के करीब का मतलब है) के साथ एक द्विआधारी चर है, तो बड़े नमूना आकार जरूरी 0, 0.5 और 1 के बीच आगे और पीछे की ओर रिपोर्ट किए गए मंझला फ्लिप करना बंद नहीं करेगा। एस्टर और टुकी ( डेटा विश्लेषण और प्रतिगमन 1977) दृढ़ता से द्विपाद और लगभग सममित वितरण को उन मामलों के रूप में उद्धृत करते हैं जहां माध्य विशेष रूप से अच्छा व्यवहार नहीं कर सकता है।
निक कॉक्स

3

R के madफ़ंक्शन में, यह आपके एल्गोरिदम A का वर्णन करने के लिए "lo-median" का उपयोग करता है, इसके बजाय राउंडिंग का वर्णन करने के लिए "hi-median", और आपके एल्गोरिदम B का वर्णन करने के लिए सिर्फ "median" (जो, जैसा कि दूसरों ने नोट किया है, अब तक है। सबसे आम परिभाषा)।

उत्सुकता से, आर के median()फ़ंक्शन पर ऐसा कोई विकल्प नहीं है ! (लेकिन आर के quantile()है typeठीक नियंत्रण के लिए।)

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.