कौन सा "मतलब" का उपयोग करने के लिए और कब?


197

तो हमारे पास अंकगणित माध्य (AM), ज्यामितीय माध्य (GM) और हार्मोनिक माध्य (HM) हैं। उनके गणितीय सूत्रीकरण को उनके संबंधित स्टीरियोटाइपिक उदाहरणों के साथ भी जाना जाता है (उदाहरण के लिए, हार्मोनिक माध्य और यह 'गति' संबंधित समस्याओं के लिए आवेदन है)।

हालांकि, एक सवाल जिसने मुझे हमेशा परेशान किया है, "मैं कैसे तय करता हूं कि किसी संदर्भ में उपयोग करने के लिए सबसे उपयुक्त कौन सा मतलब है?" प्रयोज्यता को समझने में मदद करने के लिए अंगूठे का कम से कम कुछ नियम होना चाहिए और अभी तक सबसे आम जवाब जो मुझे आया है वह है: "यह निर्भर करता है" (लेकिन किस पर?)।

यह एक बल्कि तुच्छ प्रश्न लग सकता है, लेकिन हाई-स्कूल ग्रंथ भी यह समझाने में असफल रहे - वे केवल गणितीय परिभाषाएँ प्रदान करते हैं!

मैं एक गणितीय एक से अधिक अंग्रेजी स्पष्टीकरण पसंद करता हूं - सरल परीक्षा होगी "क्या आपकी माँ / बच्चा इसे समझेंगे?"


20
यह शायद ओवरसाइम्पलाइज़ करता है, लेकिन मैंने हमेशा रेंज और अवलोकनों का उपयोग किया है। यदि रेंज समान है तो AM = (स्कोर 0-100 की तुलना, 0-100 तक), यदि रेंज अलग है, लेकिन अवलोकन समान है = जीएम (स्कोर 1-5, 0-10 से तुलना करें), यदि रेंज समान है, लेकिन अवलोकन अलग-अलग = एचएम (अलग-अलग अवलोकन पर एक कार की गति, दो सीढ़ी की ऊंचाई, अन्य "दर")।
ब्रैंडन बर्टेल्सन

> "यह निर्भर करता है" (लेकिन किस पर?) यह डेटा प्रोसेसिंग एल्गोरिथ्म पर निर्भर करता है।
मैकसन

यह सिर्फ एक विकल्प नहीं है जिसका उपयोग करना है। यह जनसंख्या की रुचि या प्रक्रिया का वर्णन करने के लिए सारांश आंकड़ों के किस समूह का एक विकल्प है। किसी को यह नहीं सोचना चाहिए कि शायद यह सब एक बड़ी जटिलता का वर्णन करने के लिए एकल संख्या है।
जिम '14

जवाबों:


160

यह उत्तर आपके द्वारा खोजे जाने से थोड़ा अधिक गणितीय मोड़ हो सकता है।

पहचानने के लिए महत्वपूर्ण बात यह है कि ये सभी साधन केवल भेस में अंकगणित का मतलब हैं

तीन सामान्य साधनों (अंकगणित, ज्यामितीय या हार्मोनिक) की पहचान करने में जो (यदि कोई हो!) महत्वपूर्ण विशेषता "सही" का अर्थ है हाथ में प्रश्न में "योजक संरचना" खोजना।

दूसरे शब्दों में, मान लें कि हमें कुछ सार मात्राएँ दी गई हैं , जिन्हें मैं "माप" कहूँगा, कुछ हद तक यह शब्द निरंतरता के लिए नीचे का दुरुपयोग है। इन तीन साधनों में से प्रत्येक को (1) प्रत्येक को कुछ में परिवर्तित , (2) अंकगणित माध्य में ले जा सकते हैं और फिर (3) माप के मूल पैमाने पर वापस परिवर्तित कर सकते हैं।x i y iएक्स1,एक्स2,...,एक्सnएक्समैंyमैं

अंकगणित का अर्थ है : जाहिर है, हम "पहचान" परिवर्तन का उपयोग करते हैं: । तो, चरण (1) और (3) तुच्छ हैं (कुछ भी नहीं किया गया है) और ।A x A M = ˉ yyमैं=एक्समैंएक्स¯=y¯

जियोमेट्रिक माध्य : यहाँ मूल संरचना मूल रूप से लघुगणक पर है। तो, हम ले और फिर चरण में जीएम प्राप्त करने के लिए (3) हम का प्रतिलोम समारोह के माध्यम से वापस परिवर्तित , यानी, । लोग इन ˉ एक्स जी एम = exp ( ˉ y )yमैं=लॉग इन करेंएक्समैंलॉग इन करेंएक्स¯जी=exp(y¯)

हार्मोनिक का अर्थ है : यहां जोड़ात्मक संरचना हमारी टिप्पणियों के पारस्परिक पर है । तो, , जिस कारण से ।ˉ एक्स एच एम = 1 / ˉ yyमैं=1/एक्समैंएक्स¯एच=1/y¯

शारीरिक समस्याओं में, ये अक्सर निम्नलिखित प्रक्रिया के माध्यम से उत्पन्न होती हैं: हमारे पास कुछ मात्रा जो हमारे माप और कुछ अन्य मात्राओं के संबंध में निश्चित रहती है , कहते हैं । अब, हम निम्नलिखित गेम खेलते हैं: और स्थिर रखें और कुछ को खोजने का प्रयास करें, ताकि यदि हम अपने प्रत्येक व्यक्ति के को , तो "कुल" संबंध अभी भी संरक्षित है।एक्स 1 , ... , एक्स एन जेड 1 , ... , जेड एन डब्ल्यू जेड 1 + + z n ˉ एक्स एक्स मैं ˉ एक्सwएक्स1,...,एक्सnz1,...,znwz1++znएक्स¯एक्समैंएक्स¯

दूरी-वेग-समय का उदाहरण लोकप्रिय प्रतीत होता है, इसलिए इसका उपयोग करते हैं।

लगातार दूरी, अलग-अलग समय

तय की गई दूरी पर विचार करें । अब मान लीजिए कि हम यात्रा इस दूरी गति पर अलग अलग समय , बार लेने । हम अब अपना खेल खेलते हैं। मान लीजिए कि हम अपने व्यक्तिगत वेगों को कुछ निश्चित वेग से बदलना चाहते हैं, ताकि कुल समय स्थिर रहे। ध्यान दें कि हमारे पास इसलिए उस । हम चाहते हैं कि यह कुल संबंध (कुल समय और कुल दूरी की यात्रा) संरक्षित हो जब हम अपने खेल में से प्रत्येक को से बदलें । इसलिए, एन वी 1 , ... , वी एन टी 1 , ... , टी एन ˉ वी डी - वी मैं टी मैं = 0nv1,,vnt1,,tnv¯Σ मैं ( - वी मैं टी मैं ) = 0 वी मैं ° वी एन डी - ˉ वी Σ मैं टी मैं = 0

dviti=0,
i(dviti)=0viv¯टी मैं = / वी मैं ° v = n
ndv¯iti=0,
और चूंकि प्रत्येक , हम उस ti=d/vi
v¯=n1v1++1vn=v¯HM.

ध्यान दें कि यहां "योगात्मक संरचना" व्यक्तिगत समय के संबंध में है, और हमारे माप उनके विपरीत हैं, इसलिए हार्मोनिक माध्य लागू होता है।

निरंतर दूरी, निरंतर समय

अब, स्थिति को बदलते हैं। मान लीजिए कि उदाहरणों के लिए हम एक निश्चित समय को वेग से अधिक दूरी । अब, हम कुल दूरी को संरक्षित करना चाहते हैं। हमारे पास और कुल प्रणाली संरक्षित है अगर । हमारे खेल को फिर से खेलते हुए, हम एक तलाश करते हैं, जैसे कि लेकिन, चूंकि , हम उस ntv1,,vnd1,,dn

मैं-vमैंटी=0,
Σमैं(मैं-vमैंटी)=0v¯
Σमैं(मैं-v¯टी)=0,
मैं=vमैंटी
v¯=1nΣमैंvमैं=v¯

यहां हम जो जोड़-तोड़ की संरचना बनाए रखने की कोशिश कर रहे हैं, वह हमारे पास माप के समानुपाती है, इसलिए अंकगणितीय माध्य लागू होता है।

समान मात्रा घन

मान लीजिए कि हमने एक दिए गए वॉल्यूम साथ -dimensional बॉक्स का निर्माण किया है और हमारे माप बॉक्स की साइड-लेंथ हैं। तब और मान लें कि हम एक ही वॉल्यूम के साथ -dimensional (हाइपर) क्यूब बनाना चाहते थे । यही है, हम अपने व्यक्तिगत पक्ष-लंबाई को एक सामान्य पक्ष-लंबाई द्वारा प्रतिस्थापित करना चाहते हैं । फिर nवी

वी=एक्स1एक्स2एक्सn,
nएक्समैंएक्स¯
वी=एक्स¯एक्स¯एक्स¯=एक्स¯n

यह आसानी से इंगित करता है कि हमें ।एक्स¯=(एक्समैंएक्सn)1/n=एक्स¯जी

ध्यान दें कि योजक संरचना logarithms में है, अर्थात, और हम बाएं हाथ की मात्रा को संरक्षित करने का प्रयास कर रहे हैं।लॉग इन करेंवी=Σमैंलॉग इन करेंएक्समैं

नए का मतलब पुराने से है

एक अभ्यास के रूप में, इस बारे में सोचें कि "प्राकृतिक" का मतलब उस स्थिति में है जहां आपने दोनों दूरी और समय पहले उदाहरण में भिन्न होते हैं। यही कारण है कि हम दूरी है, , वेग और कई बार । हम कुल दूरी और समय की सुरक्षा करना चाहते हैं और इसे प्राप्त करने के लिए एक निरंतर खोजते हैं।v i t t i vमैंvमैंटीमैंv¯

व्यायाम : इस स्थिति में "प्राकृतिक" का क्या मतलब है?


25
+1 यह एक बेहतरीन जवाब है। हालांकि, मुझे लगता है कि यह एक महत्वपूर्ण तरीके से अधूरा है: कई मामलों में उपयोग करने का सही मतलब उस प्रश्न से निर्धारित होता है जिसे हम डेटा में किसी गणितीय संरचना के बजाय जवाब देने की कोशिश कर रहे हैं । इसका एक अच्छा उदाहरण पर्यावरण जोखिम मूल्यांकन में होता है: नियामक अधिकारी समय के साथ दूषित आबादी के कुल जोखिम का अनुमान लगाना चाहते हैं। इसके लिए उचित रूप से भारित अंकगणित माध्य की आवश्यकता होती है, भले ही पर्यावरणीय सांद्रता डेटा में आमतौर पर एक गुणा संरचना हो। ज्यामितीय माध्य गलत अनुमानक या अनुमानक होगा।
whuber

7
@whuber: (+1) यह एक उत्कृष्ट टिप्पणी है। एक उत्तर के निर्माण के अपने रास्ते पर, मैंने एक निश्चित रूप से गैर-अस्थिर कांटा लिया, इसलिए मुझे खुशी है कि आपने इसका उल्लेख किया है। यह एक पूर्ण उत्तर ( संकेत ) के योग्य विषय है ।
कार्डिनल

9
@ वाउचर: यह इस तथ्य (शायद अनायास ही) को भी सामने लाता है, कि सांख्यिकीय विश्लेषण अक्सर किए जा सकते हैं, जो डोमेन विशेषज्ञों की निगरानी के अधीन हो सकते हैं (या, शायद आपके उदाहरण में, यहां तक ​​कि कोई नहीं), जो अपने डोमेन के बारे में सार्थक अनुमान लगाना चाहते हैं लेकिन लगभग पूरी तरह से अप्राकृतिक रूप से सांख्यिकीय। इस मुद्दे को मैंने अतीत में चलाया है कि वे कभी-कभी उस तरीके को भी निर्धारित करना चाहते हैं जिससे सांख्यिकीय आकलन किया जाता है! :)
कार्डिनल

1
अगर आप कुछ विस्तार के साथ उस दृष्टिकोण को उत्तर में भी जोड़ सकते हैं, तो यह बहुत सराहा जाएगा। ईमानदारी से, आपका स्पष्टीकरण सबसे अच्छे में से एक है जो मैंने स्टैटस पर देखा है।
पीएचडी

3
@Whuber से हमेशा की तरह शानदार टिप्पणी। कभी-कभी (शायद अक्सर!) उपयोग करने का सही मतलब कोई नहीं है ; बल्कि, सवाल अक्सर "क्या केंद्रीय प्रवृत्ति का उपयोग करना चाहिए?"
पीटर Flom

43

@ब्रांडन की उत्कृष्ट टिप्पणी पर विस्तार (जो मुझे लगता है कि जवाब देने के लिए प्रचार किया जाना चाहिए):

जब आप गुणात्मक अंतरों में रुचि रखते हैं तो ज्यामितीय माध्य का उपयोग किया जाना चाहिए। ब्रैंडन नोट करता है कि जब सीमा भिन्न होती है तो ज्यामितीय माध्य का उपयोग किया जाना चाहिए। यह आमतौर पर सही है। कारण यह है कि हम श्रेणियों को बराबर करना चाहते हैं। उदाहरण के लिए, मान लें कि कॉलेज के आवेदकों को SAT स्कोर (0 से 800), एचएस (0 से 4) में ग्रेड प्वाइंट एवरेज और एक्स्ट्रा करिकुलर एक्टिविटीज (1 से 10) पर रेट किया गया है। यदि कोई कॉलेज इनको औसत करना चाहता है और श्रेणियों के बराबर है (अर्थात, श्रेणी के सापेक्ष प्रत्येक गुणवत्ता में वजन बढ़ता है) तो ज्यामितीय माध्य जाने का रास्ता होगा।

लेकिन यह हमेशा सच नहीं होता है जब हमारे पास विभिन्न श्रेणियों के साथ पैमाने होते हैं। यदि हम विभिन्न देशों (गरीब और अमीर लोगों सहित) में आय की तुलना कर रहे थे, तो हम शायद ज्यामितीय माध्य नहीं चाहेंगे, लेकिन अंकगणित माध्य (या, अधिक संभावना है, मंझला या शायद एक छंटनी का मतलब)।

केवल हार्मोनिक माध्य के लिए मैंने जो उपयोग किया है, वह दरों की तुलना करने के लिए है। एक उदाहरण के रूप में: यदि आप न्यूयॉर्क से बोस्टन तक 40 एमपीएच पर ड्राइव करते हैं, और 60 एमपीएच पर लौटते हैं, तो आपका समग्र औसत 50 एमपीएच का अंकगणितीय मतलब नहीं है, लेकिन हार्मोनिक मतलब है।

(40+60)/2=502/(1/40+1/60)=48

240/5=48


3
आपके एसएटी / जीपीए / एक्स्ट्रा करिकुलर उदाहरण एक भारित या स्केल अंकगणित के बजाय एक ज्यामितीय माध्य का उपयोग क्यों करेंगे? शून्य के SAT या GPA का अर्थ यह क्यों होना चाहिए कि अन्य दो मूल्य अप्रासंगिक हो जाते हैं (जैसा कि एक ज्यामितीय माध्य होगा)? और क्या होगा अगर (कहें) असाधारण-गतिविधियाँ इसकी सैद्धांतिक सीमा की तुलना में बहुत संकरी पट्टी में क्लस्टर होती हैं? ऐसा लगता है कि कच्चे मानों के एक ज्यामितीय माध्य से प्रतिशत (या अन्य समायोजित मूल्यों) के अंकगणित माध्य लेने के लिए यह अधिक समझ में आता है।
खंड

1
@ruakh दिलचस्प। इस मामले में 0 मुद्दा वास्तव में मायने नहीं रखता है, क्योंकि SAT और GPA वास्तव में 0 नहीं हो सकते हैं (SAT = 0 लगभग असंभव है, और 0 का GPA स्नातक नहीं होगा)। मुझे लगता है कि प्रतिशत का एक अंकगणितीय माध्य इसके निष्कर्ष में ज्यामितीय माध्यम के करीब होगा (भले ही वास्तविक एप्लिकेशन में नहीं है)।
पीटर Flom

31

मैं इसे अंगूठे के 3-4 नियमों के साथ उबालने की कोशिश करूंगा और पायथागॉरियन साधनों के कुछ और उदाहरण प्रदान करूंगा।

3 साधनों के बीच संबंध कुछ भिन्नता वाले गैर-नकारात्मक डेटा के लिए HM <GM <AM है । यदि नमूना डेटा में कोई भिन्नता नहीं है, तो वे और केवल तभी समान होंगे।

स्तरों में डेटा के लिए, AM का उपयोग करें। कीमतें एक अच्छा उदाहरण हैं। अनुपात के लिए, जीएम का उपयोग करें। निवेश रिटर्न, ब्लूमबर्ग बिली इंडेक्स की तरह रिश्तेदार की कीमतें (यूएस मूल्य की तुलना में विभिन्न देशों में आइकिया बिली बुकशेल्फ़ की कीमत) और संयुक्त राष्ट्र के मानव विकास सूचकांक सभी उदाहरण हैं। दरों के साथ काम करते समय एचएम उपयुक्त है। डेविड गैल्स के सौजन्य से एक गैर-मोटर वाहन उदाहरण है :

उदाहरण के लिए, "प्रति सप्ताह काम किए गए घंटे" (एक दर) पर विचार करें। मान लीजिए कि हमारे पास चार लोग हैं (नमूना अवलोकन), जिनमें से प्रत्येक कुल 2,000 घंटे काम करते हैं। हालांकि, वे प्रति सप्ताह घंटों की विभिन्न संख्याओं के लिए काम करते हैं, इस प्रकार है:

Person      Total Hours       Hours per Week          Weeks Taken
1                  2,000                  40                   50
2                  2,000                  45                   44.4444
3                  2,000                  35                   57.142857
4                  2,000                  50                   40

Total:           8,000                                       191.587297

तीसरे कॉलम में मानों का अंकगणित औसत प्रति सप्ताह AM = 42.5 घंटे है। हालाँकि, ध्यान दें कि यह मान क्या है। इस औसत मूल्य द्वारा नमूना सदस्यों (8,000) द्वारा काम किए गए हफ्तों की कुल संख्या को विभाजित करने से 188.2353 का मूल्य प्राप्त होता है क्योंकि सभी चार लोगों द्वारा काम किए गए हफ्तों की कुल संख्या।

अब उपरोक्त तालिका के अंतिम कॉलम को देखें। वास्तव में नमूना सदस्यों द्वारा काम किए गए हफ्तों की कुल संख्या का सही मूल्य 191.5873 सप्ताह है। यदि हम तालिका के तीसरे कॉलम में घंटे प्रति सप्ताह मान के लिए हार्मोनिक माध्य की गणना करते हैं, तो हमें HM = 41.75642 घंटे (<AM) मिलते हैं, और इस संख्या को 8,000 घंटों में विभाजित करने से हमें कुल संख्या के लिए 191.553 का सही परिणाम मिलता है। हफ्तों तक काम किया। यहां एक मामला है जहां हार्मोनिक मीन नमूना औसत के लिए उचित उपाय प्रदान करता है।

डेविड 3 साधनों के भारित संस्करण की भी चर्चा करता है, जो मुद्रास्फीति को मापने के लिए उपयोग किए जाने वाले मूल्य सूचकांकों में आते हैं।

एक अपहरणकर्ता पक्ष:

ये ROT सही नहीं हैं। उदाहरण के लिए, मुझे अक्सर यह पता लगाने में मुश्किल होती है कि क्या कोई दर या अनुपात है। एक निवेश पर रिटर्न का अर्थ आमतौर पर एक अनुपात के रूप में किया जाता है जब गणना का मतलब होता है, लेकिन वे एक दर भी होते हैं क्योंकि उन्हें आमतौर पर "x% प्रति यूनिट समय" में दर्शाया जाता है। क्या "एचएम का उपयोग तब किया जाएगा जब डेटा प्रति यूनिट के स्तर" एक बेहतर विधर्मी होगा?

यदि आप उत्तरी यूरोपीय देशों के लिए बिग मैक इंडेक्स को संक्षेप में प्रस्तुत करना चाहते हैं, तो क्या आप जीएम का उपयोग करेंगे?


3
कुछ साल देर से, लेकिन क्या आपने कभी अपने सवाल का जवाब फिर से पाया: "यदि आप उत्तरी यूरोपीय देशों के लिए बिग मैक इंडेक्स को संक्षेप में प्रस्तुत करना चाहते थे, तो क्या आप जीएम का उपयोग करेंगे?" ?
स्टैटसकेड

2
@StatsScared नोप, लेकिन यह एक अच्छा सवाल होगा!
दिमित्री वी। मास्टरोव

7

आपके प्रश्न का एक संभावित उत्तर ("मैं कैसे तय करता हूं कि किसी दिए गए संदर्भ में उपयोग करने के लिए कौन सा अर्थ सबसे उपयुक्त है?") मतलब की परिभाषा इतालवी गणितज्ञ ऑस्कर चिसिनी द्वारा दी गई है ।

यहां एक अधिक विस्तृत स्पष्टीकरण और कुछ उदाहरणों के साथ एक पेपर है (मतलब यात्रा की गति और अन्य)।


6
यह आदर्श हो सकता है यदि आप लिंक को मृत करने की स्थिति में यहाँ चासिनी की परिभाषा के बारे में कुछ पंक्तियाँ जोड़ सकते हैं, और पाठकों को यह जानने में मदद कर सकते हैं कि क्या वे विचारों को आगे बढ़ाने के लिए लिंक पर क्लिक करना चाहते हैं।
गुंग

2
दरअसल, पेपर का लिंक मृत है। वुल्फ्राम लिंक इस बात की कोई जानकारी नहीं देता है कि किस प्रकार चिनिनी परिभाषा यह निर्धारित करने के लिए उपयोगी है कि दिए गए संदर्भ में किसका उपयोग करना है; यह केवल एक गणितीय सामान्यीकरण के रूप में मुझे लगता है कि उपयोग के नुस्खे के विपरीत है।
रयान सीमन्स

1
डीओआई का उपयोग करके, कोई यह देख सकता है कि पेपर tandfonline.com पर चला गया है। प्रशस्ति पत्र: आर ग्राज़ियानी, पी वेरोनीज़ (2009)। माध्य की गणना कैसे करें? चिसिनी दृष्टिकोण और इसके अनुप्रयोग। अमेरिकी सांख्यिकीविद् 63 (1), पीपी। 33-36। tandfonline.com/doi/abs/10.1198/tast.2009.0006
akraf

0

मुझे लगता है कि सवाल का जवाब देने का एक सरल तरीका होगा:

  1. यदि गणितीय संरचना xy = k है (चर के बीच एक व्युत्क्रम संबंध) और आप एक औसत की तलाश कर रहे हैं, तो आपको हार्मोनिक माध्य का उपयोग करने की आवश्यकता है - जो एक भारित अंकगणितीय माध्य की मात्रा में है - विचार करें

हार्मोनिक औसत = 2ab / (a ​​+ b) = a (b / a + b) + b (a / (a ​​+ b)

उदाहरण के लिए: डॉलर की लागत इस श्रेणी में आती है क्योंकि आपके द्वारा निवेश की जा रही राशि (ए) निश्चित रहती है, लेकिन प्रति शेयर की कीमत (पी) और शेयरों की संख्या (एन) भिन्न होती है (ए = पीएन)। वास्तव में, यदि आप एक अंकगणितीय औसत को दो संख्याओं के बीच समान रूप से केंद्रित संख्या के रूप में समझते हैं, तो हार्मोनिक औसत भी एक संख्या है जो दो संख्याओं के बीच केंद्रित है लेकिन (यह अच्छा है) "केंद्र" वह जगह है जहाँ प्रतिशत (अनुपात) हैं बराबरी का। वह है: (एक्स - ए) / ए (बी-एक्स) / बी, जहां एक्स हार्मोनिक औसत है।

  1. यदि गणितीय संरचना प्रत्यक्ष भिन्नता y = kx है, तो आप अंकगणित माध्य का उपयोग करते हैं - जो कि इस मामले में हार्मोनिक माध्य कम करता है।

1
$x$एक्स\frac{a}{b}

मान लें कि आप कई अलग-अलग मॉडलों की संभावनाओं को औसत से जोड़ना चाहते हैं। उस मामले में क्या यह कभी भी ज्यामितीय या हार्मोनिक माध्य का उपयोग करने के लिए समझ में आता है?
Thecity2
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.