केंद्रीयता की तुलना में कम फैलाव के उपाय क्यों हैं?


11

हमारी मानवीय समझ में कुछ ऐसा प्रतीत होता है जो सहज रूप से विचरण के विचार को समझने में कठिनाई पैदा करता है। एक संकीर्ण अर्थ में उत्तर तत्काल है: स्क्वेरिंग हमें अपनी प्रतिवर्तवादी समझ से दूर फेंक देता है। लेकिन, क्या यह केवल भिन्नता है जो समस्याओं को प्रस्तुत करती है, या क्या यह डेटा में प्रसार का पूरा विचार है? हम रेंज में शरण लेना चाहते हैं, या सिर्फ न्यूनतम और अधिकतम बताते हुए, लेकिन क्या हम सिर्फ वास्तविक कठिनाई से बच रहे हैं? माध्य (मोड या मध्यिका) में हम केंद्र, सारांश ... एक सरलीकरण पाते हैं; विचरण चीजों को चारों ओर फैलाता है और उन्हें असहज बनाता है। आदिम आदमी निश्चित रूप से जानवरों को शिकार करने के लिए प्रार्थना करने के लिए त्रिकोणीय बनाकर इसका उपयोग करेगा, लेकिन मुझे लगता है कि यह बहुत बाद में था कि हमें चीजों के प्रसार की मात्रा निर्धारित करने की आवश्यकता महसूस हुई। वास्तव में, शब्द विचरण को सबसे पहले 1918 में रोनाल्ड फिशर द्वारा प्रस्तुत किया गया था, जैसा कि हाल ही में पेपर में लिखा गया है "द रिलेशन फ्रॉम रिलेटिव्स ऑन द सप्लिमेंट ऑफ मेंडेलियन इनहेरिटेंस।"

ज्यादातर लोग जो इस खबर का अनुसरण करते हैं, उन्होंने लैरी समर्स की दुर्भाग्यपूर्ण कहानी के बारे में सुना होगा जो कि लिंग द्वारा गणित के दृष्टिकोण के बारे में दुर्भाग्यपूर्ण भाषण देते थे, जो संभवतः हार्वर्ड से उनके जाने से संबंधित थे। संक्षेप में, उन्होंने महिलाओं की तुलना में पुरुषों के बीच गणित योग्यता के वितरण में व्यापक बदलाव का सुझाव दिया, भले ही दोनों लिंगों ने एक ही अर्थ का आनंद लिया। उपयुक्तता या राजनीतिक निहितार्थों के बावजूद, यह वैज्ञानिक साहित्य में प्रमाणित होता है

इससे भी महत्वपूर्ण बात यह है कि शायद जलवायु परिवर्तन जैसे मुद्दों की समझ - कृपया मुझे उन विषयों को लाने के लिए क्षमा करें, जो विचार-विमर्श के लिए पूरी तरह से अनसुना कर सकते हैं - सामान्य लोगों द्वारा विचरण के विचार से बेहतर परिचित द्वारा सहायता प्राप्त की जा सकती है।

जब हम इस पोस्ट में दिखाए गए हैं, तो इस मुद्दे को जटिल बना दिया जाता है , जैसा कि इस पोस्ट में दिखाया गया है , यहाँ @whuber द्वारा एक शानदार और रंगीन उत्तर दिया गया है

हो सकता है कि इस प्रश्न को बहुत सामान्य मानकर खारिज कर दिया जाए, लेकिन यह स्पष्ट है कि हम इस पर अप्रत्यक्ष रूप से चर्चा कर रहे हैं, जैसे कि इस पोस्ट में , जहां गणित तुच्छ है, फिर भी यह अवधारणा मायावी बनी हुई है, रेंज की अधिक आरामदायक स्वीकृति के रूप में अधिक बारीक विचार विचरण का विरोध किया ।

फिशर से EBFord के एक पत्र में , मेंडेलियन प्रयोगों पर उनके संदेह के विवाद का जिक्र करते हुए, हमने पढ़ा: "अब, जब डेटा फ़ेक हो गया था, मुझे अच्छी तरह से पता है कि आमतौर पर लोग व्यापक अवसरों के विचलन की आवृत्ति को कैसे कम आंकते हैं , ताकि प्रवृत्ति हमेशा अपेक्षाओं के साथ उन्हें अच्छी तरह से सहमत करने के लिए होती है ... (मेंडल के डेटा में] विचलन चौंकाने वाले छोटे हैं। " महान आरए फिशर छोटे नमूनों में छोटे भिन्नताओं पर संदेह करने के लिए बहुत उत्सुक है जो वह लिखते हैं : "यह एक संभावना बनी हुई है, दूसरों के बीच मेंडेल को कुछ सहायक द्वारा धोखा दिया गया था जो सभी को अच्छी तरह से पता था कि क्या उम्मीद थी।"

और यह पूरी तरह से संभव है कि समझने या गलतफहमी फैलाने की दिशा में यह पूर्वाग्रह आज भी कायम है। यदि हां, तो क्या इस बात का कोई स्पष्टीकरण है कि हम फैलाव के साथ केंद्रीयता की अवधारणाओं के साथ अधिक सहज क्यों हैं? क्या विचार को आंतरिक बनाने के लिए हम कुछ कर सकते हैं?

कुछ अवधारणाओं को हम एक फ्लैश में "देखते हैं", और फिर हम नहीं करते हैं, फिर भी हम उन्हें स्वीकार करते हैं, और आगे बढ़ते हैं। उदाहरण के लिए, या , लेकिन हमें वास्तव में अपने दैनिक जीवन में निर्णय लेने के लिए इन पहचानों के बारे में जानने की आवश्यकता नहीं है। वही विचरण का सच नहीं है। तो, क्या यह अधिक सहज नहीं होना चाहिए?= एम सी 2eiπ+1=0E=mc2

नसीम तालेब ने अपने भाग्य को अच्छी तरह से लागू करते हुए, ( बेनोइट मैंडेलब्रॉट की ) धारणा को संकट के समय के शोषण के लिए समझने की कोशिश की है, और इस अवधारणा को समझने की कोशिश की है जैसे वाक्यों के साथ जनता को समझने के लिए, "विचरण का प्रसरण, epistemologically है , मतलब के ज्ञान की कमी के बारे में ज्ञान की कमी का एक उपाय "- हाँ, इस कौर के लिए अधिक संदर्भ है ... और अपने क्रेडिट के लिए, उन्होंने थैंक्सगिविंग तुर्की विचार के साथ इसे और भी सरल बना दिया है। कोई यह तर्क दे सकता है कि निवेश की कुंजी विचरण (और सहवास) को समझ रही है।

तो यह इतना फिसलन भरा क्यों है, और इसका उपाय कैसे किया जाए? सूत्रों के बिना ... बस अनिश्चितता से निपटने के वर्षों के अंतर्ज्ञान ... मुझे जवाब नहीं पता है, लेकिन यह गणितीय नहीं है (आवश्यक, वह है): उदाहरण के लिए, मुझे आश्चर्य है कि अगर कर्टोसिस का विचार विचरण के साथ हस्तक्षेप करता है। निम्नलिखित कथानक में हमारे पास लगभग एक ही विचरण के साथ दो हिस्टोग्राम हैं; अभी तक, मेरे घुटने की झटका प्रतिक्रिया यह है कि सबसे लंबी पूंछ और सबसे ऊंची चोटी (उच्च कुर्तोसिस) के साथ "अधिक फैल" है:


2
विचरण ज्यादातर को समझने के लिए है क्योंकि यह चुकता है, मुझे लगता है कि कठिन है। लोगों को पूर्ण निरपेक्षता के साथ बहुत अधिक कठिनाई नहीं लगती है। (मैं आमतौर पर उस विचार का उपयोग मानक विचलन, जैसे करने के लिए काम करने के लिए।)
को पुनः स्थापित मोनिका - गुंग

यह जानना मुश्किल है कि किसी ने क्या सीखा है, लेकिन मुझे यकीन नहीं है कि शीर्षक का आधार सही है। उदाहरण के लिए, रेंज सहित अंतर, कुछ मायनों में औसत से अधिक सहज लगते हैं जैसे कि माध्य या माध्यिका। हिसाब अलग; लेकिन यद्यपि यह अर्थ शास्त्रीय गणित में होता है, लेकिन डेटा के सारांश के लिए इसका उपयोग केवल 17 वीं शताब्दी तक धीरे-धीरे और दर्दनाक रूप से उभरा।
निक कॉक्स

1
उम्मीद के जवाबों में, उन बारीकियों में नहीं उतरना चाहिए जो समस्या से संबंधित नहीं हैं - क्या यह सवाल प्रति से अधिक विचरण के बारे में है (जिसके लिए स्क्वेरिंग की चर्चा प्रासंगिक हो सकती है), या परिवर्तनशीलता की सामान्य अवधारणा (फैलाव, प्रसार, भिन्नता - जिसके लिए यह नहीं होगा)? [मुझे इस बात पर भी आश्चर्य है कि हम वास्तव में अन्य लोगों की सापेक्ष सहजता के बारे में किस हद तक सामान्यीकरण कर सकते हैं]
Glen_b -Reinstate Monica

बाद वाला। मुझे इसे स्पष्ट करना चाहिए। समग्र रूप से प्रश्न के बारे में निश्चित नहीं है। इसे बंद करने के लिए स्वतंत्र महसूस करें।
एंटोनी परेलाडा

@Antoni मैं इसे क्यों बंद करना चाहूंगा? या तो फॉर्म एक अच्छा सवाल होगा; यह सिर्फ इतना है कि जवाब अलग होंगे।
Glen_b -Reinstate मोनिका

जवाबों:


9

मैं आपकी भावना को साझा करता हूं कि विचरण थोड़ा कम सहज है। इससे भी महत्वपूर्ण बात यह है कि एक माप के रूप में विचरण कुछ वितरणों के लिए अनुकूलित है और असममित वितरण के लिए कम मूल्य का है। माध्य से पूर्ण निरपेक्ष अंतर मेरे विचार से बहुत अधिक सहज नहीं है, क्योंकि इसे केंद्रीय प्रवृत्ति के माप के रूप में माध्य चुनने की आवश्यकता है। मैं गिन्नी के माध्य अंतर को पसंद करता हूं --- सभी जोड़ियों के अर्थ में पूर्ण अंतर। यह सहज, मजबूत और कुशल है। दक्षता पर, यदि डेटा एक गाऊसी वितरण से आता है, तो यह लागू होने वाले एक उपयुक्त rescaling कारक के साथ Gini का औसत अंतर 0.98 है जो नमूना मानक विचलन के रूप में कुशल है। डेटा सॉर्ट करने के बाद गिन्नी के माध्य अंतर के लिए एक कुशल कंप्यूटिंग फॉर्मूला है। आर कोड नीचे है।

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

क्या यह फैलाव को अधिक महत्व देता है? मैं यहां
एंटोनी परेलाडा

1
यह फैलाव का एक वैध उपाय है। अगर आपको इसकी परिभाषा पसंद है तो यह किसी भी चीज पर ज्यादा जोर नहीं देता है।
फ्रैंक हरेल

पूर्ण रूप से। मैं आपकी पोस्ट को सीखने के अवसर के रूप में लेता हूं, और मेरी टिप्पणी रुचि दिखाने का मेरा तरीका था। मुझे अभी इसके बारे में और पढ़ना है। धन्यवाद!
एंटोनी परेलाडा

1
केवल अगर वेक्टर xपहले से ही सॉर्ट किया गया था।
फ्रैंक हरेल

4

यहाँ मेरे कुछ विचार हैं। यह आपके द्वारा अपने प्रश्न को देखने वाले प्रत्येक कोण को संबोधित नहीं करता है, वास्तव में, ऐसा बहुत कुछ है जो इसे संबोधित नहीं करता है (प्रश्न थोड़ा व्यापक लगता है)।

वैरिएस की गणितीय गणना को समझना आम लोगों के लिए क्यों मुश्किल है?

भिन्नता अनिवार्य रूप से है कि चीजों को कैसे फैलाया जाए। यह समझने में काफी आसान है, लेकिन जिस तरह से इसकी गणना की जाती है, वह किसी लेपर्स के प्रति-सहज लग सकता है।

मुद्दा यह है कि माध्य से भिन्नता (तब औसतन) चुकता की जाती है, और फिर मानक विचलन प्राप्त करने के लिए वर्गमूल होता है। हम समझते हैं कि यह विधि क्यों आवश्यक है - स्क्वेरिंग मूल्यों को सकारात्मक बनाने के लिए है और फिर वे मूल इकाइयों को प्राप्त करने के लिए वर्गाकार हैं। हालांकि, एक छंटनी के साथ भ्रमित होने की संभावना है कि संख्याओं को वर्ग और वर्ग-मूल में क्यों रखा गया है। ऐसा लगता है कि यह खुद को रद्द कर देता है (ऐसा नहीं करता है) इसलिए यह व्यर्थ / अजीब लगता है।

जो उनके लिए अधिक सहज है, वह प्रत्येक माध्य और प्रत्येक बिंदु (माध्य निरपेक्ष विचलन) के बीच पूर्ण अंतरों के औसत से फैलता हुआ पा रहा है। इस विधि को स्क्वरिंग और स्क्वायर-रूटिंग की आवश्यकता नहीं है, इसलिए यह कहीं अधिक सहज है।

ध्यान दें कि सिर्फ इसलिए कि निरपेक्ष विचलन अधिक सीधा है, इसका मतलब यह नहीं है कि यह 'बेहतर' है। कई प्रमुख सांख्यिकीविदों को शामिल करने के लिए वर्गों या निरपेक्ष मूल्यों का उपयोग करने की बहस एक सदी से चल रही है, इसलिए मेरे जैसा एक यादृच्छिक व्यक्ति यहां सिर्फ दिखावा नहीं कर सकता है और कह सकता है कि एक बेहतर है। (विचरण खोजने के लिए चौकों का उपयोग करना निश्चित रूप से अधिक लोकप्रिय है)

संक्षेप में: विचरण को खोजने के लिए स्क्वरिंग उन लोगों के लिए कम सहज लगता है जो पूर्ण अंतरों के औसत को अधिक सरल पाते हैं। हालांकि, मुझे नहीं लगता कि लोगों को खुद के प्रसार के विचार को समझने में कोई समस्या है


3
वर्ग के प्रभाव को इंगित करने के लिए +1। लेकिन मुझे लगता है कि समस्या फैलने को मापने के लिए वास्तविक गणितीय निर्माण से परे है। यह अधिक कट्टरपंथी मस्तिष्क स्टेम स्तर पर है - केंद्र से दूर सिर्फ प्राकृतिक महसूस नहीं करता है; केंद्रीय बिंदु है
एंटोनी परेलाडा

ओह समझा। मुझे यकीन नहीं था कि यह 'प्रसार' या फैलने के विशिष्ट गणितीय तरीके के बारे में था। मुझे डर है कि मैं आपकी पूर्व में मदद नहीं कर सकता - व्यक्तिगत रूप से मुझे नहीं लगता कि लोगों को प्रसार की अवधारणा को समझने में बहुत समस्या है ...
यांग ली

मैं करता हूँ। मुझे अनिश्चितता की डिग्री को समझने में एक टन की समस्या है, जो बहुत हद तक तुरंत विचरण का परिणाम है। मुझे अभी पता नहीं क्यों।
एंटोनी परेलाडा

3

यहाँ यह आपके प्रश्न पर मेरी राय है।

मैं उपर्युक्त उत्तर पर सवाल उठाकर शुरू करूंगा और फिर अपनी बात मनवाने की कोशिश करूंगा।

पिछली परिकल्पना पर सवाल:

क्या यह सच है कि चौकों में फैलाव के उपाय हैं जैसे कि स्क्वायर मीन विचलन को समझना मुश्किल है? मैं मानता हूं कि वर्ग गणितीय जटिलता लाकर इसे और कठिन बना देता है लेकिन अगर जवाब केवल वर्ग का होता है, तो मीन एब्सोल्यूट डिविएशन केंद्रीयता को समझने में सरल होगा।

राय:

मुझे लगता है कि फैलाव के उपायों को समझना हमारे लिए क्या मुश्किल है, यह फैलाव स्वयं एक 2-सूचनात्मक जानकारी है। एक मीट्रिक में 2-आयामी जानकारी को संक्षेप में प्रस्तुत करने की कोशिश करने से जानकारी का आंशिक नुकसान होता है जिसके परिणामस्वरूप भ्रम पैदा होता है।

उदाहरण:

एक उदाहरण जो उपरोक्त अवधारणा को समझाने में मदद कर सकता है, वह निम्नलिखित है। आइए डेटा के 2 अलग सेट प्राप्त करें:

  1. गौसियन वितरण का अनुसरण करता है
  2. एक अज्ञात और असममित वितरण का अनुसरण करता है

मान लें कि मानक विचलन के मामले में फैलाव 1.0 है।

मेरा दिमाग सेट की तुलना में सेट 1 के फैलाव को बहुत अधिक स्पष्ट करने की कोशिश करता है। इस विशिष्ट मामले में, मेरी बेहतर समझ का कारण यह बताया गया है कि वितरण के 2-आयामी आकार को अग्रिम में जानना मुझे वितरण माप में समझने की अनुमति देता है। केंद्रीकृत गाऊसी के चारों ओर एक संभावना की शर्तों का मतलब है। दूसरे शब्दों में, गौसियन वितरण ने मुझे 2-आयामी संकेत दिया जो मुझे फैलाव के उपाय से बेहतर अनुवाद करने के लिए आवश्यक था।

निष्कर्ष:

कुल मिलाकर, एक विचलन उपाय में कब्जा करने का कोई ठोस तरीका नहीं है सभी एक 2-आयामी जानकारी में है। वितरण को सीधे देखे बिना मैं आमतौर पर फैलाव को समझने के लिए क्या करता हूं, एक निश्चित वितरण की व्याख्या करने वाले कई उपायों को संयोजित करना है। वे मेरे मन के संदर्भ को फैलाव के उपाय पर बेहतर पकड़ बनाने के लिए स्थापित करेंगे। अगर मैं निश्चित रूप से रेखांकन का उपयोग कर सकता हूं तो बॉक्स प्लॉट वास्तव में इसे देखने के लिए उपयोगी हैं।

महान चर्चा जिसने मुझे इस मुद्दे पर बहुत कुछ सोचने पर मजबूर किया। आपकी राय सुनकर मुझे खुशी होगी।


1
एक अच्छी तरह से सोचा बाहर प्रतिक्रिया +1। मेरे पास जोड़ने के लिए वास्तव में कुछ भी नहीं है, सिवाय इसके कि मुझे लगता है कि संभवतः अन्य कारणों के साथ-साथ देखने लायक भी हैं।
यांग ली

1

मुझे लगता है कि एक साधारण कारण है कि लोगों के पास परिवर्तनशीलता (चाहे विचरण, मानक विचलन, एमएडी, या जो कुछ भी हो) के साथ एक कठिन समय है जब तक कि आप केंद्र के विचार को समझने के बाद तक परिवर्तनशीलता को वास्तव में नहीं समझ सकते। ऐसा इसलिए है क्योंकि परिवर्तनशीलता के माप केंद्र से दूरी के आधार पर मापा जाता है।

माध्य और माध्यिका जैसी अवधारणाएं समानांतर अवधारणाएं हैं, आप पहले एक सीख सकते हैं और कुछ लोगों को एक की बेहतर समझ हो सकती है और अन्य लोग दूसरे को बेहतर समझेंगे। लेकिन प्रसार को केंद्र से मापा जाता है (केंद्र की कुछ परिभाषा के लिए), इसलिए वास्तव में पहले नहीं समझा जा सकता है।


+1 यह बहुत मायने रखता है - यह एक द्वितीयक अवधारणा है ...
एंटोनी पारेलाडा

@ ग्रेग स्नो: सिवाय इसके कि यह 'एनटी सही है; फ्रैंक हरेल के उत्तर से गिन्नी का अंतर देखें, जो किसी केंद्र से विचलन नहीं करता है।
kjetil b halvorsen
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.