जब डेटा को तिरछा किया जाता है, तो क्या इसका उपयोग किया जाना चाहिए?


14

अक्सर परिचयात्मक रूप से लागू आँकड़ों के ग्रंथों को माध्यिका से अलग किया जाता है (अक्सर वर्णनात्मक आंकड़ों के संदर्भ में और मध्यमान और माध्य का उपयोग करते हुए केंद्रीय प्रवृत्ति के सारांश को प्रेरित करते हुए) यह समझाकर कि यह नमूना डेटा और / या में आउटलेयर के प्रति संवेदनशील है। तिरछी जनसंख्या वितरण के लिए, और यह एक दावे के औचित्य के रूप में उपयोग किया जाता है कि डेटा को सममित नहीं होने पर माध्यिका को प्राथमिकता दी जानी चाहिए।

उदाहरण के लिए:

डेटा के दिए गए सेट के लिए केंद्रीय प्रवृत्ति का सबसे अच्छा माप अक्सर उस तरीके पर निर्भर करता है जिसमें मूल्यों को वितरित किया जाता है .... जब डेटा सममित नहीं होते हैं, तो मध्यिका अक्सर केंद्रीय प्रवृत्ति का सबसे अच्छा उपाय होता है। चूँकि इसका मतलब अत्यधिक टिप्पणियों के प्रति संवेदनशील है, इसलिए इसे बाहरी डेटा मानों की दिशा में खींचा जाता है, और इसके परिणामस्वरूप अत्यधिक फुलाया या अत्यधिक
अपस्फीति हो सकती है। " -पागानो और गौवेरु, (2000) बायस्टैटिस्टिक्स के सिद्धांत , 2 एड। (पी एंड जी हाथ में थे, बीटीडब्लू, उन्हें प्रति सेगमेंट नहीं गा रहा था ।)

लेखक इस प्रकार "केंद्रीय प्रवृत्ति" को परिभाषित करते हैं: "डेटा के एक सेट की सबसे अधिक जांच की जाने वाली विशेषता इसका केंद्र है, या वह बिंदु जिसके बारे में अवलोकन क्लस्टर करते हैं।"

यह मुझे कहने के एक कम-से-कम सटीक तरीके के रूप में बताता है कि केवल माध्यिका, अवधि का उपयोग करें, क्योंकि केवल जब डेटा / वितरण सममित होते हैं, तो केवल माध्य का उपयोग करने के लिए कहने के रूप में केवल कहने का उपयोग करें। संपादित करें: whuber सही तरीके से बताता है कि मैं मंझला के साथ केंद्रीय प्रवृत्ति के मजबूत उपायों का सामना कर रहा हूं। इसलिए यह ध्यान रखना महत्वपूर्ण है कि मैं परिचयात्मक अनुप्रयुक्त आँकड़ों में अंकगणितीय माध्य बनाम माध्यिका के विशिष्ट निर्धारण के बारे में चर्चा कर रहा हूँ (जहाँ, एक तरफ, केंद्रीय प्रवृत्ति के अन्य उपाय प्रेरित नहीं हैं)।

माध्यिका के व्यवहार से कितना दूर चला जाता है, इस अर्थ की उपयोगिता को आंकने के बजाय, क्या हमें इसे केंद्रीयता के दो अलग-अलग उपायों के रूप में नहीं समझना चाहिए? दूसरे शब्दों में तिरछापन के प्रति संवेदनशील होना मतलबी की एक विशेषता है। जैसा कि उचित रूप से तर्क दिया जा सकता है "अच्छी तरह से मंझला अच्छा नहीं है क्योंकि यह मोटे तौर पर तिरछापन के प्रति असंवेदनशील है, इसलिए इसका उपयोग केवल तब करें जब यह माध्य के बराबर हो।"

(विधा काफी समझदारी से इस प्रश्न के साथ शामिल नहीं हो रही है।)


3
व्यक्तिगत रूप से, मैं दोनों उपायों, माध्य और माध्यिका को शामिल करना पसंद करता हूं, जो पाठक को न केवल केंद्रीय प्रवृत्ति के बारे में कुछ जानकारी देगा, बल्कि यह भी अंदाजा लगाएगा कि डेटा कितना तिरछा है।
बाइडोनोविक

1
कुछ संदर्भ और स्पष्टीकरण इस प्रश्न को बेहतर बनाएंगे। (१) किस संदर्भ में इन (काल्पनिक) परिचय ग्रंथों में इस बात पर जोर दिया जाता है कि किस चीज को प्राथमिकता दी जाए, और किस उद्देश्य से? (२) वास्तव में ये ग्रन्थ "माध्य के व्यवहार से कितने की दूरी पर हैं?" क्या आप एक उदाहरण या एक उद्धरण प्रदान कर सकते हैं ताकि हम बेहतर समझ सकें?
whuber

2
एक बिंदु पर आप गलत व्याख्या करते हैं: माध्यिका केवल एकमात्र आंकड़ा नहीं है जो कुछ चरम टिप्पणियों के लिए मजबूत है। इस प्रकार माध्य की तुलना किसी भी (अक्सर) अवांछनीय विशेषता के आधार पर की जाती है, न कि अवांछनीय विशेषता के आधार पर। लेकिन मुझे आपकी चिंता की झलक भी मिलती है, और शायद यह इस उद्धरण में होने वाली विषमता और आउटलेर्स के अस्तित्व के निहितार्थ से संबंधित है। यह अफसोसजनक रूप से गलत कल्पना है, क्योंकि आउटलेर होने का मतलब है कि कभी-कभी विषमता होती है, यह अक्सर गलत नहीं होता है।
whuber


2
"केंद्रीय प्रवृत्ति" के लिए दी गई परिभाषा के प्रकाश में, यह स्पष्ट प्रतीत होता है कि क्यों तिरछा या बाहरी लोगों की उपस्थिति में माध्य एक उपयोगी उपाय नहीं होगा। आप वास्तव में केंद्रीय प्रवृत्ति की इस धारणा का अनुमान लगाना चाहते हैं या नहीं, यह एक और मामला है!
jsk

जवाबों:


16

मैं एक फ्लैट आउट नियम के रूप में सलाह से असहमत हूं। (यह सभी पुस्तकों के लिए सामान्य नहीं है।)

मुद्दे अधिक सूक्ष्म हैं।

यदि आप वास्तव में जनसंख्या माध्य के बारे में अनुमान लगाने में रुचि रखते हैं, तो नमूना माध्य कम से कम इसका निष्पक्ष अनुमान लगाने वाला है, और इसके कई अन्य फायदे हैं। वास्तव में, गॉस-मार्कोव प्रमेय देखें - यह सबसे अच्छा रैखिक निष्पक्ष है।

यदि आपके चर भारी हैं, तो समस्या 'रैखिक' के साथ आती है - कुछ स्थितियों में, सभी रैखिक अनुमानक खराब हो सकते हैं, इसलिए उनमें से सबसे अच्छा अभी भी बदसूरत हो सकता है, इसलिए इस अर्थ का एक अनुमानक जो रैखिक नहीं है बेहतर हो सकता है , लेकिन इसे वितरण के बारे में कुछ (या यहां तक ​​कि बहुत कुछ) जानने की आवश्यकता होगी। हमारे पास हमेशा वह विलासिता नहीं है।

यदि आप जरूरी नहीं है कि जनसंख्या से संबंधित अनुमानों में रुचि हो (" एक विशिष्ट उम्र क्या है? ", कहो या क्या एक सामान्य आबादी से दूसरी आबादी में शिफ्ट होना है, जो किसी भी स्थान के संदर्भ में, या यहां तक ​​कि हो सकता है। एक चर के परीक्षण को दूसरे की तुलना में स्टोकैस्टिक रूप से बड़ा किया जाता है), फिर यह कहना कि जनसंख्या के संदर्भ में या तो आवश्यक नहीं है या संभवतया प्रतिकूल (अंतिम मामले में) है।

इसलिए मुझे लगता है कि यह सोचने के लिए नीचे आता है:

  • आपके वास्तविक प्रश्न क्या हैं? क्या जनसंख्या का मतलब इस स्थिति के बारे में पूछना भी एक अच्छी बात है?

  • प्रश्न का उत्तर देने के लिए सबसे अच्छा तरीका क्या है (इस मामले में तिरछापन)? क्या नमूना का उपयोग करना हमारे हित के सवालों का जवाब देने का सबसे अच्छा तरीका है?

हो सकता है कि आपके पास जनसंख्या के साधनों के बारे में सीधे सवाल न हों, लेकिन फिर भी नमूना साधन उन प्रश्नों को देखने का एक अच्छा तरीका है ... या इसके विपरीत - प्रश्न जनसंख्या के साधनों के बारे में हो सकता है, लेकिन नमूना साधनों का सबसे अच्छा तरीका नहीं हो सकता है उस सवाल का जवाब दें।


14

वास्तविक जीवन में, हमें जो पता लगाने की कोशिश कर रहे हैं, उसके आधार पर हमें केंद्रीय प्रवृत्ति का माप चुनना चाहिए; और हाँ, कभी-कभी मोड का उपयोग करना सही होता है। कभी-कभी यह विनसर्ड या ट्रिम किया हुआ मतलब होता है। कभी-कभी ज्यामितीय या हार्मोनिक मतलब होता है। कभी-कभी केंद्रीय प्रवृत्ति का कोई अच्छा उपाय नहीं होता है ।

परिचय पुस्तकें बुरी तरह से लिखी जाती हैं, वे सिखाती हैं कि आवेदन करने के लिए कुकबुक नियम हैं।

आय ले लो। यह अक्सर बहुत तिरछा होता है और कभी-कभी आउटलेयर भी होता है; निश्चित रूप से पर्याप्त है, हम आमतौर पर "औसत आय" की सूचना देते हैं। लेकिन कभी-कभी आउटलेयर और तिरछापन महत्वपूर्ण होते हैं। यह संदर्भ पर निर्भर करता है और विचार की आवश्यकता होती है।

मैंने इस पर और लिखा


2
पीटर, आपकी पोस्ट के लिंक के लिए बहुत बहुत धन्यवाद। मैं चाहता हूं कि इंट्रो ग्रंथ 1 से 2 पृष्ठों की जगह लेता है जो विचारशील को एक विचार प्रदान करने के लिए आवश्यक है जैसा कि आपने वहां प्रदान किया है।
एलेक्सिस

4
मैंने एक नहीं लिखा है, लेकिन मैं परिचयात्मक ग्रंथों की थोड़ी रक्षा करना चाहता हूं। कोई भी परिचयात्मक पाठ जिसने एक पूरी तरह से बारीक दृश्य देने की कोशिश की, जिसे अनुभवी पेशेवर पहचान लेंगे जैसे कि लगभग सभी इच्छित प्राप्तकर्ताओं द्वारा भड़काया जाएगा; वास्तव में यह प्रकाशित भी नहीं होगा।
निक कॉक्स

5
एक ठोस टिप्पणी: जब मूल्य योगात्मक होते हैं जैसे कि योग भौतिक अर्थ (जैसे) बनाते हैं, मतलब व्यक्तिगत मूल्यों के वितरण की परवाह किए बिना एक प्राकृतिक सारांश है।
निक कॉक्स

3
@ न्यूकॉक्स मुझे लगता है कि परिचयात्मक ग्रंथ बहुत कुछ बेहतर कर सकते हैं। औसत बनाम माध्य के लिए यह एक गणितीय तर्क भी नहीं है - यह एक ठोस है। परिचयात्मक ग्रंथों को पढ़ने वाले व्यक्ति को यह बताने की आवश्यकता है कि वे वास्तव में डेटा विश्लेषण करने के लिए योग्य नहीं हैं।
पीटर Flom - को पुनः स्थापित मोनिका

2
@jsk। ओह ठीक। मुझे लगता है कि उन्हें आंकड़ों में स्पष्ट रूप से बताया जाने की आवश्यकता है क्योंकि बहुत से लोगों को लगता है कि वे डेटा विश्लेषण में एक कोर्स के बाद तैयार हैं; वास्तव में, कई क्षेत्रों (मनोविज्ञान, समाजशास्त्र, चिकित्सा, आदि) में लोगों से केवल 1, 2 या कभी-कभी 3 पाठ्यक्रमों के बाद डेटा विश्लेषण करने की उम्मीद की जाती है। उदाहरण के लिए, पीएचडी कार्यक्रमों में, उन्हें शोध प्रबंध लिखने की अपेक्षा की जाती है। अन्य क्षेत्रों में यह अधिक स्पष्ट क्यों है? मुझे यकीन नहीं है।
पीटर फ्लॉम - मोनिका

6

यहां तक ​​कि जब डेटा तिरछा हो जाता है (उदाहरण के लिए, एक नैदानिक ​​परीक्षण के साथ-साथ स्वास्थ्य देखभाल की लागत की गणना की जाती है, जहां कुछ रोगियों की कुल लागत शून्य होती है, क्योंकि वे नामांकन के ठीक बाद मर जाते हैं, और कुछ रोगियों ने जांच के लिए दिए गए स्वास्थ्य देखभाल कार्यक्रम के दुष्प्रभावों के कारण टन की लागत अर्जित की है। ), माध्य को कम से कम एक व्यावहारिक कारण के लिए माध्य के लिए प्राथमिकता दी जा सकती है: रोगियों की संख्या के लिए औसत लागत को गुणा करना स्वास्थ्य देखभाल निर्णय लेने वालों को अध्ययन के तहत स्वास्थ्य देखभाल प्रौद्योगिकी के बजट प्रभाव देता है।


इकोलिंग कार्लो की टिप्पणी: यदि आप कुल जनसंख्या में रुचि रखते हैं (उदाहरण के लिए, ऑडिट सैंपलिंग में), तो आप माध्य, अवधि में रुचि रखते हैं। अगर इस बात से कोई फर्क नहीं पड़ता है कि वितरण कितना तिरछा या बाहरी है, तो आपको इससे निपटना होगा। आप Winsorize नहीं कर सकते हैं, ट्रिम कर सकते हैं, अन्यथा आउटलेर, या लॉग ट्रांसफ़ॉर्म को हटा सकते हैं। स्तरीकरण बहुत मदद कर सकता है; अत्यधिक आउटलायर्स के मामले में, जिन्हें स्वयं के लिए स्ट्रेट बनाया जाना चाहिए।
पीटर वेस्टफॉल

3

मुझे लगता है कि सवाल के साथ-साथ अब तक के दोनों जवाबों से क्या गायब है, परिचयात्मक आँकड़ों की किताबों में औसत बनाम माध्य की चर्चा आम तौर पर एक अध्याय में जल्दी होती है कि कैसे एक वितरण को संक्षेप में प्रस्तुत किया जाए। जैसा कि अनुमानात्मक आंकड़ों का विरोध किया गया है, यह आम तौर पर वर्णनात्मक आंकड़ों का उत्पादन करने के बारे में होता है जो डेटा के वितरण के बारे में जानकारी के रूप में संख्यात्मक रूप से जानकारी देने के लिए एक उपयोगी तरीका होगा। ऐसे संदर्भ जिनमें यह उत्पन्न होता है, एक रिपोर्ट या जर्नल लेख का वर्णनात्मक सांख्यिकी अनुभाग होता है, जिसमें आमतौर पर आपके डेटासेट में सभी चर के ग्राफिकल सारांश के लिए जगह नहीं होती है। यदि वितरण तिरछा है, तो इस संदर्भ में माध्य का चयन करने के लिए इस संदर्भ में समझदार लगता है। यदि वितरण आउटलेयर के बिना सममित है,


1
वर्णनात्मक बनाम हीनतापूर्ण आंकड़ों के बारे में आपकी बात सार्थक है। लेकिन आप प्रभावी ढंग से कह रहे हैं (वर्णनात्मक आंकड़ों के लिए) "केवल माध्य का उपयोग करें जब यह मध्यिका के समान हो।" यदि वितरण को तिरछा किया जाता है, तो माध्यिका प्रति व्यक्ति की अवधारणा का प्रतिनिधित्व करने का खराब काम करती है , है ना? तो क्या यह स्थिति लेने के लिए वैध नहीं है "केवल माध्यिका का उपयोग करें जब यह माध्य के बराबर हो?" यह बस के रूप में मनमाना है, और इन उपायों के मूल अर्थ (उन्हें सीखने वाले लोगों के लिए) से ध्यान हटाने के लिए प्रत्यक्ष लगता है।
एलेक्सिस

1
लक्ष्य प्रति व्यक्ति की अवधारणा का प्रतिनिधित्व नहीं है? कौन कहता है? क्यों निर्धारित करें कि लक्ष्य नहीं है?
एलेक्सिस

1
मैं किसी भी अशिष्टता या "अभिनय से हैरान" नहीं देख रहा हूँ ओपी से आ रहा है ... बस कह रहा है ...
निक Stauner

1
मैं यह नहीं देखता कि यह मायने रखता है कि क्या आप इस उदाहरण में हीन या वर्णनात्मक आँकड़े कर रहे हैं। यदि केंद्रीय प्रवृत्ति का उपयुक्त वर्णनात्मक माप माध्य है, तो मंझला के बारे में निष्कर्ष निकाला जाना चाहिए; यदि माध्य है, तो माध्य है। यदि कोई वर्णनात्मक उपाय समझ में नहीं आता है, तो कोई भी अनुमानात्मक उपाय समझ में नहीं आएगा।
पीटर Flom - को पुनः स्थापित मोनिका

1
@PeterFlom उन मामलों के बारे में जहां अंतिम लक्ष्य निष्कर्ष नहीं है? मैं इस बात से सहमत हूं कि एक वर्णनात्मक आँकड़ा की उपयुक्तता पूरी तरह से सांख्यिकी के निर्माण के कारण पर निर्भर करती है। यह धारणा कि यह संभव है कि "कोई वर्णनात्मक माप से कोई मतलब नहीं है" का अर्थ यह है कि एक वर्णनात्मक आँकड़ा स्वाभाविक रूप से सार्थक नहीं हो सकता है। मेरा तर्क है कि लगभग सभी मामलों में, मध्यमान परिभाषा के आधार पर वितरण के केंद्र के एक उपाय के रूप में समझ में आता है। अन्य उद्देश्यों के लिए समझ में आता है या नहीं, यह एक और सवाल है।
jsk
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.