न्यूनतम, माध्य और अधिकतम से वितरण की गणना


10

मान लीजिए कि मेरे पास न्यूनतम, माध्य और अधिकतम कुछ डेटा सेट हैं, कहते हैं, 10, 20 और 25. क्या कोई तरीका है:

  1. इन आंकड़ों से वितरण बनाएँ, और

  2. जानते हैं कि जनसंख्या का कितना प्रतिशत माध्य से ऊपर या नीचे निहित है

संपादित करें:

ग्लेन के सुझाव के अनुसार, मान लें कि हमारे पास 200 का एक नमूना आकार है।


(1) आसान है, क्योंकि कई समाधान हैं। (2) सबसे अच्छा वितरण आकार के बारे में कुछ मान्यताओं के संदर्भ में किया जाता है, अन्यथा आप सभी प्राप्त कर सकते हैं गणितीय सीमाएं हैं।
whuber

3
आपको यहाँ अब तक टिप्पणियों और उत्तरों में शाब्दिक रूप से लिया जा रहा है, लेकिन एक आवश्यक सावधानी (tacit, मुझे लगता है, @ व्हिबर की टिप्पणी में) यह है कि ऐसी जानकारी के साथ इतने सारे वितरण संगत हैं कि आपको यह अनुमान नहीं लगाना चाहिए कि आपके पास पर्याप्त जानकारी है अच्छी तरह से या मज़बूती से ऐसा करने के लिए। विशेष रूप से, यदि आप नमूना आकार भी नहीं जानते हैं, तो आप अनिश्चितता के बारे में सोचने के लिए बहुत कुछ नहीं कर सकते।
निक कॉक्स

जब आप आबादी के अनुपात के बारे में पूछते हैं कि "मतलब से ऊपर या नीचे झूठ है" ... क्या आप नमूना माध्य या जनसंख्या के सापेक्ष पूछ रहे हैं? क्या हम निरंतर या असतत चर के बारे में बात कर रहे हैं? क्या हम नमूना आकार जानते हैं?
Glen_b -Reinstate मोनिका

जवाबों:


10

मेरे पास न्यूनतम, माध्य और अधिकतम कुछ डेटा सेट हैं, कहते हैं, 10, 20 और 25. क्या कोई तरीका है:

इन आंकड़ों से वितरण बनाएँ, और

संभावित वितरण की एक अनंत संख्या है जो उन नमूना मात्राओं के अनुरूप होगी।

जानते हैं कि जनसंख्या का कितना प्रतिशत माध्य से ऊपर या नीचे निहित है

कुछ संभावित अनुचित धारणाओं की अनुपस्थिति में, सामान्य रूप से नहीं - कम से कम बहुत अधिक भावना से नहीं कि यह सार्थक होगा। परिणाम काफी हद तक आपकी मान्यताओं पर निर्भर करेगा (स्वयं मूल्यों में बहुत अधिक जानकारी नहीं है, हालांकि कुछ विशेष व्यवस्थाएं कुछ उपयोगी जानकारी प्रदान करती हैं - नीचे दी गई)।

ऐसी परिस्थितियों के साथ आना मुश्किल नहीं है जहाँ अनुपात प्रश्न पर उत्तर बहुत अलग हो सकते हैं। जब सूचना के अनुरूप बहुत अलग-अलग संभव उत्तर होते हैं, तो आप कैसे जानेंगे कि आप किस स्थिति में हैं?

अधिक विवरण सहायक सुराग दे सकते हैं लेकिन जैसा कि यह खड़ा है (नमूना आकार के बिना भी, हालांकि यह संभवतः कम से कम 2, या 3 है, यदि माध्य समापन बिंदु * के बीच आधे रास्ते में नहीं है) तो आपको उस प्रश्न पर बहुत अधिक मूल्य नहीं मिलेगा। । आप सीमा पाने की कोशिश कर सकते हैं, लेकिन कई मामलों में वे चीजों को बहुत कम नहीं करेंगे।

* वास्तव में अगर माध्य एक समापन बिंदु के करीब है तो आप नमूना आकार पर कुछ कम बाध्य हो सकते हैं। उदाहरण के लिए यदि आपके मिनट / माध्य / अधिकतम के लिए 10,20,25 के बजाय तब आपके पास 10 24 25 थाnकम से कम 15 होना चाहिए, और यह भी सुझाव देगा कि अधिकांश आबादी 24 से ऊपर थी; यह कुछ है। लेकिन अगर यह कहा जाता है कि 10,18,25 नमूना आकार क्या हो सकता है, का एक उपयोगी विचार प्राप्त करना बहुत कठिन है, तो केवल औसत से कम अनुपात दें।


2
@DJohnson मुझे नहीं लगता कि यह अतिशयोक्तिपूर्ण है - यह वास्तव में सच है (हालांकि वास्तव में उन्हें सूचीबद्ध करने की हमारी क्षमता कुछ हज़ार के बाद विफल हो सकती है और हमारी सूची को जारी रखने की देखभाल करने की क्षमता कुछ दर्जन के बाद विफल हो सकती है, इसका मतलब यह नहीं है। वहाँ मान्यताओं के कोई अन्य सेट नहीं हैं जिन्हें हम संचालित कर सकते हैं)। मेरी चेतावन में कृपालुता का कोई इरादा नहीं था - यह जानबूझकर चुना गया है कि मान्यताओं के संभावित सेटों की सही चौड़ाई का संकेत मिलता है। आप मुझे क्या लिखना चाहेंगे?
Glen_b -Reinstate मोनिका

3
1. संभावनाओं को अधिकतम दो मापदंडों तक सीमित करने का क्या कारण है? उदाहरण के लिए, यदि डेटा तीन पैरामीटर lognormal से खींचा गया हो, तो क्या होगा? कई मामलों में हम डेटा से सभी मापदंडों का अनुमान नहीं लगा सकते हैं, लेकिन यह समस्या का एक हिस्सा है जिसे मैं वहां प्रेरित करने की कोशिश कर रहा हूं (यह मान्यताओं की चर्चा से संबंधित है। 2. जॉनसन और कोट्स उन वितरणों का एक उपसमुच्चय है, जिन्हें लोगों ने नाम दिया है। / साथ काम किया है, जो मान्यताओं पर संभव नहीं है, इस पर एक बाध्यता दूर नहीं है । मैंने कई वितरणों का आविष्कार किया है जो जॉनसन और कोटज़ में नहीं हैं, और ... ctd
Glen_b -Reate Monica

4
ctd ... मुझे पूरा यकीन है कि वे सभी यहाँ से इंकार नहीं कर रहे हैं। कोई अनिर्दिष्ट मापदंडों के साथ भी, संभव cdfs की एक अनंतता है, एक गैर-परिमित उपसमूह, जिसे निर्दिष्ट जानकारी द्वारा खारिज नहीं किया जाएगा।
Glen_b -Reinstate Monica

1
@Djohnson किसी भी शेष असहमति की सीमा जो भी हो, मैं आपकी मददगार टिप्पणियों की सराहना करता हूं। मैं विचार करूंगा कि क्या कम से कम अधिक स्पष्ट रूप से संकेत मिलता है कि मैं वास्तव में क्या कह रहा हूं (मेरा वास्तविक दावा सबूत के लिए सक्षम है, क्या इसकी आवश्यकता थी, लेकिन शायद मैं कम से कम इसे स्पष्ट रूप से बता सकता हूं), और क्या यह अलग तरह से अलग होना चाहिए।
Glen_b -Reinstate Monica

4
@DJohnson शर्तों को पूरा करने वाले दो अलग-अलग वितरण लें: दोनों में से कोई भी मिश्रण अभी भी उक्त शर्तों को पूरा करेगा। यह वास्तव में एक अनन्तता है: एक नगण्य एक।
एल्विस 5

8

जैसा कि पहले से ही Glen_b द्वारा उल्लेख किया गया है , असीम रूप से कई संभावनाएं हैं। निम्नलिखित भूखंडों पर एक नज़र डालें, वे आठ अलग-अलग वितरण दिखाते हैं जिनमें समान न्यूनतम, अधिकतम और माध्य होता है।

आठ अलग-अलग वितरण

ध्यान दें कि वे एक दूसरे से बहुत अलग हैं । पहले समान है, आगे त्रिकोणीय वितरण का एक द्विअक्षीय मिश्रण है, सातवें में केंद्र के चारों ओर सबसे अधिक संभावना द्रव्यमान केंद्रित है, लेकिन फिर भी न्यूनतम और अधिकतम बहुत छोटी संभावना के साथ संभव है, आठ असतत है और न्यूनतम और अधिकतम, आदि में केवल दो मान हैं। ।

चूंकि वे सभी आपके मानदंडों को पूरा करते हैं, इसलिए आप उनमें से किसी का भी अनुकरण कर सकते हैं। हालांकि आपके व्यक्तिपरक चुनाव में अनुकरण के परिणाम पर बहुत गहरा परिणाम होगा। मैं यह कहना चाहता हूं कि यदि वितरण के बारे में आप जानते हैं कि मीन, अधिकतम और माध्य वास्तव में केवल एक चीज है, तो आपके पास अनुकरण का संचालन करने के लिए अपर्याप्त जानकारी है यदि आप वास्तव में वास्तविक (अज्ञात) वितरण की नकल करना चाहते हैं।

तो आप अपने आप को क्या पूछने की आवश्यकता है आप वितरण के बारे में पता है? क्या यह असतत है या निरंतर है? सममित या तिरछा? Unimodal या bimodal? बहुत सी बातों पर विचार करना है। यदि यह निरंतर, गैर-समान और एकरूप है, और आप केवल मिन, अधिकतम और माध्य को जानते हैं, तो एक संभव विकल्प त्रिकोणीय वितरण है - यह अत्यधिक संभावना नहीं है कि वास्तविक जीवन में किसी भी चीज में ऐसा वितरण है, लेकिन कम से कम आप कुछ सरल का उपयोग कर रहे हैं और इसके आकार के बारे में बहुत सी धारणाओं को न थोपना।


इसलिए अगर मुझे एक त्रिकोणीय वितरण लगता है तो मैं अपनी वर्तमान जानकारी के साथ ही मोड की गणना कर सकता हूं। क्या इससे मदद मिलेगी?
user132053

1
@ user132053 आपको केवल न्यूनतम, अधिकतम और माध्य की आवश्यकता है। त्रिकोणीय वितरण के माध्यम के लिए फॉर्मूला (a + b + c) / 3 है जिसे आप साधारण अंकगणित का उपयोग करके मोड के लिए हल कर सकते हैं।
टिम

4

मानक विचलन की गणना के लिए एक श्रेणी-आधारित नियम को व्यापक रूप से सांख्यिकीय साहित्य में उद्धृत किया गया है (यहाँ एक संदर्भ है ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -देवीकरण .htm )। मूल रूप से, यह (अधिकतम-न्यूनतम) / 4 है। यह बहुत मोटा अनुमान है।

यह जानकारी और सामान्य रूप से वितरित डेटा को ग्रहण करने की इच्छा को देखते हुए , सामान्य विचलन दो संख्याओं, माध्य और श्रेणी-आधारित एसटीडी विचलन से उत्पन्न हो सकते हैं। कहा कि, इन दो टुकड़ों की जानकारी से कोई एक या दो-पैरामीटर वितरण उत्पन्न किया जा सकता है, जब तक कि वितरण पहले या दूसरे क्षण में निहित था।

भिन्नता का खुरदरा गुणांक भी SD / माध्य के अनुपात से निर्मित किया जा सकता है। यह डेटा में यूनिटलेस परिवर्तनशीलता के लिए एक प्रॉक्सी प्रदान करेगा।

त्रुटि अधिक ठीक से जनसंख्या के नमूना वितरण को संदर्भित करती है और अनुमान के लिए नमूना आकार, एन के एक बयान की आवश्यकता होती है । आपका विवरण यह विवरण प्रदान नहीं करता है।


3
ध्यान देने योग्य कुछ बातें: (1) इसका मतलब संभावित रूप से अधिक जानकारी देता है जिसे (अधिकतम-मिनट) / 4 नियम को ओवरराइड करना चाहिए। (२) चूँकि सूचना के तीन टुकड़े दिए गए हैं, सामान्य रूप से लचीलेपन की डिग्री पर केवल दो-पैरामीटर परिवार के पत्तों का उपयोग करना।
whuber

@whuber आपने इस थ्रेड पर दो आकर्षक टिप्पणियां की हैं। यदि आप उन पर विस्तृत और एक प्रतिक्रिया निर्दिष्ट करने के लिए थे, तो क्या अच्छा होगा।
माइक हंटर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.