वितरण महत्वपूर्ण क्यों हैं?

यह इस मंच पर पूछे गए सबसे कठिन सवालों के रूप में अच्छी तरह से नीचे जा सकता है, लेकिन एक पिछले प्रश्न के लिए ध्वनि और सार्थक उत्तर प्राप्त करने के बाद, मैंने सोचा कि मैं अपनी किस्मत फिर से खींचूंगा।

मैं कुछ समय के लिए सांख्यिकीय वितरण के महत्व पर बहुत उलझन में हूं क्योंकि वे परिसंपत्ति रिटर्न से संबंधित हैं और विशेष रूप से संपत्ति आवंटन में भी।

विशिष्ट होने का मेरा प्रश्न यह है: मान लें कि मेरे पास एस एंड पी 500 मासिक रिटर्न डेटा के 20 साल हैं, तो मुझे अपने परिसंपत्ति आवंटन निर्णय के लिए एक निश्चित प्रकार के वितरण (यानी सामान्य / जॉनसन / लेवी उड़ान आदि) को संभालने की आवश्यकता क्यों होनी चाहिए जब मैं बस कर सकता हूं मेरे साथ मेरे पास मौजूद ऐतिहासिक आंकड़ों के आधार पर अपने एसेट एलोकेशन के फैसले करें?

distributions

— खून
स्रोत

याद रखें कि यदि आपको अपने पिछले प्रश्न के उत्तर उपयोगी लगे, तो आप उन्हें उत्तर के बगल में स्थित चेकबॉक्स पर क्लिक करके 'स्वीकृत' के रूप में चिह्नित कर सकते हैं। इससे दूसरों को पता चलता है कि आपका प्रश्न हल हो गया है।

— जेफ

वास्तव में उस विषय पर JDCook की एक हालिया पोस्ट है । आपके प्रश्न की प्रासंगिकता को रेखांकित करने के लिए, मैं पहले पैराग्राफ से उद्धृत करूंगा "जब सांख्यिकीविद् डेटा का विश्लेषण करते हैं, तो वे केवल आपके द्वारा लाए गए डेटा को नहीं देखते हैं। वे काल्पनिक डेटा पर भी विचार करते हैं जो आप ला सकते थे। दूसरे शब्दों में। , वे विचार करते हैं कि वास्तव में क्या हुआ और साथ ही साथ क्या हो सकता है। "

— user603

मेरा मानना है कि तालेब के पास ऐतिहासिक डेटा :-) से पूरी तरह से निर्णय लेने के साथ समस्याओं के बारे में कहने के लिए कुछ अस्पष्ट था। (ऐतिहासिक डेटा आमतौर पर सीधे दुर्लभ लेकिन संभवतः घातक "काला हंस" घटनाओं प्रकट नहीं करते हैं जब तक बहुत देर हो चुकी है।)

— whuber

... जैसा कि ज्यादातर टर्की को कुछ हफ़्ते में पता चल जाएगा।

— रयोगी

@ User603 के बिंदु पर विस्तार करने के लिए - आप अपने नमूने के बाहर inferences बनाना चाहते हैं। विशेष रूप से, आपके एसेट एलोकेशन का बिंदु भविष्य के व्यवहार से संबंधित है , न कि पिछले व्यवहार से। इसमें शामिल है, उदाहरण के लिए, पूंछ में चीजें कैसे व्यवहार करती हैं, जहां आपके पास कुछ अवलोकन हैं। आप वितरण संबंधी मान्यताओं के माध्यम से प्रक्रिया के बारे में अतिरिक्त ज्ञान / समझ / पूर्वाग्रह ला सकते हैं। अगर ये धारणा कहीं सही के करीब है तो आप बहुत सारी जानकारी जोड़ सकते हैं।

— Glen_b -Reinstate मोनिका

एक अनुमानित वितरण (यानी। पैरामीट्रिक विश्लेषण) का उपयोग करने से आपके तरीके की कम्प्यूटेशनल लागत कम हो जाएगी। मैं मान रहा हूं कि आप एक प्रतिगमन या वर्गीकरण कार्य करना चाहेंगे। इसका मतलब है कि कुछ बिंदु पर आप कुछ डेटा के वितरण का अनुमान लगाने जा रहे हैं। जब डेटा एक अच्छी तरह से अध्ययन किए गए वितरण के अनुरूप नहीं होता है, तो गैर-पैरामीट्रिक तरीके उपयोगी होते हैं, लेकिन वे आम तौर पर गणना करने के लिए या तो अधिक समय लेते हैं या अधिक मेमोरी स्टोर करने के लिए।

इसके अलावा, यदि डेटा एक ऐसी प्रक्रिया से उत्पन्न होता है जो किसी वितरण के अनुरूप होता है, जैसे कि वे कुछ समान रूप से यादृच्छिक प्रक्रियाओं का एक औसत हैं, तो उस वितरण का उपयोग करना अधिक समझ में आता है। समान चर के एक सेट के औसत के मामले में सही वितरण संभवतः गाऊसी वितरण है।

— जेम्स
स्रोत

पूरक जेम्स जवाब: भी पैरामीट्रिक मॉडल (आमतौर पर) के लिए एक अच्छा फिट पाने के लिए कम नमूनों की आवश्यकता: यह उनकी सामान्यीकरण की शक्ति में वृद्धि हो सकता है: यह है कि, वे नए डेटा बेहतर भविष्यवाणी कर सकते हैं, यहां तक कि गलत जा रहा है। बेशक, यह स्थिति, मॉडल और नमूना आकार में निर्भर करता है।

— पागलपन
स्रोत