क्या सिद्धांत, फिट या कुछ और के आधार पर वितरण का चयन करना बेहतर है?

यह एक दार्शनिक प्रश्न पर आधारित है, लेकिन मुझे इस बात में दिलचस्पी है कि वितरण अनुभव के बारे में अधिक अनुभव वाले अन्य लोग कैसे सोचते हैं। कुछ मामलों में यह स्पष्ट लगता है कि सिद्धांत सबसे अच्छा काम कर सकता है (चूहों की पूंछ की लंबाई संभवतः सामान्य रूप से वितरित की जाती है)। बहुत सारे मामलों में डेटा के एक सेट का वर्णन करने के लिए शायद कोई सिद्धांत नहीं है, इसलिए आप बस कुछ का उपयोग करते हैं जो आपके पास काफी अच्छी तरह से फिट बैठता है चाहे वह मूल रूप से वर्णन करने के लिए विकसित किया गया हो? मैं इनमें से एक या दूसरे के साथ जाने के कुछ नुकसानों की कल्पना कर सकता हूं, और फिर निश्चित रूप से यह समस्या प्रतीत होती है कि शायद आपको अनुभवजन्य वितरण का उपयोग करना चाहिए अगर आपको वास्तव में कोई पता नहीं है।

इसलिए मुझे लगता है कि मैं वास्तव में क्या पूछ रहा हूं: क्या किसी के पास इस समस्या के बारे में सोचने / सोचने का एक सुसंगत तरीका है? और क्या कोई संसाधन हैं जो आपको सुझाव दे सकते हैं कि इसका एक अच्छा उपचार दें?

distributions overfitting heuristic

— HFBrowning
स्रोत

यह मौलिक रूप से इस बात पर निर्भर करता है कि कोई वितरण क्यों कर रहा है या क्या मान रहा है और इसका प्रतिनिधित्व करने का इरादा क्या है। जहां ऐसा लगता है लोगों को लगता है कि उन्हें जब वास्तव में व्यायाम व्यर्थ (या बुरा, भ्रामक) है जहाँ तक सांख्यिकीय समस्याओं को सुलझाने के रूप में वे (प्रतिगमन बच की तरह) डेटा के लिए एक वितरण या व्युत्पन्न मात्रा फिट करने के लिए है हम इस साइट पर कई सवाल क्षेत्ररक्षण वास्तव में का संबंध है। क्या आप शायद उन मामलों को स्पष्ट कर सकते हैं जो आपके मन में हैं?

— whuber

हाय व्हीबर, टिप्पणी के लिए धन्यवाद। चूँकि मैंने प्रोबेलिस्टिक रिस्क असेसमेंट पर थोड़ा काम करना शुरू कर दिया है, इसलिए मुझे अपने सभी डेटा को डिस्ट्रीब्यूशन में फिट करने की आवश्यकता है और इसने मुझे इस बारे में उत्सुक बना दिया कि वितरण का चयन कैसे किया जाता है। इसलिए मैं स्पष्ट करने का अनुमान लगाता हूं, मुझे केवल उस समय में दिलचस्पी है जब आपको वितरण का उपयोग करना चाहिए , और इसके बारे में सही तरीके से कैसे जाना चाहिए। जैसा कि मैंने कहा, कुछ मामले सिद्धांत से आसान रहे हैं, दूसरी बार मैं एक अनुभवजन्य वितरण का उपयोग कर रहा हूं क्योंकि यह सबसे अच्छा लगता है, लेकिन मेरा निर्णय लेना मैं जितना पसंद करता हूं उससे कहीं अधिक घृणास्पद है।

— HFBrowning

यह कीड़े की एक दिलचस्प इच्छा है, क्योंकि आप वास्तव में क्या कर रहे हैं (कुछ हद तक) एक गणना के माध्यम से नमूना अनिश्चितता का प्रचार करने की कोशिश कर रहा है। इस उच्च स्तर से प्रक्रिया को देखने का कारण यह है कि यह एक मौलिक गलती को प्रकट करता है जो अक्सर बनाया जाता है: वितरण द्वारा डेटा की जगह लेने से, कोई अनुमानित वितरण मापदंडों में अनिश्चितता को शामिल करने में विफल रहता है। कुछ चिकित्सकों द्वारा इसके लिए लेखांकन को "दूसरा क्रम" PRA कहा जाता है। मैं आपको सामान्य रूप से वितरण फिटिंग के बारे में पूछने के बजाय इन मुद्दों पर ध्यान केंद्रित करने के लिए अपने सवाल को संकीर्ण करने का सुझाव देना चाहूंगा।

— whuber

जिस पैकेज का उपयोग मैं अपने PRA के लिए कर रहा हूं, वह एक दूसरा ऑर्डर मोंटे कार्लो ( आर में mc2d पैकेज) है, इसलिए मैं अपने वितरण को "अनिश्चितता", "परिवर्तनशीलता" या दोनों के रूप में असाइन कर रहा हूं। इसलिए उम्मीद है कि मैं जहाँ तक हो सके उस समस्या के लिए जिम्मेदार हूँ। हालांकि, इस प्रश्न के लिए मेरा मूल इरादा उच्च स्तर का दृष्टिकोण हासिल करना था, और मैंने जो मुझे दिलचस्पी है उसके लिए संदर्भ देने के लिए बस जोखिम मूल्यांकन लाया। और शायद इससे बेहतर कोई तरीका नहीं है "कभी-कभी आप ऐसा करते हैं, कभी-कभी आप इसे इस तरह से करते हैं" लेकिन मुझे उम्मीद थी कि किसी के पास सुझाव थे :) खासकर क्योंकि मैं आसानी से यह निर्धारित नहीं कर सकता कि यह कब बेहतर हो सकता है -

— HFBrowning

यह निश्चित रूप से आपके पोस्ट के लिए सही जगह है। क्या आप कह रहे हैं कि आपको संपादन करने में परेशानी हो रही है? संयोग से, मैं उत्सुक हूं कि आपकी प्रक्रियाएं अनुभवजन्य वितरण का उपयोग करने में अनिश्चितता को कैसे निर्धारित करती हैं। यह भी, नमूना परिवर्तनशीलता के साथ आता है (जो पूंछ में गहरा हो सकता है, जो अक्सर जोखिम आकलन में सबसे अधिक मायने रखता है), भले ही आपने स्पष्ट रूप से किसी भी पैरामीटर का अनुमान नहीं लगाया हो।

— whuber

जवाबों:

निश्चित रूप से इस बात पर निर्भर करता है कि प्रश्न में डेटा क्या है और कोई कितना जानता है या उनके बारे में ग्रहण करना चाहता है। जैसा कि @whuber ने हाल ही में चैट में कहा , "जहां शारीरिक कानून शामिल है, आप लगभग हमेशा डेटा को मॉडल करने के लिए एक उचित तरीके के बारे में उचित अनुमान लगा सकते हैं।" (मुझे संदेह है कि यह उसकी तुलना में मेरे लिए बहुत कठिन है! इसके अलावा, मुझे उम्मीद है कि यह इसके मूल संदर्भ से गलत नहीं है ...) ऐसे मामलों में जब सामाजिक विज्ञान में अव्यक्त निर्माण मॉडलिंग की तरह है, तो अक्सर ध्यान केंद्रित करना उपयोगी होता है कम-ज्ञात घटनाओं की बारीकियों को समझने के तरीके के रूप में अनुभवजन्य वितरण। यह सामान्य वितरण को मानने में कुछ हद तक आसान है और समग्र आकार को नगण्य के रूप में खारिज कर देता है, और यह आउटलेर्स को गलत ठहराने के लिए काफी हद तक गलत है, क्योंकि वे इससे अधिक औचित्य के बिना गलत हैं। '

निश्चित रूप से, इस व्यवहार का अधिकांश विश्लेषण करने की धारणाओं से प्रेरित है जिसे कोई लागू करना चाहता है। अक्सर सबसे दिलचस्प सवाल चर के वितरण के विवरण या वर्गीकरण से परे जाते हैं। यह किसी दिए गए परिदृश्य के लिए सही उत्तर को भी प्रभावित करता है; सामान्य वितरण को मानने के लिए कारण (जैसे, बिजली की जरूरत) हो सकते हैं जब यह विशेष रूप से अच्छी तरह से फिट नहीं होता है (न ही बहुत बुरी तरह से मिसफिट), क्योंकि गैर - पैरामीटर और अन्यथा मजबूत तरीके भी सही नहीं हैं। बहरहाल, आदतन ऐसा करने का जोखिम दिलचस्प सवाल पूछना भूल रहा है, जो किसी एकल चर के वितरण के बारे में पूछ सकता है।

उदाहरण के लिए, धन और खुशी के बीच के संबंध पर विचार करें: एक लोकप्रिय प्रश्न जिसे आम तौर पर लोग पूछना चाहते हैं। यह मान लेना सुरक्षित हो सकता है कि गामा ^{(सलेम एंड माउंट, 1974)} या सामान्यीकृत बीटा ^{(पार्कर, 1999)} वितरण के बाद धन प्राप्त होता है , लेकिन क्या वास्तव में खुशी को सामान्य रूप से वितरित किया जाना सुरक्षित है? वास्तव में, मूल प्रश्न का उत्तर देने के लिए यह बिल्कुल भी आवश्यक नहीं होना चाहिए, लेकिन लोग कभी-कभी करते हैं, और फिर प्रतिक्रिया पूर्वाग्रह और सांस्कृतिक अंतर जैसे संभावित महत्वपूर्ण मुद्दों की अनदेखी करते हैं। उदाहरण के लिए, कुछ संस्कृतियाँ कम या ज्यादा एक्सट्रीम प्रतिक्रियाएँ देती हैं (देखें @ चर्ट का उत्तर क्वॉन्टन आइटम से बने प्रश्नावली के कारक विश्लेषण पर ), और मानदंड सकारात्मक और नकारात्मक भाव की खुली अभिव्यक्ति के संबंध में भिन्न होते हैं ^{(टकर, ओज़र, कोंगोमिरस्की, और बोहम, 2006 )} । यह अनुभवजन्य वितरण विशेषताओं जैसे तिरछा और कुर्तोसिस में मतभेदों के महत्व को बढ़ा सकता है। अगर मैं रूस, चीन और अमेरिका में खुशी के व्यक्तिपरक रेटिंग के लिए धन के संबंध की तुलना कर रहा था, तो मैं शायद खुशी की रेटिंग की केंद्रीय प्रवृत्तियों में अंतर का आकलन करना चाहता हूं। ऐसा करने में, मैं एक-तरफ़ा ANOVA (भले ही यह उल्लंघन के लिए काफी मजबूत हो सकता है) के लिए प्रत्येक में सामान्य वितरण मानने में संकोच करूंगा) जब चीन में "फैटर-टेल्ड" वितरण, रूस में सकारात्मक रूप से तिरछा वितरण, और संयुक्त राज्य अमेरिका में विभिन्न संस्कृति-निर्भर मानदंडों और प्रतिक्रिया पूर्वाग्रह के कारण नकारात्मक रूप से तिरछा वितरण की उम्मीद करने का कारण है। एक महत्व परीक्षण के लिए (भले ही मैं शायद प्रभाव के आकार की रिपोर्ट करना चाहता हूं, ईमानदारी से), मैं एक गैर-पद्धति का उपयोग करना चाहता हूं, और वास्तव में व्यक्तिगत रूप से प्रत्येक जनसंख्या में व्यक्तिपरक खुशी को समझने के लिए, मैं। बल्कि वितरण का अनुभवजन्य रूप से वर्णन करें, इसे कुछ सरल सैद्धांतिक वितरण के रूप में वर्गीकृत करने की कोशिश करें और किसी भी मिसफिट पर ध्यान न दें। वह सूचना IMO की बर्बादी है।

^{संदर्भ

- पार्कर, एससी (1999)। कमाई के वितरण के लिए एक मॉडल के रूप में सामान्यीकृत बीटा। अर्थशास्त्र पत्र, 62 (2), 197–200।

- सलेम, ABZ, और माउंट, टीडी (1974)। आय वितरण का एक सुविधाजनक वर्णनात्मक मॉडल: गामा घनत्व। इकोनोमेट्रिक, 42 (6), 1115-1127।

- टकर, केएल, ओज़र, डीजे, कोंगोमिरस्की, एस।, और बोहम, जेके (2006)। जीवन स्तर के साथ संतुष्टि में माप के लिए परीक्षण: रूसी और उत्तरी अमेरिकियों की तुलना। सामाजिक संकेतक अनुसंधान, 78 (2), 341360। Http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf से लिया गया ।}

— निक स्टैनर
स्रोत

आपके उत्तर के लिए धन्यवाद, निक। मुझे उदाहरण विशेष रूप से मददगार लगा।

— HFBrowning

चूहे की पूंछ की लंबाई संभवतः सामान्य रूप से वितरित की जाती है

मुझे उस पर शक होगा। सामान्य वितरण कई स्वतंत्र योज्य प्रभावों से उत्पन्न होते हैं। जैविक प्रणालियों में कई अंतःक्रियात्मक प्रतिक्रिया छोरों (अंतर-निर्भर गुणक प्रभाव) होते हैं। इसके अलावा अक्सर कुछ राज्य हैं जो दूसरों की तुलना में अधिक स्थिर होते हैं (यानी आकर्षित करने वाले)। तो किसी प्रकार की लंबी पूंछ या बहुविध वितरण शायद पूंछ की लंबाई का वर्णन करेगा। वास्तव में, सामान्य वितरण शायद किसी भी जैविक का वर्णन करने के लिए एक बहुत ही खराब डिफ़ॉल्ट विकल्प है और इसका दुरुपयोग उस साहित्य में बताए गए कई "आउटलेर" के लिए जिम्मेदार है। प्रकृति में इस वितरण की व्यापकता एक मिथक है और न कि केवल "सही हलकों में वास्तव में मौजूद नहीं है" अर्थ है। हालांकि यह इस बात का पालन नहीं करता है कि माध्य और एसडी सारांश आँकड़ों के रूप में बेकार हैं।

खासकर क्योंकि मैं आसानी से यह निर्धारित नहीं कर सकता कि यह "डेटा पर भरोसा करना" बेहतर हो सकता है (जैसे कि मेरे पास यह एक कायरतापूर्ण तिरछा डेटा सेट है, लेकिन n = 160 जो डेटा को पर्याप्त नहीं लगता है) और अनुभवजन्य के साथ चलते हैं, या इसे एक बीटा वितरण में फिट करें जैसे मेरा एक सहकर्मी जोर देता है। मुझे संदेह था कि उन्होंने केवल इसलिए चुना क्योंकि यह [0,1] पर आधारित है। यह सब वास्तव में तदर्थ लगता है। उम्मीद है कि यह मेरी मंशा को स्पष्ट करता है!

फिटिंग अनुभवजन्य वितरण अंतर्निहित प्रक्रिया पर संकेत प्रदान करता है, जो सैद्धांतिक वितरण के विकास की सुविधा प्रदान करता है। फिर सैद्धांतिक वितरण की तुलना सिद्धांत के साक्ष्य का परीक्षण करने के लिए अनुभवजन्य वितरण से की जाती है।

यदि आपका उद्देश्य उपलब्ध वर्तमान साक्ष्यों के आधार पर कुछ परिणामों की संभावना का आकलन कर रहा है और आपके पास उस विशेष वितरण को चुनने का कोई कारण नहीं है, तो मुझे लगता है कि मैं नहीं देखता कि अतिरिक्त धारणाएं कैसे सहायक हो सकती हैं। इसके बजाय यह मामलों को भ्रमित करने के लिए लगता है।

हालांकि, यदि आप डेटा का वर्णन या सारांश करने का प्रयास कर रहे हैं, तो वितरण को फिट करने के लिए समझ में आ सकता है।

— जर्द
स्रोत

हालांकि मैं केवल एक उत्तर को स्वीकार कर सकता हूं, मैं आपको यह इंगित करने के लिए धन्यवाद देना चाहता हूं कि वास्तव में सामान्य वितरण कैसे उत्पन्न होते हैं। इसने मुझे इस बारे में अधिक ध्यान से सोचने के लिए मजबूर किया कि सिद्धांत पर आधारित होने के लिए इसका क्या मतलब है।

— एचएफब्रोइंग

कुछ मामलों में यह स्पष्ट लगता है कि सिद्धांत सबसे अच्छा काम कर सकता है (चूहों की पूंछ की लंबाई संभवतः सामान्य रूप से वितरित की जाती है)।

पूंछ की लंबाई निश्चित रूप से सामान्य रूप से वितरित नहीं होती है।

सामान्य वितरण में नकारात्मक मूल्यों को लेने की एक गैर-जिम्मेदार संभावना है; पूंछ की लंबाई नहीं है।

जॉर्ज बॉक्स की प्रसिद्ध लाइन , " सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं " बिंदु को अच्छी तरह से बनाता है। ऐसे मामले जहां हम यथोचित रूप से सामान्यता का दावा कर सकते हैं (केवल अनुमानित सामान्यता के बजाय) वास्तव में बहुत दुर्लभ हैं, किंवदंती के लगभग जीव, आंख के कोने से कभी-कभी लगभग झलकते हैं।

बहुत सारे मामलों में डेटा के एक सेट का वर्णन करने के लिए शायद कोई सिद्धांत नहीं है, इसलिए आप बस कुछ का उपयोग करते हैं जो आपके पास काफी अच्छी तरह से फिट बैठता है चाहे वह मूल रूप से वर्णन करने के लिए विकसित किया गया हो?

उन मामलों में जहां आपकी रुचि के अनुसार विशेष रूप से पसंद के प्रति संवेदनशील नहीं हैं (जब तक कि वितरण की व्यापक विशेषताएं क्या ज्ञात हैं के अनुरूप हैं), तो हाँ, आप बस कुछ का उपयोग कर सकते हैं जो काफी अच्छी तरह से फिट बैठता है।

ऐसे मामलों में जहां संवेदनशीलता की एक बड़ी डिग्री होती है, 'बस कुछ फिट बैठता है' का उपयोग करना अपने आप में पर्याप्त नहीं है। हम कुछ दृष्टिकोणों का उपयोग कर सकते हैं जो विशेष धारणाएं नहीं बनाते हैं (शायद वितरण मुक्त प्रक्रियाएं, जैसे क्रमपरिवर्तन, बूटस्ट्रैपिंग या अन्य पुनःसमर्पण दृष्टिकोण, या मजबूत प्रक्रियाएं)। वैकल्पिक रूप से हम वितरण की धारणा के प्रति संवेदनशीलता का मूल्यांकन कर सकते हैं, जैसे कि सिमुलेशन के माध्यम से (वास्तव में मुझे लगता है कि यह आम तौर पर एक अच्छा विचार है)।

यह समस्या प्रतीत होती है कि शायद आपको अनुभवजन्य वितरण का उपयोग करना चाहिए यदि आपको वास्तव में कोई पता नहीं है।

मैं यह वर्णन नहीं करूंगा कि समस्या के रूप में - अनुभवजन्य वितरण पर आधारभूत अनुमान निश्चित रूप से एक वैध दृष्टिकोण है जो कई प्रकार की समस्याओं के लिए उपयुक्त है (क्रमचय / यादृच्छिकता और बूटस्ट्रैपिंग दो उदाहरण हैं)।

क्या किसी के पास इस समस्या के बारे में सोचने / सोचने का एक सुसंगत तरीका है?

मोटे तौर पर, बहुत सारे मामलों में, मैं जैसे सवालों पर विचार करता हूं:

1) इस फॉर्म के डेटा के लिए मैं क्या समझ रहा हूं कि कैसे (या अन्य स्थान-प्रकार मात्रा) का व्यवहार होता है?

* (सिद्धांत से, या डेटा के इस रूप का अनुभव, या विशेषज्ञ की सलाह, या यदि आवश्यक हो, तो डेटा से ही, हालांकि समस्याओं का सामना करना पड़ता है)

2) प्रसार (विचरण, आईक्यूआर, आदि) के बारे में क्या - यह कैसे व्यवहार करता है?

3) अन्य वितरण संबंधी विशेषताओं (सीमा, तिरछापन, असंगति, आदि) के बारे में क्या

4) निर्भरता के बारे में, आबादी की विषमता, कभी-कभी बहुत ही असंगत मूल्यों की प्रवृत्ति आदि

इस तरह का विचार एक सामान्य मॉडल, एक जीएलएम, कुछ अन्य मॉडल या कुछ मजबूत या वितरण-मुक्त दृष्टिकोण (जैसे बूटस्ट्रैपिंग या क्रमोन्नति / यादृच्छिककरण दृष्टिकोण, रैंक-आधारित प्रक्रियाओं सहित) के बीच एक विकल्प का मार्गदर्शन कर सकता है।

— Glen_b -Reinstate मोनिका
स्रोत