यद्यपि यह मेरा अपना प्रश्न है, मैं उत्तर के रूप में अपने स्वयं के दो-सेंट भी पोस्ट करने जा रहा हूं, ताकि हम इस प्रश्न पर दृष्टिकोण की संख्या में जोड़ दें। यहां मुद्दा यह है कि शुरू में डेटा के लिए एक-पैरामीटर वितरण को फिट करने के लिए समझदारी है या नहीं। जब आप एक-पैरामीटर वितरण का उपयोग करते हैं (जैसे कि पॉइसन जीएलएम, या फिक्स्ड ट्रायल पैरामीटर के साथ एक द्विपद जीएलएम), तो विचरण एक मुक्त पैरामीटर नहीं है, और इसके बजाय अर्थ के कुछ फ़ंक्शन होने के लिए विवश है। इसका मतलब यह है कि किसी भी स्थिति में डेटा के लिए एक-पैरामीटर वितरण को फिट करने के लिए यह गलत है कि आप बिल्कुल सुनिश्चित नहीं हैं कि विचरण उस वितरण की संरचना का अनुसरण करता है।
डेटा के लिए एक-पैरामीटर वितरण को समाप्त करना लगभग हमेशा एक बुरा विचार है: प्रस्तावित मॉडल की तुलना में डेटा अक्सर गड़बड़ होता है, और यहां तक कि जब कोई विशेष एक-पैरामीटर मॉडल प्राप्त हो सकता है, यह विश्वास करने के लिए सैद्धांतिक कारण हैं, तो अक्सर ऐसा होता है कि डेटा वास्तव में पैरामीटर मानों की एक श्रृंखला के साथ, उस एक-पैरामीटर वितरण के मिश्रण से आते हैं। यह अक्सर एक व्यापक मॉडल के बराबर होता है, जैसे कि दो-पैरामीटर वितरण जो विचरण के लिए अधिक स्वतंत्रता की अनुमति देता है। जैसा कि नीचे चर्चा की गई है, यह गणना डेटा के मामले में पॉइसन जीएलएम के लिए सही है।
जैसा कि सवाल में कहा गया है, आंकड़ों के अधिकांश अनुप्रयोगों में, वितरण रूपों का उपयोग करने के लिए मानक अभ्यास है जो कम से कम पहले दो क्षणों को स्वतंत्र रूप से भिन्न होने की अनुमति देता है। यह सुनिश्चित करता है कि फिट किया गया मॉडल डेटा को इन कृत्रिम रूप से विवश करने के बजाय अवर माध्य और विचरण को निर्देशित करने की अनुमति देता है। इस दूसरे पैरामीटर के होने से केवल मॉडल में एक डिग्री की स्वतंत्रता खो जाती है, जो डेटा से अनुमान लगाने की अनुमति देने के लाभ की तुलना में एक छोटा नुकसान है। एक निश्चित रूप से इस तर्क का विस्तार कर सकता है और तिरछा फिटिंग की अनुमति देने के लिए एक तीसरा पैरामीटर जोड़ सकता है, एक चौथाई कुर्ते की फिटिंग की अनुमति दे सकता है, आदि।
कुछ बेहद मामूली अपवादों के साथ, एक पॉइसन जीएलएम एक बुरा मॉडल है: मेरे अनुभव में, डेटा की गणना करने के लिए एक पॉइसन वितरण को फिट करना लगभग हमेशा एक बुरा विचार है। गणना के आंकड़ों के लिए यह डेटा के विचरण के लिए पॉसन वितरण के सापेक्ष 'अति-फैलाव' होना बेहद आम है। यहां तक कि उन स्थितियों में जहां सिद्धांत एक पॉइसन वितरण को इंगित करता है, अक्सर सबसे अच्छा मॉडल पॉइसन वितरण का मिश्रण होता है, जहां विचरण एक मुक्त पैरामीटर बन जाता है। वास्तव में, गणना डेटा के मामले में ऋणात्मक-द्विपद वितरण दर पैरामीटर के लिए गामा वितरण के साथ एक पॉइज़न मिश्रण है, इसलिए यहां तक कि जब यह सोचने के सैद्धांतिक कारण होते हैं कि काउंस एक पॉइसन वितरण की प्रक्रिया के अनुसार आते हैं, तो अक्सर ऐसा होता है कि 'अति-फैलाव' होता है और नकारात्मक-द्विपद वितरण बहुत बेहतर होता है।
डेटा को गिनने और फिर 'अति-फैलाव' की जाँच के लिए एक सांख्यिकीय परीक्षण करने के लिए एक पोइसन जीएलएम को फिट करने का अभ्यास एक अतिवाद है, और यह शायद ही कभी एक अच्छा अभ्यास है। सांख्यिकीय विश्लेषण के अन्य रूपों में, हम दो-पैरामीटर वितरण के साथ शुरू नहीं करते हैं, मनमाने ढंग से एक विचरण प्रतिबंध का चयन करते हैं, और फिर इस प्रतिबंध के लिए परीक्षण करते हैं कि वितरण से एक पैरामीटर को खत्म करने का प्रयास करें। इस तरह से चीजें करने से, हम वास्तव में एक अजीब हाइब्रिड प्रक्रिया बनाते हैं, जिसमें मॉडल चयन के लिए उपयोग की जाने वाली प्रारंभिक परिकल्पना परीक्षण शामिल है, और फिर वास्तविक मॉडल (या तो पॉइसन, या एक व्यापक वितरण)। कई संदर्भों में यह दिखाया गया है कि एक प्रारंभिक मॉडल चयन परीक्षण से हाइब्रिड मॉडल बनाने के इस तरह के अभ्यास से समग्र मॉडल खराब होते हैं।
एक अनुरूप स्थिति, जहां एक समान संकर विधि का उपयोग किया गया है, मतलब अंतर के टी-परीक्षणों में है। यह ऐसा मामला हुआ करता था कि आँकड़े पाठ्यक्रम पहले लेवेन के परीक्षण (या यहां तक कि कुछ बहुत क्रैपीयर "अंगूठे के नियम") का उपयोग करके दो आबादी के बीच भिन्नताओं की समानता की जांच करने की सलाह देते थे , और फिर यदि डेटा "परीक्षण" पास करता है, तो आप स्टूडेंट टी-टेस्ट का उपयोग करें जो समान भिन्नता मानता है, और यदि डेटा परीक्षण में "विफल" हो जाता है, तो आप इसके बजाय वेल्च के टी-टेस्ट का उपयोग करेंगे। यह वास्तव में एक बुरी प्रक्रिया है (उदाहरण के लिए, यहां और यहां देखें))। यह केवल बाद के परीक्षण का उपयोग करने के लिए बहुत बेहतर है, जो एक अजीब यौगिक परीक्षण बनाने के बजाय विचरण पर कोई धारणा नहीं बनाता है, जो प्रारंभिक परिकल्पना परीक्षण के साथ मिलकर जाम करता है और फिर मॉडल का चयन करने के लिए इसका उपयोग करता है।
गणना डेटा के लिए, आप आमतौर पर दो-पैरामीटर मॉडल जैसे कि एक नकारात्मक-द्विपद या अर्ध-पॉइसन मॉडल को फिट करके अच्छे प्रारंभिक परिणाम प्राप्त करेंगे। (ध्यान दें कि उत्तरार्द्ध एक वास्तविक वितरण नहीं है, लेकिन यह अभी भी एक उचित दो-पैरामीटर मॉडल देता है।) यदि किसी भी आगे के सामान्यीकरण की आवश्यकता है, तो यह आमतौर पर शून्य-मुद्रास्फीति के अतिरिक्त होता है, जहां अत्यधिक संख्या में शून्य होते हैं। डेटा में। एक पॉइसन GLM के लिए प्रतिबंधित एक कृत्रिम और संवेदनहीन मॉडल विकल्प है, और इसे अधिक फैलाव के लिए परीक्षण करके बेहतर नहीं बनाया गया है।
ठीक है, अब यहाँ कुछ मामूली अपवाद हैं: ऊपर की एकमात्र वास्तविक अपवाद दो स्थितियाँ हैं:
(1) आपके पास बेहद मजबूत एक प्रायोरी विश्वास है कि एक पैरामीटर वितरण के लिए मान्यताओं संतुष्ट हैं, और विश्लेषण के भाग के डेटा के खिलाफ इस सैद्धांतिक मॉडल का परीक्षण करने के लिए है सैद्धांतिक कारण; या
(2) किसी अन्य (अजीब) कारण के लिए, आपके विश्लेषण का उद्देश्य डेटा के विचरण पर एक परिकल्पना परीक्षण करना है, और इसलिए आप वास्तव में इस परिकल्पना को इस परिकल्पना प्रतिबंध तक सीमित करना चाहते हैं, और फिर इस परिकल्पना का परीक्षण करें।
ये स्थितियां बहुत दुर्लभ हैं। वे केवल तभी उत्पन्न होते हैं जब डेटा-जनरेटिंग तंत्र के बारे में एक प्राथमिक सैद्धांतिक ज्ञान मजबूत होता है , और विश्लेषण का उद्देश्य इस अंतर्निहित सिद्धांत का परीक्षण करना है। यह अनुप्रयोगों की एक अत्यंत सीमित सीमा में मामला हो सकता है जहां डेटा को कसकर नियंत्रित स्थितियों (जैसे भौतिकी में) के तहत उत्पन्न किया जाता है।