जीएलएम के एक विशेष परिवार के उपयोग को कौन से निदान मान्य कर सकते हैं?


19

यह बहुत प्राथमिक लगता है, लेकिन मैं हमेशा इस बिंदु पर अटक जाता हूं ...

मेरे द्वारा व्यवहार किए जाने वाले अधिकांश डेटा गैर-सामान्य हैं, और अधिकांश विश्लेषण GLM संरचना पर आधारित हैं। मेरे वर्तमान विश्लेषण के लिए, मेरे पास एक प्रतिक्रिया चर है जो "चलने की गति" (मीटर / मिनट) है। मेरे लिए यह पहचानना आसान है कि मैं ओएलएस का उपयोग नहीं कर सकता, लेकिन फिर, मुझे यह तय करने में बहुत अनिश्चितता है कि परिवार (गामा, वेबुल, आदि) क्या उपयुक्त है!

मैं स्टैटा का उपयोग करता हूं और डायग्नोस्टिक्स जैसे अवशिष्ट और विषमलैंगिकता, अवशिष्ट बनाम सज्जित मूल्यों आदि को देखता हूं।

मुझे पता है कि गणना डेटा एक दर (उदाहरण की दर) का रूप ले सकता है और गामा (एनालॉग से अघोषित नकारात्मक द्विपद मॉडल के एनालॉग) का उपयोग किया है, लेकिन बस एक "धूम्रपान बंदूक" को हां कहना होगा, आप सही हैं परिवार। क्या ऐसा करने के लिए केवल और सबसे अच्छे तरीके से मानकीकृत अवशेषों बनाम मानकीकृत अवशेषों को देखना है? मैं डेटा में कुछ पदानुक्रम के लिए एक मिश्रित मॉडल का उपयोग करना चाहूंगा, लेकिन पहले यह पता लगाने की आवश्यकता है कि परिवार ने मेरी प्रतिक्रिया चर का सबसे अच्छा वर्णन क्या किया है।

किसी भी मदद की सराहना की। स्टाटा भाषा विशेष रूप से सराहना की!


4
" मैं एक" धूम्रपान बंदूक "चाहूंगा, यह कहने के लिए हां, आप सही परिवार हैं " - कुछ भी आपको यह नहीं बताएगा। आप जिस चीज की आशा कर सकते हैं, वह एक ऐसा परिवार है जो स्पष्ट रूप से गलत नहीं है। ऐसे कई तरीके हैं जिनसे आप एक वितरण परिवार का चयन कर सकते हैं, लेकिन सामान्य तौर पर यह एक प्राथमिकता या सैद्धांतिक विचारों और डेटा से ही संकेत के संयोजन को शामिल करता है।
Glen_b -Reinstate मोनिका

जवाबों:


14

मेरे पास कुछ सुझाव हैं:

(1) अवशेषों की तुलना फिट रहने के लिए कैसे की जानी चाहिए, यह हमेशा स्पष्ट नहीं होता है, इसलिए विशेष मॉडलों के लिए निदान से परिचित होना अच्छा है। लॉजिस्टिक रिग्रेशन मॉडल में, उदाहरण के लिए, होसमेर-लेमेशो स्टेटिस्टिक का उपयोग फिट की अच्छाई का आकलन करने के लिए किया जाता है; उत्तोलन का मान छोटा होता है जहाँ अनुमानित अंतर बहुत बड़ा होता है, बहुत छोटा या यहाँ तक कि; & जल्द ही।

(2) कभी-कभी मॉडल के एक परिवार को दूसरे के विशेष मामले के रूप में देखा जा सकता है, इसलिए आप चुनने में मदद करने के लिए एक पैरामीटर पर एक परिकल्पना परीक्षण का उपयोग कर सकते हैं। उदाहरण के लिए घातीय बनाम वेबुल।

(3) एकैके की सूचना मानदंड विभिन्न मॉडलों के बीच चयन करने में उपयोगी है, जिसमें विभिन्न परिवारों के बीच चयन शामिल है।

(4) आप जो मॉडलिंग कर रहे हैं, उसके बारे में सैद्धांतिक / अनुभवजन्य ज्ञान प्रशंसनीय मॉडल के क्षेत्र को बताता है।

लेकिन 'सही' परिवार खोजने का कोई स्वचालित तरीका नहीं है; वास्तविक जीवन का डेटा आपके पसंद के अनुसार वितरण से जटिल हो सकता है, और आपके द्वारा लिए गए डेटा की मात्रा के साथ फिट होने की कोशिश करने लायक मॉडल की जटिलता। यह बॉक्स के डिक्टम का हिस्सा और पार्सल है कि कोई भी मॉडल सही नहीं है लेकिन कुछ उपयोगी हैं।

रे @ गंग की टिप्पणी: ऐसा प्रतीत होता है कि आमतौर पर इस्तेमाल किया जाने वाला होस्मेर-लेमेशो परीक्षण (a) आश्चर्यजनक रूप से डिब्बे की पसंद के प्रति संवेदनशील है, और (b) आमतौर पर वैकल्पिक परिकल्पना के कुछ प्रासंगिक वर्गों के खिलाफ कुछ अन्य परीक्षणों की तुलना में कम शक्तिशाली है। यह बिंदु (1) से अलग नहीं होता है: अप-टू-डेट होना भी अच्छा है।


धन्यवाद! आपके सुझाव सकुशल और सटीक हैं। मैं उन परिवारों में सीमित हूं जिन्हें मैं अपनी प्रतिक्रिया चर (सकारात्मक, निरंतर, लेकिन अत्यधिक तिरछी) की संरचना के कारण उपयोग कर सकता हूं। घातीय परिवार के बीच, ऐसा लगता है कि गामा वास्तव में एकमात्र विकल्प है। इस बीच, मुझे एनजे कॉक्स द्वारा कुछ उपयोगी उपकरण मिले हैं जैसा कि स्टैट जौनल 5 (2) में दिखाई देता है: 259-273 - गैम्फिट (आकार और पैमाने के मापदंडों का अनुमान है) और डोप्लॉट घनत्व संभावना प्लॉट के ओवरले और मेरे प्रतिक्रिया चर की अनुमति दे सकता है (हो सकता है) कई वितरण के साथ किया और मुझे अपने डेटा के लिए सबसे अच्छे परिवार से मेल खाने की अनुमति देता है)। अन्य शर्करा के लिए धन्यवाद!
21

1
ध्यान दें कि होस्मेर-लेमेशो गोएफ परीक्षण का उपयोग किए गए द्विपार्श्व पर निर्भर होने / अविश्वसनीय होने के लिए दिखाया गया है।
गूँग - मोनिका

@ गुंग, यह स्पष्ट रूप से इस्तेमाल की जाने वाली बिनिंग पर निर्भर करता है - आदर्श नहीं है, लेकिन यह सुनिश्चित नहीं है कि यह एक बड़ी समस्या है जब तक कि आप इच्छित परिणाम के लिए प्रयास करने के लिए binnings के साथ फ़िडलिंग शुरू न करें। यह कैसे अविश्वसनीय है और क्या अन्य परीक्षण बेहतर हैं?
Scortchi - को पुनः स्थापित मोनिका


1
आप सही कह रहे हैं कि "अमान्य" बहुत मजबूत है; मैंने केवल "अविश्वसनीय" कहा और हार्ले "अप्रचलित" का उपयोग करता है, हालांकि।
गूँग -

8

आर पैकेज के लिए विगनेट (परिचयात्मक मैनुअल) पढ़ना आपको दिलचस्प लग सकता है fitdistrplus। मैं मानता हूं कि आप स्टाटा में काम करना पसंद करते हैं, लेकिन मुझे लगता है कि विगनेट पर्याप्त रूप से आत्म-व्याख्यात्मक होगा कि आप डेटा से वितरण परिवारों को संदर्भित करने की प्रक्रिया में कुछ अंतर्दृष्टि प्राप्त कर सकते हैं। आप शायद अपने स्वयं के कोड के माध्यम से स्टाटा में कुछ विचारों को लागू करने में सक्षम होंगे। विशेष रूप से, मुझे लगता है कि कुलेन और फ्रे ग्राफ, अगर यह / स्टटा में लागू किया जा सकता है, तो आपके लिए मददगार हो सकता है।


मैंने इस समस्या पर फिर से विचार किया है, और आर पर स्विच किया है और एक मार्गदर्शन के रूप में ज़्यूर और इनो का उपयोग कर रहा हूं। अभी भी कई मुद्दे हैं, लेकिन सामान्य तौर पर मुझे लगता है कि varIdent का उपयोग करके मेरे मॉडल डायग्नोस्टिक्स ऐसे दिखते हैं जैसे उनके पास 'मामूली विषमता' है। फिट के खिलाफ अवशेषों को प्लॉट करना अच्छा लगता है, प्रत्येक कोवरिएट के खिलाफ रेसिडेंस मेरे मॉडल चर (ऊंचाई) में से एक के लिए कुछ कायरतापूर्ण परिणाम प्रदान करता है - ज्यादातर उच्च ऊंचाई पर छोटे नमूना आकार का एक कार्य है। Fitdistrplus पर आपकी टिप्पणी के लिए धन्यवाद। अब जब मैं R और Rstudio का उपयोग कर रहा हूँ (इसे प्यार करता हूँ!) यह आसान होगा!
RLang

1
लिंक टूट गया है। क्या यह इंट्रो मैनुअल है जिसके बारे में आप बात कर रहे थे? cran.r-project.org/doc/contrib/Ricci-distributions-en.pdf : या यह इस एक था cran.r-project.org/web/packages/fitdistrplus/vignettes/...
emschorsch

उत्तरार्द्ध लिंक विगनेट का एक अलग संस्करण प्रतीत होता है जिसका मैं उल्लेख कर रहा था।
गूँग - मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.