मॉडल निर्माण और होस्मेर एट अल का उपयोग करके चयन। 2013. एप्लाइड लॉजिस्टिक रिग्रेशन आर में


17

यह StackExchange पर मेरी पहली पोस्ट है, लेकिन मैं इसे काफी समय से संसाधन के रूप में उपयोग कर रहा हूं, मैं उचित प्रारूप का उपयोग करने और उचित संपादन करने के लिए अपनी पूरी कोशिश करूंगा। साथ ही, यह एक बहु-भाग प्रश्न है। मुझे यकीन नहीं था कि मुझे प्रश्न को कई अलग-अलग पदों या सिर्फ एक में विभाजित करना चाहिए। चूँकि प्रश्न एक ही पाठ में एक सेक्शन से होते हैं इसलिए मुझे लगा कि एक प्रश्न के रूप में पोस्ट करना अधिक प्रासंगिक होगा।

मैं एक मास्टर की थीसिस के लिए एक विशाल स्तनपायी प्रजातियों के निवास स्थान के उपयोग पर शोध कर रहा हूं। इस प्रकल्प का लक्ष्य वन प्रबंधकों (जो कि संभवतः सांख्यिकीविद् नहीं हैं) को इस प्रजाति के संबंध में उनके द्वारा प्रबंधित भूमि पर आवास की गुणवत्ता का आकलन करने के लिए एक व्यावहारिक ढांचे के साथ प्रदान करना है। यह जानवर अपेक्षाकृत मायावी है, एक निवास स्थान विशेषज्ञ, और आमतौर पर दूरदराज के क्षेत्रों में स्थित है। प्रजातियों के वितरण के संबंध में अपेक्षाकृत कम अध्ययन किए गए हैं, विशेष रूप से मौसमी रूप से। कई जानवरों को एक वर्ष की अवधि के लिए जीपीएस कॉलर के साथ लगाया गया था। प्रत्येक जानवर के जीपीएस कॉलर डेटा से एक सौ स्थानों (50 गर्मियों और 50 सर्दियों) को यादृच्छिक रूप से चुना गया था। इसके अलावा, "उपलब्ध" या "छद्म-अनुपस्थिति" स्थानों के रूप में सेवा करने के लिए प्रत्येक जानवर के घर की सीमा के भीतर 50 अंक बेतरतीब ढंग से उत्पन्न हुए थे।

प्रत्येक स्थान के लिए, कई निवास स्थान चर (पेड़ के व्यास, क्षैतिज आवरण, मोटे लकड़ी के मलबे, आदि) के नमूने लिए गए थे और कई को जीआईएस (ऊंचाई, सड़क की दूरी, असभ्यता, आदि) के माध्यम से दूर से नमूना लिया गया था। वैरिएबल 1 श्रेणीगत चर को छोड़कर ज्यादातर निरंतर होते हैं जिसमें 7 स्तर होते हैं।

मेरा लक्ष्य संसाधन इकाइयों के उपयोग की सापेक्ष संभावना को मॉडल करने के लिए संसाधन चयन कार्यों (आरएसएफ) के निर्माण के लिए प्रतिगमन मॉडलिंग का उपयोग करना है। मैं जानवरों की आबादी (डिजाइन प्रकार I) के साथ-साथ प्रत्येक व्यक्तिगत जानवर (डिजाइन प्रकार III) के लिए एक मौसमी (सर्दी और गर्मी) आरएसएफ का निर्माण करना चाहूंगा।

मैं सांख्यिकीय विश्लेषण करने के लिए R का उपयोग कर रहा हूं।

प्राथमिक पाठ मैं उपयोग कर रहा है है ...

  • "होसमर, डीडब्ल्यू, लेमेशो, एस।, और स्टुरिडिवेंट, आरएक्स 2013। एप्लाइड लॉजिस्टिक रिग्रेशन। विली, चिसेस्टर"।

होसमेर एट अल में अधिकांश उदाहरण। STATA का उपयोग करें, मैं आर के साथ संदर्भ के लिए निम्नलिखित 2 ग्रंथों का उपयोग कर रहा हूं

  • "क्रॉली, एमजे 2005। सांख्यिकी: आरजे विली, चिसेस्टर, वेस्ट ससेक्स, इंग्लैंड का उपयोग कर एक परिचय।"
  • "प्लांट, आरई 2012. पारिस्थितिकी और कृषि में स्थानिक डेटा विश्लेषण आर। सीआरसी प्रेस, लंदन, जीबीआर का उपयोग करना।"

मैं वर्तमान में होसमेर एट अल के अध्याय 4 के चरणों का पालन कर रहा हूं "कोवरेट्स के उद्देश्यपूर्ण चयन" और प्रक्रिया के बारे में कुछ प्रश्न हैं। मैंने अपने प्रश्नों में सहायता के लिए नीचे दिए गए पाठ में पहले कुछ चरणों को रेखांकित किया है।

  1. चरण 1: प्रत्येक स्वतंत्र चर का एक अविभाज्य विश्लेषण (मैंने एक अविभाज्य लॉजिस्टिक प्रतिगमन का उपयोग किया)। कोई भी वैरिएबल जिसका अविभाज्य परीक्षण 0.25 से कम का पी-वैल्यू है, को पहले मल्टीवार्जेबल मॉडल में शामिल किया जाना चाहिए।
  2. चरण 2: चरण 1 में शामिल किए जाने के लिए पहचाने जाने वाले सभी कोवरिअट्स वाले एक बहुउपयोगी मॉडल को फिट करें और अपने वाल्ड स्टेटिस्टिक के पी-मूल्य का उपयोग करके प्रत्येक कोवरिएट के महत्व का आकलन करें। महत्व के पारंपरिक स्तरों पर योगदान नहीं करने वाले चर को समाप्त किया जाना चाहिए और एक नया मॉडल फिट होना चाहिए। आंशिक संभावना अनुपात परीक्षण का उपयोग करते हुए पुराने, बड़े मॉडल की तुलना में नए, छोटे मॉडल की तुलना की जानी चाहिए।
  3. चरण 3: छोटे मॉडल में अनुमानित गुणांक के मूल्यों की तुलना बड़े मॉडल से उनके संबंधित मूल्यों से करें। कोई भी चर जिसका गुणांक परिमाण में स्पष्ट रूप से बदल गया है, उसे वापस मॉडल में जोड़ा जाना चाहिए क्योंकि यह मॉडल में बने रहने वाले चर के प्रभाव का एक आवश्यक समायोजन प्रदान करने के अर्थ में महत्वपूर्ण है। चरण 2 और 3 के माध्यम से चक्र जब तक यह प्रकट नहीं होता है कि सभी महत्वपूर्ण चर मॉडल में शामिल हैं और जिन्हें बाहर रखा गया है वे चिकित्सकीय और / या सांख्यिकीय रूप से महत्वहीन हैं। होसमेर एट अल। गुणांक के परिमाण में परिवर्तन के उपाय के रूप में " डेल्टा-बीटा-हैट-प्रतिशत " का उपयोग करें। वे डेल्टा-बीटा-हैट-प्रतिशत > 20% के रूप में एक महत्वपूर्ण बदलाव का सुझाव देते हैं । होसमेर एट अल। डेल्टा-बीटा-हैट-प्रतिशत के रूप में परिभाषित करें। कहाँθ1छोटे मॉडल से गुणांक है औरβ1बड़ा मॉडल से गुणांक है।Δβ^%=100θ^1β^1β^1θ^1β^1
  4. चरण 4: चरण 1 के अंत में प्राप्त मॉडल में चरण 1 में चयनित प्रत्येक चर को जोड़ें, जो एक समय में एक है, और इसके महत्व की जाँच करें या तो वाल्ड स्टैटिस्टिक पी-वैल्यू या आंशिक संभावना अनुपात परीक्षण द्वारा यह स्पष्ट है कि क्या है 2 से अधिक स्तरों के साथ चर। यह चरण उन चरों की पहचान करने के लिए महत्वपूर्ण है, जो स्वयं से, परिणाम से संबंधित नहीं हैं, लेकिन अन्य चर की उपस्थिति में महत्वपूर्ण योगदान देते हैं। हम प्रारंभिक मुख्य प्रभाव मॉडल के रूप में चरण 4 के अंत में मॉडल का उल्लेख करते हैं ।
  5. चरण 5-7: मैंने इस बिंदु पर प्रगति नहीं की है इसलिए मैं इन चरणों को अभी के लिए छोड़ दूंगा, या उन्हें एक अलग प्रश्न के लिए बचाऊंगा।

मेरे सवाल:

  1. चरण 2 में, पारंपरिक स्तर के महत्व के रूप में क्या उपयुक्त होगा, <0.05 का पी-मान <25 जैसा कुछ बड़ा है?
  2. चरण 2 में, मैं यह सुनिश्चित करना चाहता हूं कि आंशिक संभावना परीक्षण के लिए मैं जिस आर कोड का उपयोग कर रहा हूं वह सही है और मैं यह सुनिश्चित करना चाहता हूं कि मैं परिणामों की सही व्याख्या कर रहा हूं। यहां मैं वही कर रहा हूं ... anova(smallmodel,largemodel,test='Chisq')यदि पी-मूल्य महत्वपूर्ण है (<0.05) मैं चर को मॉडल में वापस जोड़ता हूं, अगर यह महत्वहीन है तो मैं विलोपन के साथ आगे बढ़ता हूं?
  3. चरण 3 में, मेरे पास डेल्टा-बीटा-हैट-प्रतिशत के बारे में एक प्रश्न है और जब मॉडल में एक अपवर्जित चर जोड़ने के लिए उपयुक्त है। उदाहरण के लिए, मैं मॉडल से एक चर को बाहर निकालने और यह परिवर्तन > 20% की एक अलग चर के लिए। हालांकि, में> 20% परिवर्तन के साथ चर Δ बीटा % जैसे कि यह कदम 2 की अगले कुछ चक्रों में मॉडल से बाहर रखा जाएगा और 3. मैं कैसे करता है, तो दोनों चर एक दृढ़ संकल्प कर सकते हैं तुच्छ और दिखता प्रतीत हो रहा है शामिल किया जाना चाहिए या मॉडल से बाहर रखा जाना चाहिए? क्योंकि मैं पहले कम से कम महत्वपूर्ण चर को हटाकर एक समय में 1 चर को छोड़कर आगे बढ़ रहा हूं, मैं एक चर को क्रम से बाहर करने में संकोच कर रहा हूं।Δβ^%Δβ^%
  4. अंत में, मुझे यकीन है कि कोड मैं गणना करने के लिए उपयोग कर रहा हूँ बनाना चाहते सही है। मैं निम्नलिखित कोड का उपयोग कर रहा हूं। अगर कोई ऐसा पैकेज है जो मेरे लिए ऐसा करेगा या ऐसा करने का एक और सरल तरीका है जो मैं सुझावों के लिए खुला हूं। Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


जिज्ञासा से बाहर है कि आप किस प्रजाति का अध्ययन कर रहे हैं?
फोरकास्टर

जवाबों:


24

उन प्रस्तावित विधियों में से कोई भी कार्य करने के लिए सिमुलेशन अध्ययन द्वारा नहीं दिखाया गया है। एक पूर्ण मॉडल तैयार करने में अपने प्रयासों को खर्च करें और फिर इसे फिट करें। Univariate स्क्रीनिंग मॉडल निर्माण के लिए एक भयानक दृष्टिकोण है, और स्टेप वाइज चर चयन के अन्य घटक जो आप उपयोग करना चाहते हैं, उसी तरह से बचा जाना चाहिए। इस साइट पर लंबाई पर चर्चा की गई है। आपको पहली बार में क्या विचार आया कि चर को कभी-कभी मॉडल से हटा दिया जाना चाहिए क्योंकि वे "महत्वपूर्ण" नहीं हैं? किसी भी मॉडल के विनिर्देशन को निर्देशित करने के लिए -values ​​या β में परिवर्तन का उपयोग न करें ।Pβ


3
हां, डोमेन ज्ञान + सादगी में अविश्वास की एक स्वस्थ खुराक, उदाहरण के लिए, निरंतर चर को तब तक ग्रहण न करें जब तक कि आपके पास रैखिकता का प्रदर्शन करने वाला पूर्व डेटा न हो।
फ्रैंक हार्डेल

6
ओपी अपने तीसरे संस्करण में उन लेखकों के साथ एक मुख्यधारा के पाठ का हवाला दे रहा है जिन्होंने इस क्षेत्र में महान योगदान दिया है। प्रश्न में किए गए अन्य बिंदुओं पर अन्य प्रभावशाली ग्रंथों (अग्रिस्ती, गेलमैन) में चर्चा की गई है। मैं इसे इसलिए लाता हूं क्योंकि मैं इस रणनीति से सहमत हूं, बल्कि यह ध्यान देने के लिए कि इन रणनीतियों को हाल के, मुख्यधारा के ग्रंथों में सम्मानित सांख्यिकीविदों द्वारा सलाह दी जाती है। संक्षेप में: हालाँकि इस के खिलाफ बहुत सारे साहित्य की सलाह है, लेकिन यह सांख्यिकीय समुदाय द्वारा अस्वीकार नहीं किया गया लगता है।
12

2
मेरी विनम्र राय में यह काफी गलत है। कुछ ग्रंथों में इतनी कड़ी मेहनत की गई रणनीतियों को कभी मान्य नहीं किया गया। सिमुलेशन में विश्वास नहीं करने वाले लेखकों ने उन तरीकों के उपयोग की वकालत करने के लिए खुद को जोखिम में डाल दिया जो विज्ञापन के रूप में काम नहीं करते हैं।
फ्रैंक हरेल

2
हाँ मैं जानता हूँ। मैं अक्सर आपके पाठ और कागजात का उल्लेख करता हूं, और इसके स्रोतों में से एक जिसका उपयोग मैंने ऊपर की रणनीति से असहमत अपने निष्कर्ष पर पहुंचने के लिए किया है। मैं केवल लागू उपयोगकर्ता की दुविधा बता रहा हूं। हम सब कुछ परख नहीं सकते। हम आपके जैसे विशेषज्ञों पर भरोसा करते हैं।
20

3
@GNG: FH सिमुलेशन के रूप में संदर्भित करता है कि यह दर्शाता है कि मॉडल चयन के लिए यह दृष्टिकोण वास्तव में वही करता है जो वह करना चाहता है (संभवतः आपके मॉडल की भविष्यवाणियों की सटीकता में सुधार करने के लिए)। आपके (अचरज) सवाल इसके बजाय मनमाने ढंग से उजागर होते हैं, तदर्थ, प्रकृति - "पारंपरिक" स्तरों पर अनिश्चित परीक्षणों की अनिश्चित संख्या पर आधारित चर समावेश को किसी भी चीज के अनुकूलन की गारंटी देने के लिए सिद्धांत द्वारा नहीं दिखाया जा सकता है।
Scortchi - को पुनः स्थापित मोनिका

5

पी के रूप में सांख्यिकीय का उपयोग करके चर चयन के लिए निर्दिष्ट तरीके, क्लासिक पाठ होस्मर एट अल में स्टेपवाइज रिग्रेशन हर कीमत पर बचा जाना चाहिए।

हाल ही में मैं एक लेख पर स्तब्ध हो गया, जिसका शीर्षक पूर्वानुमान के अंतर्राष्ट्रीय जर्नल में प्रकाशित किया गया था, " भ्रम की स्थिति का भ्रम " और कीथ द्वारा इस लेख पर एक टिप्पणी । मैं इन दोनों लेखों की अत्यधिक अनुशंसा करता हूं क्योंकि वे स्पष्ट रूप से दिखाते हैं कि प्रतिगमन सांख्यिकीय का उपयोग करना अक्सर भ्रामक होता है। Follwoing कीथ ऑर्ड के लेख का एक स्क्रीनशॉट है जो सिमुलेशन द्वारा दिखाता है कि चर चयन के लिए चरण वार प्रतिगमन (पी स्टेटिस्टिक का उपयोग क्यों करता है) खराब है।

यहाँ छवि विवरण दर्ज करें

स्कॉट आर्मस्ट्रांग का एक और अद्भुत लेख जो पत्रिका के एक ही अंक में दिखाई दिया, यह दर्शाता है कि केस स्टडी के साथ गैर-प्रायोगिक डेटा पर प्रतिगमन विश्लेषण का उपयोग करने पर बहुत सतर्क क्यों होना चाहिए। जब से मैंने इन लेखों को पढ़ा है मैं गैर-प्रयोगात्मक डेटा पर कारण निष्कर्ष निकालने के लिए प्रतिगमन विश्लेषण का उपयोग करने से बचता हूं। एक अभ्यासी के रूप में, मेरी इच्छा है कि मैंने इस तरह के कई वर्षों के लेखों को पढ़ा होगा जो मुझे बुरे निर्णय लेने और महंगी गलतियों से बचने के लिए बचाए थे।

आपकी विशिष्ट समस्या पर, मुझे नहीं लगता कि आपके मामले में यादृच्छिक प्रयोग संभव हैं, इसलिए मेरा सुझाव है कि आप चरों का चयन करने के लिए क्रॉस सत्यापन का उपयोग करें। एक अच्छा काम किया उदाहरण इस मुफ्त ऑनलाइन पुस्तक में उपलब्ध है कि आप चर का चयन करने के लिए भविष्य कहनेवाला सटीकता का उपयोग कैसे करेंगे। यह भी कई othervariable सेलेक्शन विधियों, लेकिन मैं पार सत्यापन के लिए प्रतिबंधित है।

मैं व्यक्तिगत रूप से आर्मस्ट्रांग के उद्धरण को पसंद करता हूं "कहीं न कहीं मुझे इस विचार का सामना करना पड़ा था कि आंकड़े संचार की सहायता के लिए थे। जटिल प्रतिगमन तरीके और नैदानिक ​​आंकड़ों के झुंड ने हमें दूसरी दिशा में ले लिया है"

नीचे मेरी अपनी राय है मैं सांख्यिकीविद् नहीं हूं।

  • एक जीवविज्ञानी के रूप में मुझे लगता है कि आप इस बिंदु की सराहना करेंगे। प्रकृति बहुत जटिल है, लॉजिस्टिक फ़ंक्शन मानती है और चर के बीच कोई बातचीत प्रकृति में नहीं होती है। इसके अलावा, लॉजिस्टिक रिग्रेशन की निम्न धारणाएँ हैं :

  • सच्ची सशर्त सम्भावनाएँ स्वतंत्र चर का एक तार्किक कार्य है।

  • कोई महत्वपूर्ण चर छोड़ा नहीं गया है। कोई बाहरी चर शामिल नहीं हैं।

  • स्वतंत्र चर त्रुटि के बिना मापा जाता है।
  • प्रेक्षण स्वतंत्र हैं।
  • स्वतंत्र चर एक दूसरे के रैखिक संयोजन नहीं हैं।

मैं इस प्रकार के विश्लेषण के लिए लॉजिस्टिक रिग्रेशन के विकल्प के रूप में वर्गीकरण और प्रतिगमन ट्री (CART (r)) की सिफारिश करूंगा क्योंकि यह मान्यताओं से मुक्त है:

  1. गैर पैरामीट्रिक / डेटा प्रेरित / कोई मान्यता नहीं है कि आपके आउटपुट संभावनाएं लॉजिस्टिक फ़ंक्शन का पालन करती हैं।
  2. गैर रेखीय
  3. जटिल चर बातचीत की अनुमति देता है।
  4. अत्यधिक व्याख्यात्मक दृश्य पेड़ प्रदान करता है कि वन प्रबंधकों की तरह एक गैर सांख्यिकीविद् सराहना करेंगे।
  5. आसानी से लापता मूल्यों को संभालता है।
  6. CART का उपयोग करने के लिए एक सांख्यिकीविद् होने की आवश्यकता नहीं है !!
  7. स्वचालित रूप से क्रॉस सत्यापन का उपयोग करके चर का चयन करता है।

CART Salford Systems का एक ट्रेडमार्क है। CART के परिचय और इतिहास के लिए यह वीडियो देखें । उसी वेबसाइट में कार्ट - लॉजिस्टिक रिग्रेशन हाइब्रिड जैसे अन्य वीडियो भी हैं। मैं इसकी जांच करूंगा। R में एक ओपन सोर्स इंप्रेशन को ट्री कहा जाता है , और कई अन्य पैकेज हैं जैसे R में Rattle उपलब्ध हैं। अगर मुझे समय मिलता है, तो मैं CART का उपयोग करके होमर के टेक्स्ट में पहला उदाहरण पोस्ट करूंगा। यदि आप लॉजिस्टिक प्रतिगमन का उपयोग करने पर जोर देते हैं, तो मैं कम से कम CART जैसे तरीकों का उपयोग करके चर का चयन करूंगा और फिर लॉजिस्टिक रिग्रेशन लागू करूंगा।

मैं व्यक्तिगत रूप से उपर्युक्त फायदों के कारण लॉजिस्टिक रिग्रेशन पर कार्ट को प्राथमिकता देता हूं। लेकिन फिर भी, मैं दोनों लॉजिस्टिक रिग्रेशन और कार्ट या कार्ट-लॉजिस्टक रिग्रेशन हाइब्रिड की कोशिश करूंगा, और यह देखूंगा कि कौन सी बेहतर भविष्यवाणी करता है और साथ ही अधिक महत्वपूर्ण रूप से बेहतर व्याख्यात्मकता भी है और जो आपको लगता है कि डेटा को "स्पष्ट रूप से" संवाद करेगा।

इसके अलावा, FYI CART को प्रमुख सांख्यिकीय पत्रिकाओं द्वारा खारिज कर दिया गया और आखिरकार CART के आविष्कारक एक मोनोग्राफ के साथ सामने आए। CART ने रैंडम फॉरेस्ट (r), ग्रैडिएंट बूस्टिंग मशीन (GBM), मल्टीवेरेट एडेप्टिव रिग्रेशन स्प्लिन्स जैसे आधुनिक और अत्यधिक सफल मशीन लर्निंग एल्गोरिदम का मार्ग प्रशस्त किया। यादृच्छिक और जीबीएम कार्ट की तुलना में अधिक सटीक हैं, लेकिन कार्ट की तुलना में कम व्याख्यात्मक (जैसे ब्लैक बॉक्स) हैं।

उम्मीद है कि यह उपयोगी है। मुझे पता है अगर आप इस पोस्ट उपयोगी पाते हैं?


8
Y

3
यह उत्तर सामान्य टिप्पणियों से उछलता है, जिनमें से कई मुझे पसंद के तरीके के रूप में कार्ट के अत्यधिक विशिष्ट और बल्कि व्यक्तिगत समर्थन के लिए कम से कम मेरे लिए विवादास्पद लगते हैं। आप अपने विचारों के हकदार हैं, क्योंकि अन्य लोग उनकी आपत्तियों के हकदार होंगे। मेरा सुझाव यह है कि आप अपने उत्तर के दो गुना स्वाद को और अधिक स्पष्ट रूप से चिह्नित करते हैं।
निक कॉक्स

2
लॉजिस्टिक रिग्रेशन एक सामान्यीकृत रैखिक मॉडल है, लेकिन अन्यथा यह रक्षात्मक है, वास्तव में अच्छी तरह से प्रेरित है, एक स्वाभाविक रूप से नॉनलाइनर मॉडल (इस अर्थ में कि यह वक्र या समतुल्य है, न कि लाइनों या समकक्ष, सामान्य स्थान पर) जो अच्छी तरह से अनुकूल है। बाइनरी प्रतिक्रियाओं। यहां जीव विज्ञान की अपील दोधारी है; बायनरी प्रतिक्रियाओं के लिए ऐतिहासिक रूप से लॉजिस्टिक मॉडल जीव विज्ञान में लॉजिस्टिक वृद्धि (जैसे आबादी) के लिए मॉडल से प्रेरित थे!
निक कॉक्स

द सोयर एट अल। कागज, आर्मस्ट्रांग कागज, और टिप्पणी सभी बहुत अच्छे हैं। मैं इस सप्ताह के अंत में उन पर पढ़ रहा हूं। उन्हें सुझाव देने के लिए धन्यवाद। एक सांख्यिकीविद् नहीं होने के नाते मैं लॉजिस्टिक रिग्रेशन पर कार्ट का उपयोग करने पर टिप्पणी नहीं कर सकता। हालाँकि, आपका उत्तर बहुत अच्छी तरह से लिखा गया है, सहायक है, और ऐसी टिप्पणियां प्राप्त हुई हैं जो व्यावहारिक हैं। मैं CART, MaxEnt जैसे मशीन लर्निंग के तरीकों पर पढ़ रहा हूं और रिग्रेशन ट्री को बढ़ावा देता हूं और उनकी जानकारी हासिल करने के लिए मेरी समिति के साथ चर्चा करने की योजना बना रहा हूं। जब मुझे कुछ खाली समय मिलता है, तो कार्ट वीडियो भी दिलचस्प होना चाहिए।
जीएनजी

3
मुस्कुराहट के साथ मुझे लगता है कि हम आपकी टिप्पणियों को रेखीय मॉडल पर उल्टा कर सकते हैं और जोर देकर कह सकते हैं कि धारणा-मुक्त होने या यहां तक ​​कि धारणा-प्रकाश से दूर होने पर, कार्ट ने माना कि वास्तविकता एक पेड़ की तरह है (और क्या?)। अगर आपको लगता है कि प्रकृति एक सुचारू रूप से बदलती निरंतरता है, तो आपको विपरीत दिशा में चलना चाहिए।
निक कॉक्स

3

मुझे लगता है कि आप एक उपस्थिति / पृष्ठभूमि दृष्टिकोण के साथ प्रजातियों की उपस्थिति की भविष्यवाणी करने की कोशिश कर रहे हैं, जो पत्रिकाओं जैसे पारिस्थितिकी और विकास, पारिस्थितिकी, आदि में अच्छी तरह से प्रलेखित है, शायद आर पैकेज डिस्क आपकी समस्या के लिए उपयोगी है। इसमें एक अच्छा विगनेट शामिल है। डिस्मो या इसी तरह के अन्य पैकेज का उपयोग करने से समस्या के बारे में आपके दृष्टिकोण में बदलाव आता है, लेकिन मेरा मानना ​​है कि इस पर एक नज़र डालनी चाहिए।


2
क्या आप सिर्फ एक मॉडल को निर्दिष्ट करने से रहता है? मॉडल में बड़ी अनिश्चितता क्यों होनी चाहिए? जीएलएम का उपयोग करके मॉडल चयन की आवश्यकता क्यों है?
फ्रैंक हारेल

1
मुझे डर है कि आप कुछ अवधारणाओं को मिला रहे हैं। (1) वास्तव में अधिकतम एक उपस्थिति / पृष्ठभूमि डेटा, या उपस्थिति / छद्म अनुपस्थिति डेटा है। इसलिए, अधिकतम उपस्थिति-केवल डेटा का उपयोग करता है और परिदृश्य से कुछ बिंदुओं को जोड़ता है, अर्थात्, पृष्ठभूमि / छद्म अनुपस्थिति। इस प्रकार, यह आपके मामले में इस्तेमाल किया जा सकता है। (2) GLM को 'वास्तविक' अनुपस्थिति के साथ उपयोग करने के लिए डिज़ाइन किया गया था। हालाँकि, GLM को उपस्थिति / छद्म अनुपस्थिति डेटा के लिए अनुकूलित किया गया है। (3) डिस्मो पैकेज में प्रतिगमन पेड़ों को बढ़ावा मिलता है लेकिन न केवल। आप जीएलएम को भी फिट कर सकते हैं, बस पैकेज के विगनेट्स में से एक का पालन करें (2 हैं)।
ह्यूगो

1
यदि आपका प्रश्न इस बात के बारे में है कि आपको भविष्यवाणियों के रूप में कौन से चर शामिल करने चाहिए, तो इन कागजात पर एक नज़र डालें: शेपर्ड 2013. जलवायु चर का चयन प्रजातियों के वितरण की भविष्यवाणियों को कैसे प्रभावित करता है? न्यूजीलैंड में तीन नए मातम का एक केस अध्ययन। खरपतवार अनुसंधान; हैरिस, एट अल। 2013. बनना या न होना? परिवर्तनीय चयन भविष्य की जलवायु के तहत एक खतरे वाली प्रजाति के अनुमानित भाग्य को बदल सकता है। Ecol। प्रबंध। ReSTOR।
ह्यूगो

2
यह विचार कि चर चयन तकनीक किसी तरह ओवरफिटिंग को कम करती है, अजीब है। मॉडल को कम करने से चर की स्पष्ट बचत पूरी तरह से एक भ्रम है जब कमी स्वयं डेटा से आती है।
फ्रैंक हारेल

1
@GGG: "मॉडल में सभी चरों को छोड़ने के बारे में मेरी अनिश्चितता सब कुछ है जो मुझे कोलिनियरिटी और ओवर-फिटिंग के बारे में सिखाया गया है" - क्या आपके मॉडल में अत्यधिक कोलीनियर भविष्यवक्ता हैं? क्या आपका मॉडल ओवर-फिटिंग है?
Scortchi - को पुनः स्थापित मोनिका
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.