लक्ष्य चर को मॉडल कैसे करें?


18

मेरे पास 5 चर हैं और मैं अपने लक्ष्य चर की भविष्यवाणी करने की कोशिश कर रहा हूं जो कि 0 से 70 की सीमा के भीतर होना चाहिए।

मैं अपने लक्ष्य को बेहतर ढंग से मॉडल करने के लिए इस जानकारी के टुकड़े का उपयोग कैसे करूं?

जवाबों:


21

max(0,min(70,y^))y^

हालांकि, प्रतिबंधित सीमा निर्भर चर ( ) और स्वतंत्र चर ( ) के बीच एक nonlinear संबंध की संभावना को बढ़ाती है । इसके कुछ अतिरिक्त संकेतकों में शामिल हैं:yxi

  • अवशिष्ट मूल्यों में अधिक भिन्नता जब सीमा के किसी भी छोर पर अवशिष्ट में भिन्नता की तुलना में अपनी सीमा के मध्य में होती है।y^

  • विशिष्ट गैर-रेखीय संबंधों के सैद्धांतिक कारण।

  • मॉडल के गलत विवरण के प्रमाण (सामान्य तरीकों से प्राप्त)।

  • में द्विघात या उच्च आदेश मामले का महत्व ।xi

इनमें से किसी भी स्थिति को धारण करने की स्थिति में की एक nonlinear पुनः अभिव्यक्ति पर विचार करें ।y

साथ अधिक रैखिक संबंध बनाने के लिए को फिर से व्यक्त करने के कई तरीके हैं । उदाहरण के लिए, किसी भी बढ़ा हुआ कार्य अंतराल पर परिभाषित कर सकते हैं "तह" जा के माध्यम से एक सममित बढ़ा हुआ कार्य बनाने के लिए । अगर के रूप में अपनी तर्क दृष्टिकोण मनमाने ढंग से बड़े और नकारात्मक हो जाता है , की तह संस्करण मैप कर देगा सभी वास्तविक संख्या में। ऐसे कार्यों के उदाहरणों में लघुगणक और कोई भी नकारात्मक शक्ति शामिल है। लघुगणक का उपयोग करना @ user603 द्वारा अनुशंसित "लॉगिट लिंक" के बराबर है। एक और तरीका हैyxif[0,70]yf(y)f(70y)f0f[0,70]Gकिसी भी प्रायिकता वितरण का व्युत्क्रम CDF होना और को परिभाषित करना । सामान्य वितरण का उपयोग करने से "प्रोबेट" परिवर्तन होता है।f(y)=G(y/70)

परिवर्तनों के परिवारों का शोषण करने का एक तरीका प्रयोग करना है: एक संभावित परिवर्तन का प्रयास करें, खिलाफ रूपांतरित का त्वरित प्रतिगमन करें , और अवशिष्टों का परीक्षण करें: उन्हें (होमोसेरेडस्टिक और असंबद्ध) के अनुमानित मूल्यों से स्वतंत्र होना चाहिए । ये स्वतंत्र चर के साथ एक रैखिक संबंध के संकेत हैं। यह भी मदद करता है, अगर पीछे के रूपांतरित पूर्वानुमान के अवशेष छोटे होते हैं। यह इंगित करता है कि परिवर्तन ने फिट में सुधार किया है। आउटलेर्स के प्रभावों का विरोध करने के लिए, मजबूत रिग्रेशन विधियों जैसे कि पुनरावृत्त कम से कम वर्गों का उपयोग करेंx iyxiy


1
+1 शानदार जवाब! क्या आप इसके लिए अतिरिक्त उद्धरण दे सकते हैं या क्यों "अवशिष्ट मूल्यों में अधिक भिन्नता है जब y_hat अपनी सीमा के मध्य में है, रेंज के दोनों छोर पर अवशिष्ट में भिन्नता की तुलना में" गैर-रैखिकता का एक संकेत है?
एंडी मैकेंजी

1
@Andy सिद्धांत में, इस तरह की विषमता का गैर-संबंध के साथ कोई सीधा संबंध नहीं है, लेकिन व्यवहार में अक्सर यह देखा गया है कि एक विचरण-स्थिरीकरण परिवर्तन रिश्तों को रेखीय बनाने के लिए जाता है। न्यूनतम (जैसे 0) से अधिकतम (जैसे 70) तक लगातार बढ़ने वाली किसी भी वक्र में उस सीमा के बीच में कहीं पर अधिकतम ढलान होगी, जिसके परिणामस्वरूप अक्सर वहाँ भी बड़े अवशिष्ट विचरण होते हैं। इसीलिए हम अपेक्षा करेंगे कि अवशेषों को बीच में कम और छोर पर अधिक विचरण प्रदर्शित करें। अगर ऐसा नहीं होता है, तो हम अनियंत्रित चर के साथ रैखिक संबंधों की उम्मीद कर सकते हैं ।
whuber

5

यह विचार करना महत्वपूर्ण है कि आपके मान 0-70 श्रेणी में क्यों बंधे हैं। उदाहरण के लिए, यदि वे 70-प्रश्न के परीक्षण पर सही उत्तरों की संख्या हैं, तो आपको "सफलताओं की संख्या" चर के लिए मॉडल पर विचार करना चाहिए, जैसे कि अतिविशिष्ट द्विपद प्रतिगमन। अन्य कारण आपको अन्य समाधान तक ले जा सकते हैं।


2

डेटा परिवर्तन: [0,1] में झूठ बोलने के लिए अपने डेटा को पुनर्विक्रय करें और एक लॉग लिंक के साथ एक glm मॉडल का उपयोग करके इसे मॉडल करें।

संपादित करें: जब आप एक वेक्टर को पुन: स्केल करते हैं (यानी सभी तत्वों को सबसे बड़ी प्रविष्टि द्वारा विभाजित करते हैं), एक नियम के रूप में, इससे पहले कि आप ऐसा करते हैं, आउटलेर के लिए स्क्रीन (नेत्रगोलक)।

अपडेट करें

मान लें कि आपके पास R तक पहुंच है, तो मैं मॉडलिंग भाग को एक मजबूत चमक दिनचर्या के साथ ले जाऊंगा, देखेंglmrob()पैकेजrobustbase में glmrob ()


3
यहाँ अनुशंसित डेटा को क्लैंप करना एक प्रतिगमन में ढलान को पूर्वाग्रह करेगा।
व्हीबर

1
इसके अलावा, मुझे नमूना मात्राओं के आधार पर क्लैम्पिंग में तत्काल मूल्य दिखाई नहीं देता है, जब डेटा की सही सीमा को प्राथमिकता के रूप में जाना जाता है।
कार्डिनल

@ कार्डिनल बिंदु यह है कि (उदाहरण के लिए) संभवतः डेटा का 99% [0,1] में निहित है और शेष मान समान 70: सीमा पर एक कॉम्पैक्ट बाधा आउटलेर्स की अनुपस्थिति का आश्वासन नहीं देता है! इसलिए मैं प्रस्तावित दृष्टिकोण में संभावित पूर्वाग्रह के बारे में मेरी चिंता के बावजूद @ user603 द्वारा दी गई सलाह की भावना से सहमत हूं।
whuber

@whuber: इस तरह की सेटिंग में मेरा झुकाव एक GLM का उपयोग करना होगा जो क्लैम्पिंग के इस रूप के बजाय आउटलेर्स के लिए प्रतिरोधी था। फिर मॉडल को "अवरोधन" और "ढलान" गुणांक के माध्यम से समायोजित करने दें।
कार्डिनल

@ कार्डिनल हां, यह एक वैध समाधान है। मुझे आशा है कि ऐसे GLM का उपयोग अभी भी नैदानिक ​​प्रक्रियाओं के साथ (लगभग) रैखिकता और अवशेषों की स्वतंत्रता की जांच के लिए होगा।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.