रैखिक प्रतिगमन जब वाई बंधे और असतत है


14

सवाल सीधा है: क्या वाई बाउंडेड और असतत होने पर रैखिक प्रतिगमन का उपयोग करना उचित है (उदाहरण के लिए टेस्ट स्कोर 1 ~ 100, कुछ पूर्व-निर्धारित रैंकिंग 1 ~ 17)? इस मामले में, क्या रैखिक प्रतिगमन का उपयोग करना "अच्छा नहीं" है, या इसका उपयोग करना पूरी तरह से गलत है?

जवाबों:


10

जब एक प्रतिक्रिया या परिणाम को बाध्य किया जाता है, तो निम्नलिखित सहित एक मॉडल को फिट करने में विभिन्न प्रश्न उत्पन्न होते हैं: Y

  1. कोई भी मॉडल जो उन सीमाओं के बाहर प्रतिक्रिया के लिए मूल्यों की भविष्यवाणी कर सकता है, सिद्धांत रूप में संदिग्ध है। इसलिए एक रेखीय मॉडल समस्याग्रस्त हो सकता है क्योंकि भविष्यवक्ता और गुणांक लिए पर कोई सीमा नहीं है जब भी स्वयं एक या दोनों दिशाओं में अनबिके होते हैं। हालाँकि, यह रिश्ता इतना कमजोर हो सकता है कि इसे काटे नहीं और / या भविष्यवाणियों के अवलोकन या प्रशंसनीय सीमा पर सीमाएँ अच्छी तरह से बनी रहें। एक चरम पर, यदि प्रतिक्रिया कुछ मतलब शोर है तो यह शायद ही मायने रखता है कि कौन सा मॉडल फिट बैठता है।Y^=XbXbX+

  2. जैसा कि प्रतिक्रिया इसकी सीमा से अधिक नहीं हो सकती है, एक nonlinear संबंध अक्सर पूर्वानुमानित प्रतिक्रियाओं के साथ अधिक प्रशंसनीय होता है जो कि सीमा के समीपस्थ रूप से संपर्क करने के लिए बंद होता है। सिग्मॉयड कर्व्स या सतहों जैसे कि लॉजिट और प्रोबेट मॉडल द्वारा भविष्यवाणी की गई इस संबंध में आकर्षक हैं और अब फिट होना मुश्किल नहीं है। साक्षरता (या किसी नए विचार को अपनाने वाले अंश) के रूप में एक प्रतिक्रिया अक्सर समय और लगभग किसी भी अन्य भविष्यवक्ता के साथ इस तरह के एक वक्र वक्र को दिखाती है।

  3. एक बंधी हुई प्रतिक्रिया में सादे या वेनिला प्रतिगमन में अपेक्षित विचरण गुण नहीं हो सकते हैं। आवश्यक रूप से माध्य प्रतिक्रिया निम्न और ऊपरी सीमा के पास होती है, विचरण हमेशा शून्य तक पहुंचता है।

अंतर्निहित निर्माण प्रक्रिया के कार्यों और ज्ञान के अनुसार एक मॉडल चुना जाना चाहिए। चाहे ग्राहक या दर्शक विशेष मॉडल परिवारों के बारे में जानते हों, अभ्यास का मार्गदर्शन भी कर सकते हैं।

ध्यान दें कि मैं अच्छे / अच्छे, उपयुक्त / उचित नहीं, सही / गलत जैसे कंबल निर्णयों को जानबूझकर टाल रहा हूं। सभी मॉडल सबसे अच्छी तरह से अनुमानित होते हैं और कौन से अनुमान अपील करते हैं, या किसी परियोजना के लिए पर्याप्त है, यह भविष्यवाणी करना इतना आसान नहीं है। मैं आमतौर पर खुद को बंधी हुई प्रतिक्रियाओं के लिए पहली पसंद के रूप में लॉजिट मॉडल का पक्ष लेता हूं, लेकिन यहां तक ​​कि वरीयता आंशिक रूप से आदत पर आधारित है (उदाहरण के लिए मेरे बहुत अच्छे कारण के लिए प्रोबेट मॉडल से परहेज) और आंशिक रूप से जहां मैं परिणामों की रिपोर्ट करूंगा, आमतौर पर पाठकों को जो हैं, या होना चाहिए, सांख्यिकीय अच्छी तरह से सूचित किया।

असतत तराजू के आपके उदाहरण स्कोर 1-100 के लिए हैं (असाइनमेंट्स I मार्क, 0 निश्चित रूप से संभव है!) या रैंकिंग 1-17। इस तरह के तराजू के लिए, मैं आमतौर पर [0, 1] तक मापी गई प्रतिक्रियाओं के लिए निरंतर मॉडल फिट करने के बारे में सोचूंगा। हालांकि, ऐसे ऑर्डिनल रिग्रेशन मॉडल के प्रैक्टिशनर हैं, जो इस तरह के मॉडल्स को बड़े पैमाने पर असतत मूल्यों के साथ बड़े पैमाने पर फिट करते हैं। मुझे खुशी है अगर वे जवाब देते हैं अगर वे इतने दिमाग वाले हैं।


8

मैं स्वास्थ्य सेवा अनुसंधान में काम करता हूं। हम रोगी-रिपोर्ट किए गए परिणामों को इकट्ठा करते हैं, उदाहरण के लिए शारीरिक कार्य या अवसादग्रस्तता के लक्षण, और वे अक्सर आपके द्वारा बताए गए प्रारूप में बनाए जाते हैं: 0 से N पैमाने पर सभी व्यक्तिगत प्रश्नों को जोड़कर उत्पन्न किया जाता है।

मैंने जो साहित्य की समीक्षा की है, उसमें से अधिकांश में सिर्फ एक रेखीय मॉडल (या एक पदानुक्रमित रैखिक मॉडल का उपयोग किया गया है, यदि दोहराव टिप्पणियों से डेटा स्टेम)। मैंने अभी तक किसी (भिन्नात्मक) लॉजिट मॉडल के लिए @ NickCox के सुझाव का उपयोग नहीं देखा है, हालांकि यह एक पूरी तरह से प्रशंसनीय मॉडल है।

आइटम प्रतिक्रिया सिद्धांत मुझे लागू करने के लिए एक और प्रशंसनीय सांख्यिकीय मॉडल के रूप में हमला करता है। यह वह जगह है जहाँ आप मानते हैं कि कुछ अव्यक्त विशेषता एक लॉजिस्टिक या ऑर्डर किए गए लॉजिस्टिक मॉडल का उपयोग करके प्रश्नों का जवाब देती है। यह स्वाभाविक रूप से निक की गई सीमा और संभव गैर-रैखिकता के मुद्दों को संभालता है।θ

नीचे दिया गया ग्राफ मेरे आगामी शोध प्रबंध से उपजा है। यह वह जगह है जहां मैं एक लीनियर मॉडल (लाल) को एक अवसादग्रस्तता लक्षण प्रश्न स्कोर के लिए फिट करता हूं जिसे Z- स्कोर में बदल दिया गया है, और एक (व्याख्यात्मक) IRT मॉडल को एक ही प्रश्न में नीले रंग में। असल में, दोनों मॉडल के लिए गुणांक समान पैमाने पर हैं (यानी मानक विचलन में)। वास्तव में गुणांकों के आकार में एक अच्छा सा समझौता है। जैसा कि निक ने कहा, सभी मॉडल गलत हैं। लेकिन रैखिक मॉडल का उपयोग करने के लिए बहुत गलत नहीं हो सकता है।

यहाँ छवि विवरण दर्ज करें

उस ने कहा, लगभग सभी वर्तमान आईआरटी मॉडल की एक मौलिक धारणा यह है कि प्रश्न में विशेषता द्विध्रुवी है, अर्थात इसका समर्थन to । यह शायद अवसादग्रस्त लक्षणों का सच नहीं है। एकध्रुवीय अव्यक्त लक्षणों के लिए मॉडल अभी भी विकास के अधीन हैं, और मानक सॉफ़्टवेयर उन्हें फिट नहीं कर सकते हैं। स्वास्थ्य सेवाओं के अनुसंधान में बहुत सारे लक्षण जो हम रुचि रखते हैं, वे एकध्रुवीय होने की संभावना रखते हैं, जैसे अवसादग्रस्तता के लक्षण, मनोचिकित्सा के अन्य पहलू, रोगी की संतुष्टि। तो IRT मॉडल गलत भी हो सकता है।

(नोट: मॉडल से ऊपर था फिट usint फिल चाल्मर्स ' mirtआर ग्राफ़ में पैकेज का उपयोग का उत्पादन किया ggplot2और ggthemesरंग योजना Stata डिफ़ॉल्ट रंग योजना से खींचता है।।)


6
सिर्फ इसलिए कि रैखिक मॉडल व्यापक रूप से उपयोग किए जाते हैं, इसका मतलब यह नहीं है कि वे उपयुक्त हैं। बहुत से लोग रैखिक मॉडल का उपयोग करते हैं क्योंकि यह केवल वही है जो वे जानते हैं या इसके साथ सहज हैं।
क्यूर

1
चिकित्सा साहित्य विशेष रूप से खराब व्यवहार के साथ व्याप्त है जो कि "यह इस क्षेत्र / पत्रिका में" प्रकार के विचार द्वारा प्रचारित है। एक सामान्य नियम के रूप में, मैं मेडिकल रिसर्च में केवल दिखने के बावजूद कुछ का उपयोग करने या असफल होने की कोशिश नहीं करूंगा।
एलएससी

1

अनुमानित मूल्यों पर एक नज़र डालें और जांचें कि क्या उनके पास मूल Ys के समान वितरण है। यदि यह मामला है, तो रैखिक प्रतिगमन शायद ठीक है। और आप अपने मॉडल में सुधार करके थोड़ा लाभ प्राप्त करेंगे।


1

एक रेखीय प्रतिगमन ऐसे डेटा का "पर्याप्त रूप से" वर्णन कर सकता है, लेकिन यह संभावना नहीं है। लीनियर रिग्रेशन की कई धारणाएं इस प्रकार के डेटा में इस हद तक उल्लंघन करती हैं कि लीनियर रिग्रेशन बीमार हो जाता है। मैं उदाहरण के रूप में कुछ मान्यताओं को चुनूंगा,

  1. सामान्यता - यहां तक ​​कि इस तरह के डेटा की विसंगति को नजरअंदाज करते हुए, इस तरह के डेटा से सामान्यता के चरम उल्लंघन का प्रदर्शन होता है क्योंकि वितरण सीमा से "कट ऑफ" होते हैं।
  2. Homoscedasticity - इस प्रकार का डेटा homoscedasticity का उल्लंघन करता है। जब किनारों की तुलना में वास्तविक माध्य सीमा के केंद्र की ओर होता है, तो वारिसियां ​​बड़ी होती हैं।
  3. रैखिकता - चूँकि Y की सीमा बंधी हुई है, इसलिए धारणा स्वतः ही उल्लंघन हो जाती है।

इन मान्यताओं के उल्लंघन को कम किया जाता है यदि डेटा किनारों से दूर, रेंज के केंद्र के आसपास गिरता है। लेकिन वास्तव में, रैखिक प्रतिगमन इस तरह के डेटा के लिए इष्टतम उपकरण नहीं है। बहुत बेहतर विकल्प द्विपद प्रतिगमन, या पॉइसन प्रतिगमन हो सकता है।


2
यह देखना कठिन है कि पोइसन प्रतिगमन दोहरी रूप से बाध्य प्रतिक्रियाओं के लिए एक उम्मीदवार है।
निक कॉक्स

0

यदि प्रतिक्रिया केवल कुछ श्रेणियां लेती है, तो आप वर्गीकरण विधियों या क्रमिक प्रतिगमन का उपयोग करने में सक्षम हो सकते हैं यदि आपका प्रतिक्रिया चर सामान्य है।

सादा रैखिक प्रतिगमन न तो आपको असतत श्रेणी देगा और न ही प्रतिक्रियाशील चर। उत्तरार्द्ध को लॉजिस्टिक प्रतिगमन की तरह एक लॉजिट मॉडल का उपयोग करके तय किया जा सकता है। 100 श्रेणियों 1-100 के साथ एक परीक्षण स्कोर की तरह कुछ के लिए, आप अपनी भविष्यवाणी को सरल बना सकते हैं और एक बंधी हुई प्रतिक्रिया चर का उपयोग कर सकते हैं।


0

एक cdf (आँकड़ों से संचयी वितरण फ़ंक्शन) का उपयोग करें। यदि आपका मॉडल y = xb + e है, तो इसे y = cdf (xb + e) ​​में बदल दें। आपको 0 और 1 के बीच में आने के लिए अपने आश्रित चर डेटा को फिर से बेचना होगा। यदि यह सकारात्मक संख्या है, तो उन्हें अधिकतम से विभाजित करें, और अपने मॉडल की भविष्यवाणी करें और उसी संख्या से गुणा करें। फिर फिट की जांच करें और देखें कि क्या बंधी हुई भविष्यवाणियां चीजों में सुधार करती हैं।

आप शायद अपने लिए आँकड़ों की देखभाल के लिए डिब्बाबंद एल्गोरिथ्म का उपयोग करना चाहते हैं।


1
ऐसा लगता है कि दो तथ्यों को भ्रमित करने के लिए: (1) बंधी हुई प्रतिक्रियाओं को 0 और 1 के बीच में प्रवेश करना चाहिए, इसके लिए लॉगिट, प्रोबिट और समान मॉडल लागू करने के लिए (2) सीडीएफएस भी 0 और 1 के बीच भिन्न होते हैं। इस तरह से एक भिन्नात्मक प्रतिक्रिया का इलाज करने में, आप उत्पन्न होते हैं 'अपने मॉडलिंग मॉडलिंग नहीं है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.