वाइन रेटिंग (0 और 10 से) की भविष्यवाणी करने के लिए रैखिक प्रतिगमन या क्रमिक उपस्कर प्रतिगमन


18

मेरे पास यहां से वाइन डेटा है जिसमें 11 संख्यात्मक स्वतंत्र चर हैं, जिसमें 0 और 10. के बीच के मूल्यों के साथ प्रत्येक प्रविष्टि के साथ जुड़े एक आश्रित रेटिंग है। यह चर और संबंधित के बीच संबंध की जांच करने के लिए प्रतिगमन मॉडल का उपयोग करने के लिए एक महान डेटासेट बनाता है। रेटिंग। हालांकि, क्या रेखीय प्रतिगमन उचित होगा, या क्या बहुराष्ट्रीय / आदेशित लॉजिस्टिक प्रतिगमन का उपयोग करना बेहतर है?

लॉजिस्टिक रिग्रेशन बेहतर दिए गए विशिष्ट श्रेणियों के रूप में लगता है, अर्थात निरंतर आश्रित चर नहीं (1) लेकिन निरीक्षण पर 11 श्रेणियां (थोड़ी बहुत बहुत?) (2) हैं, उन श्रेणियों में से 6-7 के लिए केवल डेटा है, अर्थात शेष डेटासेट में 5-4 श्रेणियों का कोई उदाहरण नहीं है।

दूसरी ओर, रैखिक प्रतिगमन को 0-10 के बीच एक रेखीय रूप से अनुमान लगाना चाहिए जो मुझे पता लगाने की कोशिश कर रहा है कि मैं कितना करीब हूं; अभी तक निर्भर चर डेटासेट में निरंतर नहीं है।

बेहतर तरीका कौन सा है? नोट: मैं विश्लेषण के लिए आर का उपयोग कर रहा हूं

उत्तरों में वर्णित कुछ बिंदुओं को संपादित करते हुए संपादित करें:

  • कोई व्यावसायिक लक्ष्य नहीं है क्योंकि यह वास्तव में एक विश्वविद्यालय के पाठ्यक्रम के लिए है। कार्य पसंद के एक डेटासेट का विश्लेषण करना है जो भी मैं फिट देखता हूं।
  • रेटिंग्स का वितरण सामान्य दिखता है (हिस्टोग्राम / क्यूक-प्लॉट)। डेटासेट में वास्तविक मान 3-8 (भले ही तकनीकी रूप से 0-10) के बीच हो।

जवाबों:


9

एक आदेशित लॉग मॉडल अधिक उपयुक्त है क्योंकि आपके पास एक आश्रित चर है जो एक रैंकिंग है, 7 उदाहरण के लिए 4 से बेहतर है। अतः स्पष्ट आदेश है।

यह आपको प्रत्येक बिन के लिए एक संभावना प्राप्त करने की अनुमति देता है। कुछ धारणाएं हैं जिन्हें आपको ध्यान में रखना चाहिए। आप यहां देख सकते हैं ।

क्रमिक लॉजिस्टिक (और क्रमिक जांच) प्रतिगमन अंतर्निहित मान्यताओं में से एक यह है कि परिणाम समूहों के प्रत्येक जोड़े के बीच संबंध समान है। दूसरे शब्दों में, क्रमिक लॉजिस्टिक रिग्रेशन यह मानता है कि गुणांक जो संबंध के बीच के संबंधों का वर्णन करते हैं, कहते हैं, प्रतिक्रिया चर की सभी उच्चतर श्रेणियां समान हैं, जो कि अगली निम्नतम श्रेणी और सभी उच्च श्रेणियों के बीच संबंध आदि का वर्णन करती हैं। इसे आनुपातिक अंतर धारणा या समानांतर प्रतिगमन धारणा कहा जाता है।

कुछ कोड:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

आप आगे स्पष्टीकरण हो सकता है यहाँ , यहाँ , यहाँ या यहाँ

ध्यान रखें कि आपको अपने गुणांक को बाधाओं के अनुपात में बदलना होगा और फिर संभावनाओं के संदर्भ में स्पष्ट व्याख्या करने के लिए संभावनाओं को बदलना होगा।

सीधे (और सरल तरीके से) आप इनकी गणना कर सकते हैं:

एक्सपी(βमैं)=हेरोंआरटीमैं

एक्सपी(β1)Σएक्सपी(βमैं)=पीआरमैंएलमैंटीy

(बहुत तकनीकी नहीं करना चाहते हैं)


4

मैं समस्या को एक और दृष्टिकोण प्रदान करना चाहूंगा: वास्तविक दुनिया में, इस प्रश्न का सामना करने की संभावना कम है, क्योंकि व्यवसाय की जरूरतों के आधार पर क्या करना है

वास्तविक दुनिया में आवश्यक सवाल यह है कि भविष्यवाणी प्राप्त करने के बाद क्या करना है?

  • 2

  • मान लीजिए कि व्यवसाय तीन प्रकार के रेस्तरां में भेजने के लिए कुछ बढ़िया शराब का चयन करना चाहता है। फिर, बहु-श्रेणी वर्गीकरण की आवश्यकता होगी।

संक्षेप में, मैं यह तर्क देना चाहता हूं कि भविष्यवाणी करने के बाद जरूरतों के आधार पर वास्तव में क्या करना है, इसके बजाय केवल प्रतिक्रिया चर की विशेषता को देखें।


1

यद्यपि एक आदेशित लॉजिट मॉडल (@ adrian1121 द्वारा विस्तृत) मॉडल मान्यताओं के संदर्भ में सबसे उपयुक्त होगा, मुझे लगता है कि कई रैखिक प्रतिगमन के साथ ही कुछ फायदे भी हैं।

  1. व्याख्या में आसानी । रैखिक मॉडल ऑर्डर किए गए लॉगिट मॉडल की तुलना में व्याख्या करना आसान है।
  2. हितधारक आराम । मॉडल के उपयोगकर्ता रेखीय प्रतिगमन के साथ अधिक आरामदायक हो सकते हैं क्योंकि वे यह जानने की अधिक संभावना रखते हैं कि यह क्या है।
  3. अधिक पारिश्रमिक (सरल)। सरल मॉडल केवल अच्छा प्रदर्शन कर सकता है, संबंधित विषय देख सकता है ।

तथ्य यह है कि अधिकांश प्रतिक्रियाएं 3-8 के बीच हैं, मुझे सुझाव देती हैं कि एक रैखिक मॉडल आपकी आवश्यकताओं के लिए उपयुक्त प्रदर्शन कर सकता है। मैं यह नहीं कह रहा हूं कि यह "बेहतर" है, लेकिन यह अधिक व्यावहारिक दृष्टिकोण हो सकता है।


0

सिद्धांत रूप में आदेशित लॉजिट मॉडल उचित लगता है, लेकिन 10 (या 7 भी) श्रेणियां काफी हैं।

1 / आखिरकार कुछ री-कोडिंग करना समझदारी होगी (उदाहरण के लिए, रेटिंग 1-4 को 1 एकल मोडिटी में मिला दिया जाएगा, "कम रेटिंग")?

2 / रेटिंग का वितरण क्या है? यदि बहुत अच्छी तरह से सामान्य रूप से वितरित किया जाता है, तो एक रैखिक प्रतिगमन एक अच्छा काम करेगा ( रैखिक संभावना मॉडल देखें )।

3 / अन्यथा मैं " बीटा रिग्रेशन " नामक पूरी तरह से अलग चीज़ के लिए जाऊंगा - 11-पॉइंट रेटिंग स्केल शास्त्रीय 5-पॉइंट स्केल की तुलना में बहुत विस्तृत है - मुझे लगता है कि रेटिंग स्केल को "तीव्रता" के रूप में मानना ​​स्वीकार्य होगा। पैमाना जहाँ 0 = अशक्त और 1 = पूर्ण / परिपूर्ण - ऐसा करने से आप मूल रूप से मान लेंगे कि आपका पैमाना अंतराल प्रकार (बजाय क्रमिक एक) है, लेकिन मेरे लिए यह स्वीकार्य लगता है।


3
क्यों 10 (या 7) श्रेणियां बहुत हैं? क्या कुछ मूलभूत तकनीकी कारण है कि 10 श्रेणियां एक आदेशित लॉजिट मॉडल में उचित व्यवहार नहीं करेंगी, या आप शुद्ध व्यावहारिक दृष्टिकोण से बोल रहे हैं? (उत्तर hxd1011 के समान उदाहरण दिए गए।)
आरएम

कोई भी तकनीकी कारण नहीं है जब तक कि डेटा "इतने सारे" श्रेणियों के साथ एक ऑर्डर किए गए लॉगिट (ओएल) का अनुमान लगाने की अनुमति नहीं देता है। हालांकि, 11 श्रेणियों के साथ एक ओएल मॉडल को निर्दिष्ट करना 10 "निरंतर" शब्दों (यानी, सीमा पैरामीटर) का अनुमान लगाता है - यह मुझे बहुत अच्छा लगता है, खासकर अगर कुछ श्रेणियां डेटाबेस में अच्छी तरह से प्रतिनिधित्व नहीं करती हैं - मेरी आंत की भावना यह है कि एक ओएल मॉडल के लिए 11 श्रेणियां थोड़ी अधिक मार दी गई हैं, मैं या तो रेटिंग्स को निरंतर चर के रूप में मानूंगा या अधिक प्रतिमान (और शायद अधिक सार्थक) ओएल मॉडल को निर्दिष्ट करने के लिए कुछ तौर-तरीकों को ध्वस्त कर दूंगा।
उमा

-1

मैं लॉजिस्टिक रिग्रेशन का विशेषज्ञ नहीं हूं, लेकिन मैं कहूंगा कि आप अपने असतत डिपेंडेंट वेरिएबल की वजह से मल्टीमोनियल का इस्तेमाल करना चाहते हैं।

एक रेखीय प्रतिगमन गुणांक दे सकता है जिसे आपके आश्रित चर की संभावित सीमाओं से बाहर रखा जा सकता है (यानी स्वतंत्र चर की वृद्धि दी गई प्रतिगमन गुणांक के लिए आपकी सीमा से बाहर एक आश्रित चर की ओर ले जाएगी)।

बहुपद प्रतिगमन आपके आश्रित चर के विभिंन परिणामों के लिए अलग-अलग संभावनाएं देगा (यानी आपके प्रतिगमन का गुणांक आपको देगा कि वे कैसे बेहतर स्कोर देने के लिए अपनी संभावना को बढ़ाते हैं, बिना स्कोर के सीमा पार कर जाते हैं)।


3
मल्टीनोमियल कई अनऑर्डिनेटेड श्रेणियों के लिए अच्छा है। ऑर्डिनल लॉजिस्टिक (ओपी प्रश्न में क्या प्रस्तावित करता है) कई ऑर्डर की गई श्रेणियों के लिए अच्छा है।
ग्रेगोर

-1

एक और संभावना एक यादृच्छिक वन का उपयोग करने के लिए है। एक यादृच्छिक वन के तहत एक चर के "महत्व" को मापने के दो तरीके हैं:

  1. क्रमचय : इनपुट चर का महत्वएक्सजेउस चर को बेतरतीब ढंग से फेरबदल करने के कारण त्रुटि दर में औसत वृद्धि के लिए आनुपातिक है। बेतरतीब ढंग से फेरबदलएक्सजे के बीच के रिश्ते को नष्ट कर देता है एक्सजे तथा Y, साथ ही साथ अन्य सभी एक्सरों।
  2. नोड अशुद्धता : इनपुट चर का महत्वएक्सजे बंटवारे के कारण नोड अशुद्धता में कुल कमी के आनुपातिक है एक्सजे सभी पेड़ों के पार।

रैंडम वन भी एक प्रकार के डेटा विज़ुअलाइज़ेशन के लिए उत्तरदायी हैं जिन्हें "आंशिक निर्भरता की साजिश" कहा जाता है। अधिक विस्तार के लिए इसे गहराई से देखें ।

आंशिक रूप से निर्भरता और क्रमबद्धता का महत्व रैंडम फ़ॉरेस्ट मॉडल के लिए विशिष्ट नहीं है, लेकिन रैंडम फ़ॉरेस्ट की लोकप्रियता के साथ-साथ रैंडम फ़ॉरेस्ट की लोकप्रियता के साथ उनकी लोकप्रियता बढ़ी।


1
मुझे पता है कि यह कुछ हद तक ठोस जवाब है, लेकिन मैं यह जानना चाहूंगा कि इसे क्यों अस्वीकृत किया गया। क्या यह गलत है?
छायाकार
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.