मेरे पास यहां से वाइन डेटा है जिसमें 11 संख्यात्मक स्वतंत्र चर हैं, जिसमें 0 और 10. के बीच के मूल्यों के साथ प्रत्येक प्रविष्टि के साथ जुड़े एक आश्रित रेटिंग है। यह चर और संबंधित के बीच संबंध की जांच करने के लिए प्रतिगमन मॉडल का उपयोग करने के लिए एक महान डेटासेट बनाता है। रेटिंग। हालांकि, क्या रेखीय प्रतिगमन उचित होगा, या क्या बहुराष्ट्रीय / आदेशित लॉजिस्टिक प्रतिगमन का उपयोग करना बेहतर है?
लॉजिस्टिक रिग्रेशन बेहतर दिए गए विशिष्ट श्रेणियों के रूप में लगता है, अर्थात निरंतर आश्रित चर नहीं (1) लेकिन निरीक्षण पर 11 श्रेणियां (थोड़ी बहुत बहुत?) (2) हैं, उन श्रेणियों में से 6-7 के लिए केवल डेटा है, अर्थात शेष डेटासेट में 5-4 श्रेणियों का कोई उदाहरण नहीं है।
दूसरी ओर, रैखिक प्रतिगमन को 0-10 के बीच एक रेखीय रूप से अनुमान लगाना चाहिए जो मुझे पता लगाने की कोशिश कर रहा है कि मैं कितना करीब हूं; अभी तक निर्भर चर डेटासेट में निरंतर नहीं है।
बेहतर तरीका कौन सा है? नोट: मैं विश्लेषण के लिए आर का उपयोग कर रहा हूं
उत्तरों में वर्णित कुछ बिंदुओं को संपादित करते हुए संपादित करें:
- कोई व्यावसायिक लक्ष्य नहीं है क्योंकि यह वास्तव में एक विश्वविद्यालय के पाठ्यक्रम के लिए है। कार्य पसंद के एक डेटासेट का विश्लेषण करना है जो भी मैं फिट देखता हूं।
- रेटिंग्स का वितरण सामान्य दिखता है (हिस्टोग्राम / क्यूक-प्लॉट)। डेटासेट में वास्तविक मान 3-8 (भले ही तकनीकी रूप से 0-10) के बीच हो।