आधार डेटा : मेरे पास मूल्यांकन के साथ ~ 1,000 लोग चिह्नित हैं: '1,' [अच्छा] '2,' [मध्य] या '3' [बुरा] - ये वे मूल्य हैं जो मैं भविष्य में लोगों के लिए भविष्यवाणी करने की कोशिश कर रहा हूं । इसके अलावा, मेरे पास कुछ जनसांख्यिकीय जानकारी है: लिंग (श्रेणी: एम / एफ), आयु (संख्यात्मक: 17-80) और दौड़ (श्रेणी: काला / कोकेशियान / लैटिनो)।
मेरे पास मुख्य रूप से चार प्रश्न हैं:
मैं शुरू में कई रिग्रेशन विश्लेषण के रूप में ऊपर वर्णित डेटासेट चलाने की कोशिश कर रहा था। लेकिन मुझे हाल ही में पता चला है कि चूँकि मेरा आश्रित एक आदेशित कारक है न कि एक सतत चर, इसलिए मुझे कुछ इस तरह के लिए क्रमिक लॉजिस्टिक प्रतिगमन का उपयोग करना चाहिए। मैं शुरू में कुछ का उपयोग कर रहा था
mod <- lm(assessment ~ age + gender + race, data = dataset)
, क्या कोई मुझे सही दिशा में इंगित कर सकता है?वहां से, मुझे लगता है कि मैं उन गुणांकों को प्राप्त करता हूं जिनके साथ मैं सहज महसूस करता हूं, मैं समझता हूं कि X1, x2, आदि के लिए पूरी तरह से संख्यात्मक मानों को कैसे प्लग किया जाए - लेकिन मैं दौड़ से कैसे निपटूंगा, उदाहरण के लिए, जहां कई प्रतिक्रियाएं हैं: काला / कॉरेशियन / लेटिनो? इसलिए अगर यह मुझे बताता है कि कोकेशियान गुणांक 0.289 है और कोई व्यक्ति जो मैं भविष्यवाणी करने की कोशिश कर रहा हूं वह कोकेशियान है, तो मैं मूल्य के संख्यात्मक नहीं होने के बाद से उसे कैसे प्लग करूं?
मेरे पास यादृच्छिक मूल्य भी हैं जो गायब हैं - कुछ दौड़ के लिए, कुछ लिंग के लिए, आदि। क्या मुझे यह सुनिश्चित करने के लिए कुछ अतिरिक्त करना है कि यह कुछ भी तिरछा नहीं है? (मैंने देखा कि जब मेरा डेटासेट R-Studio में लोड हो जाता है, जब लापता डेटा लोड हो जाता है
NA
, R कुछ ऐसा कहता है(162 observations deleted due to missingness)
- लेकिन अगर वे ब्लैंक के रूप में लोड होते हैं, तो यह कुछ भी नहीं करता है।)यह मानते हुए कि मेरे पास लिंग, आयु और नस्ल के साथ नया डेटा है, जिस पर मैं भविष्यवाणी करना चाहता हूं - क्या आर में एक आसान तरीका है कि सभी को चलाने के लिए जो भी नए गुणांक के साथ मेरे सूत्र के माध्यम से निकलता है, बजाय इसे मैन्युअल रूप से करने के? (यदि यह प्रश्न यहां उपयुक्त नहीं है, तो मैं इसे आर फोरम पर वापस ले जा सकता हूं।)