यदि मैं श्रेणीबद्ध के बजाय परिणाम को सामान्य मानता हूं तो मुझे क्या लाभ होगा?


12

क्रमिक और श्रेणीबद्ध चर की भविष्यवाणी के लिए अलग-अलग विधियां हैं।

जो मुझे समझ नहीं आ रहा है, वह यह है कि यह अंतर कैसे मायने रखता है। क्या एक सरल उदाहरण है जो स्पष्ट कर सकता है कि यदि मैं आदेश छोड़ता हूं तो क्या गलत है? किन परिस्थितियों में इससे कोई फर्क नहीं पड़ता? उदाहरण के लिए, यदि स्वतंत्र चर सभी श्रेणीगत / क्रमिक हैं, तो क्या कोई अंतर होगा?

यह संबंधित प्रश्न स्वतंत्र चर के प्रकार पर केंद्रित है। यहाँ मैं परिणाम चर के बारे में पूछ रहा हूँ।

संपादित करें: मैं इस बिंदु को देखता हूं कि ऑर्डर संरचना का उपयोग करने से मॉडल मापदंडों की संख्या कम हो जाती है, लेकिन मैं अभी भी वास्तव में आश्वस्त नहीं हूं।

यहाँ एक उदाहरण दिया गया है (लॉजिस्टिक लॉगरिज्म के लिए एक परिचय से लिया गया जहाँ तक मैं देख सकता हूँ कि ऑर्डिनल लॉजिस्टिक रिग्रेशन बहुराष्ट्रीय लॉजिस्टिक रिग्रेशन से बेहतर प्रदर्शन नहीं कर सकता है:

library(nnet)
library(MASS)
gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric"))

ordered_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- polr(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

multinomial_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- multinom(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

n <- 100

polr_res <- replicate(n, ordered_result())
multinom_res <- replicate(n, multinomial_result())
boxplot(data.frame(polr=polr_res, multinom=multinom_res))

जो दोनों एल्गोरिदम के सही अनुमानों की संख्या (40 में से) के वितरण को दर्शाता है।

polr_vs_multinom

Edit2: जब मैं स्कोरिंग विधि के रूप में निम्नलिखित का उपयोग करता हूं

return(sum(abs(as.numeric(pred)-as.numeric(test_data$apply)))

और "बहुत गलत" भविष्यवाणियों को दंडित करें, पोल अभी भी खराब लग रहा है, अर्थात ऊपर का प्लॉट बहुत ज्यादा नहीं बदलता है।


1
आपका उदाहरण एक अनुचित अनुचित स्कोरिंग नियम का उपयोग करता है, जो सामान्य रूप से भविष्यवाणियों के सेट की तुलना करने के लिए एक अच्छा आधार नहीं है (यह मनमाना है और इसमें शक्ति और परिशुद्धता का अभाव है)।
फ्रैंक हार्ले

मैंने मान लिया कि आपको आउटपुट वेरिएबल को लागू करने के लिए ए होना चाहिए ordered factor, जो परिणामों में सुधार करेगा: gradapply$apply <-factor(gradapply$apply, levels= c('unlikely', 'somewhat likely', 'very likely') , ordered = TRUE)लेकिन इससे कोई फर्क नहीं पड़ता। यदि आप सटीकता को देखते हैं, तो दोनों बहुत समान हैं। हालांकि, पूरी तरह से भरोसा करने के लिए सटीकता एक अच्छी मीट्रिक नहीं है।
झूबर्ब

जवाबों:


10

उचित होने पर Y को क्रमबद्ध मानने से प्रमुख शक्ति और सटीक लाभ होते हैं। यह मॉडल में मापदंडों की बहुत कम संख्या से उत्पन्न होता है (k के एक कारक द्वारा जहां k, Y की श्रेणियों की संख्या से कम है)। कई ऑर्डिनल मॉडल हैं। सबसे अधिक इस्तेमाल किया जाता है आनुपातिक बाधाओं और निरंतरता अनुपात आंत्रीय लॉजिस्टिक मॉडल।


1
+1 पैरामीटर्स में कमी का मतलब यह भी है कि ऑर्डिनल मॉडल को फिट करना बहुत आसान हो सकता है।
JMS

4

यदि आप चर की प्रकृति को अनदेखा करते हैं तो उपयुक्त विधियाँ अभी भी सही विश्लेषण प्रदान करेंगी, लेकिन आदेशित डेटा के लिए विधियों का उपयोग करने का लाभ यह है कि वे महत्वपूर्ण चर के क्रम और परिमाण के बारे में अधिक जानकारी प्रदान करते हैं।


मैं यह नहीं देख सकता कि आदेश के बारे में कौन सी जानकारी प्रदान की गई है।
कर्स्टन डब्ल्यू।

1
मान लीजिए कि एक चर के तीन स्तर हैं, निम्न, मध्य, उच्च। एक क्रमिक विश्लेषण निम्न और मेड के बीच कोई अंतर नहीं सुझा सकता है, लेकिन उच्च के लिए महत्व। पैरामीटर का अनुमान ऐसी जानकारी प्रदान कर सकता है जैसे 'जब चर X अधिक होता है, तो प्रभाव 2.5 या मध्यम से अधिक होने का अनुमान लगाया जाता है' - इसलिए दिशा और परिमाण।
मुरैना

2

यदि आप डेटा को मॉडल करना चाहते हैं और आश्रित श्रेणीबद्ध चर का कोई क्रम (नाममात्र) नहीं है, तो आपको एक बहुराष्ट्रीय लॉगर मॉडल का उपयोग करना होगा। यदि आश्रित चर में एक क्रम (क्रम) होता है तो आप एक संचयी लॉगिट मॉडल (आनुपातिक ऑड्स मॉडल) का उपयोग कर सकते हैं।

मेरे लिए व्यक्तिगत रूप से, मैं एक बहुराष्ट्रीय मॉडल की तुलना में आनुपातिक बाधाओं के मॉडल की व्याख्या करने के लिए परिणामों को बहुत आसान बनाता हूं, खासकर जब आप किसी जानकार को परिणामों की रिपोर्ट करना चाहते हैं।

ये एकमात्र ऐसे मॉडल नहीं हैं जिनका आप उपयोग कर सकते हैं, लेकिन वे बहुत विशिष्ट हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.