क्या मजबूत तरीके वास्तव में बेहतर हैं?


17

मेरे पास विषयों के दो समूह हैं, A, और B, प्रत्येक का आकार लगभग 400 है, और लगभग 300 भविष्यवक्ता हैं। मेरा लक्ष्य एक द्विआधारी प्रतिक्रिया चर के लिए एक भविष्यवाणी मॉडल बनाना है। मेरा ग्राहक ए पर बी से निर्मित मॉडल को लागू करने का परिणाम देखना चाहता है (उसकी पुस्तक, "प्रतिगमन मॉडलिंग रणनीतियाँ", @FrankHarrell में उल्लेख है कि दो डेटासेट को संयोजित करना और उस पर एक मॉडल बनाना बेहतर है, क्योंकि ऐसा करने से जुड़ जाता है। पावर और प्रिसिजन --- देखें पेज 90, एक्सिडेंट वैलिडेशन। मैं उससे सहमत हूं कि उस प्रकार के डेटा को इकट्ठा करना जो मेरे पास बहुत महंगा और समय लेने वाला है। लेकिन मेरे पास इस बात का कोई विकल्प नहीं है कि ग्राहक क्या चाहता है। ।) मेरे कई भविष्यवक्ता अत्यधिक सहसंबद्ध हैं और बहुत तिरछे भी हैं। मैं अपने भविष्य कहनेवाला मॉडल के निर्माण के लिए लॉजिस्टिक रिग्रेशन का उपयोग कर रहा हूं।

मेरे भविष्यवक्ता मुख्य रूप से यांत्रिकी से आते हैं। उदाहरण के लिए, कुल समय और विभिन्न मूल्यों के लिए विषय समय अवधि तुलना में अधिक था । यह स्पष्ट है कि उनकी परिभाषा से, इन कुल समयों में से कई बीजगणित रूप से एक दूसरे से संबंधित हैं। कई भविष्यवाणियां जो बीजगणितीय रूप से संबंधित नहीं हैं, उनकी प्रकृति के कारण संबंधित हैं: ऐसे विषय जो एक समय अवधि के दौरान उच्च तनाव में हैं समय अवधि के दौरान उच्च तनाव में रहते हैं , भले हीα[t1,t2]α>00टी1<टी2[टी1,टी2][टी3,टी4][t1,टी2][टी3,टी4]=। डेटा के आयाम को कम करने के लिए, मैंने संबंधित भविष्यवाणियों को एक साथ क्लस्टर किया (उदाहरण के लिए, सभी कुल तनाव बार एक साथ) और प्रत्येक क्लस्टर का प्रतिनिधित्व करने के लिए प्रमुख घटक विश्लेषण का उपयोग किया। चूँकि चरों को तिरछा किया गया था, मैंने दो वैकल्पिक रास्ते आज़माए:

  • पीसीए करने से पहले, मैंने चरों में तिरछा कम करने के लिए एक लघुगणकीय परिवर्तन का उपयोग किया।
  • मैंने Mia Hubert के ROBPCA एल्गोरिथ्म का उपयोग किया, जैसा कि R, (PHHubert) में पैकेज rrcov द्वारा लागू किया गया था, ताकि मजबूत प्रिंसिपल घटकों को खोजा जा सके।

मैं आरओसी वक्र के समग्र आकार का उपयोग कर रहा हूं, सटीक-रिकॉल वक्र का आकार, और मेरे प्रदर्शन उपायों के रूप में आरओसी वक्र (एयूसी) के तहत क्षेत्र, और मैं दोनों डेटासेट ए और बी के लिए समान परिणाम प्राप्त करना चाहता हूं। मैं मजबूत प्रिंसिपल घटकों का उपयोग करने से बहुत बेहतर परिणाम प्राप्त करने की उम्मीद कर रहा था, लेकिन मेरे आश्चर्य के लिए, पहली विधि ने बेहतर किया: दोनों डेटासेट ए और बी के लिए बेहतर एयूसी मूल्य, आरओसी घटता के बीच अधिक समानता, और अधिक समान परिशुद्धता-याद घटता।

इसके लिए स्पष्टीकरण क्या है? और मैं अपने डेटा को सामान्य बनाने की कोशिश करने के बजाय, मजबूत प्रमुख घटकों का उपयोग कैसे कर सकता हूं? क्या कोई विशेष रूप से मजबूत PCA विधियाँ हैं जो आप ROBPCA के बजाय सुझाएंगे?


"मैंने संबंधित भविष्यवक्ताओं को एक साथ जोड़ा" क्या आप बेहतर बता सकते हैं कि इसमें क्या कदम शामिल हैं? "मैं मजबूत प्रमुख घटकों का उपयोग करने से बहुत बेहतर परिणाम प्राप्त करने की उम्मीद कर रहा था" क्या आप बता सकते हैं कि आप परिणामों को कैसे मापते हैं?
user603

आपको क्या लगता है कि डेटासेट को संयोजित करना बेहतर है? मैं बिल्कुल सहमत नहीं हूं। एक कठिनाई यह है कि इस तरह की समस्या विशेष डेटा पर बहुत अधिक निर्भर है। एक अन्य डेटा सेट पर मॉडल का परीक्षण करना एक अच्छा विचार है।
पीटर Flom - को पुनः स्थापित मोनिका

"बेहतर" लॉग चर पर नियमित पीसीए किस अर्थ में था? क्या यह अधिक सहज ज्ञान युक्त है? क्या इसने दूसरे डेटा सेट में बेहतर परिणाम दिया?
पीटर Flom - को पुनः स्थापित मोनिका

आपकी टिप्पणी के लिए धन्यवाद @PeterFlom! मैंने आपकी टिप्पणियों के अनुसार प्रश्न को अपडेट किया है।
user765195

आपकी टिप्पणी के लिए धन्यवाद @ user603! मैंने आपकी टिप्पणी को प्रतिबिंबित करने के लिए सवाल अपडेट किया है।
user765195

जवाबों:


17

संक्षेप में, और आपके विवरण से, आप सेब की तुलना संतरे से कर रहे हैं .... दो तरह से।

लॉग

इस उदाहरण पर विचार करें:

library("MASS")
library("copula")
library("rrcov")
p<-2;n<-100;

eps<-0.2
l1<-list()
l3<-list(rate=1)
#generate assymetric data
model<-mvdc(claytonCopula(1,dim=p),c("unif","exp"),list(l1,l3));
x1<-rMvdc(ceiling(n*(1-eps)),model);
#adding 20% of outliers at the end:
x1<-rbind(x1,mvrnorm(n-ceiling(n*(1-eps)),c(7,3),1/2*diag(2))) 

डेटा

अब, दो मॉडल (ROBPCA और क्लासिक pca दोनों डेटा के लॉग पर) फिट करें:

x2<-log(x1)
v0<-PcaClassic(x2)
v1<-PcaHubert(x2,mcd=FALSE,k=2)

अब, प्रत्येक विधि द्वारा प्राप्त छोटी से छोटी भिन्नता के अक्ष पर विचार करें (यहां, सुविधा के लिए, मैं इसे लॉग-ट्रांसफ़ॉर्म किए गए स्थान पर प्लॉट करता हूं लेकिन आपको मूल स्थान पर समान निष्कर्ष मिलेगा)।

नमूना

संभवतः, ROBPCA डेटा के अनियंत्रित हिस्से (हरे डॉट्स) को संभालने का एक बेहतर काम करता है:

लेकिन अब, मैं अपनी दूसरी बात पर पहुँचता हूँ।

एचयूzमैंwमैं

आपके पास यह है (यह ऊपर के प्लॉट में दिखाई देता है):

Σमैंएचयू(zमैं)2<Σमैंएचयू(wमैं)2(1)

लेकिन आपको आश्चर्य होता है कि:

Σमैं=1n(zमैं)2>Σमैं=1n(wमैं)2(2)

- जिस तरह से आपने अपनी परीक्षण प्रक्रिया का वर्णन किया है, आप संपूर्ण डेटासेट पर फिट आकलन मानदंड की गणना करते हैं, इसलिए आपका मूल्यांकन मानदंड (2) का एक नीरस कार्य है जहां आपको (1) के एक नीरस फ़ंक्शन का उपयोग करना चाहिए -

दूसरे शब्दों में, अपने पूर्ण डेटासेट पर एक गैर मजबूत प्रक्रिया की तुलना में छोटे वर्ग के छोटे योगों के लिए एक मजबूत फिट की उम्मीद न करें: गैर मजबूत अनुमानक पहले से ही संपूर्ण डेटासेट पर SSOR का अद्वितीय न्यूनतम है।


1
आपकी प्रतिक्रिया के लिए धन्यवाद। अन्य डेटा के साथ प्रयोग करने और वास्तव में इसे समझने के लिए आपकी प्रतिक्रिया के बारे में सोचने में मुझे थोड़ा समय लगा।
user765195
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.