मैंने व्याख्यान नहीं देखा, इसलिए जो कहा गया था, उस पर मैं टिप्पणी नहीं कर सकता।
मेरी $ 0.02: यदि आप रेज़मैपलिंग का उपयोग करके प्रदर्शन का अच्छा अनुमान प्राप्त करना चाहते हैं, तो आपको वास्तव में पूर्व के बजाय रेज़ामलिंग के दौरान सभी ऑपरेशन करना चाहिए। यह वास्तव में फ़ीचर चयन [1] के साथ-साथ पीसीए जैसे गैर-तुच्छ कार्यों के लिए सच है। यदि यह परिणामों में अनिश्चितता जोड़ता है, तो इसे फिर से शुरू करने में शामिल करें।
प्रमुख घटक प्रतिगमन के बारे में सोचें: कुछ घटकों पर रेखीय प्रतिगमन के बाद पीसीए। पीसीए अनुमान मापदंडों (शोर के साथ) और घटकों की संख्या भी चुना जाना चाहिए (विभिन्न मूल्यों के परिणामस्वरूप अलग परिणाम => अधिक शोर होगा)।
कहते हैं कि हमने योजना 1 के साथ 10 गुना सीवी का उपयोग किया:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
या योजना 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
यह दूसरे दृष्टिकोण से स्पष्ट होना चाहिए कि त्रुटि अनुमान उत्पन्न करना चाहिए जो पीसीए की वजह से अनिश्चितता को दर्शाता है, घटकों की संख्या और रैखिक अभिव्यक्ति का चयन। वास्तव में, पहली योजना में सीवी को यह पता नहीं है कि इससे पहले क्या हुआ था।
मैं हमेशा सभी कार्यों को w / resampling में नहीं करने का दोषी हूं, लेकिन केवल तब जब मैं प्रदर्शन अनुमानों (जो असामान्य है) के बारे में वास्तव में परवाह नहीं करता हूं।
क्या दोनों योजनाओं में बहुत अंतर है? यह डेटा और प्री-प्रोसेसिंग पर निर्भर करता है। यदि आप केवल केंद्र और स्केलिंग कर रहे हैं, तो शायद नहीं। यदि आपके पास एक टन डेटा है, तो शायद नहीं। जैसे-जैसे प्रशिक्षण सेट का आकार घटता जाता है, खराब अनुमान लगने का जोखिम बढ़ता जाता है, खासकर अगर n पी के करीब है।
मैं अनुभव से निश्चितता के साथ कह सकता हूं कि रेज़मैपलिंग के भीतर पर्यवेक्षित फीचर चयन शामिल नहीं है, वास्तव में एक बुरा विचार है (बड़े प्रशिक्षण सेटों के बिना)। मैं यह नहीं देखता कि पूर्व-प्रसंस्करण इस (कुछ हद तक) के लिए प्रतिरक्षा क्यों होगी।
@mchangun: मुझे लगता है कि घटकों की संख्या एक ट्यूनिंग पैरामीटर है और आप संभवतः प्रदर्शन अनुमानों का उपयोग करके इसे चुनना चाहेंगे जो सामान्य है। आप स्वचालित रूप से K को चुन सकते हैं जैसे कि कम से कम X% विचरण को समझाया गया है और उस प्रक्रिया को फिर से शुरू करने के भीतर शामिल करें ताकि हम उस प्रक्रिया में शोर के लिए जिम्मेदार हों।
मैक्स
[१] एम्ब्रोज़, सी।, और मैक्लाक्लन, जी। (२००२)। माइक्रोएरे जीन-अभिव्यक्ति डेटा के आधार पर जीन निष्कर्षण में चयन पूर्वाग्रह। नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही, 99 (10), 6562-6566।