मशीन लर्निंग में क्रॉस-सत्यापन करते समय "अंतिम" मॉडल के लिए फ़ीचर चयन


76

मैं फीचर चयन और मशीन सीखने के बारे में थोड़ा भ्रमित हो रहा हूं और मैं सोच रहा था कि क्या आप मेरी मदद कर सकते हैं। मेरे पास एक माइक्रोएरे डेटासेट है जिसे दो समूहों में वर्गीकृत किया गया है और इसमें कई सुविधाएँ हैं। मेरा उद्देश्य हस्ताक्षर में एक छोटी संख्या में जीन (मेरी विशेषताएं) (10-20) प्राप्त करना है कि मैं सिद्धांत रूप में उन नमूनों को वर्गीकृत करने के लिए अन्य डेटासेट पर लागू कर पाऊंगा। जैसा कि मेरे पास बहुत सारे नमूने नहीं हैं (<100), मैं परीक्षण और प्रशिक्षण सेट का उपयोग नहीं कर रहा हूं, लेकिन मजबूती को निर्धारित करने में मदद करने के लिए छुट्टी-एक-आउट क्रॉस-सत्यापन का उपयोग कर रहा हूं। मैंने पढ़ा है कि नमूनों में से प्रत्येक के विभाजन के लिए एक सुविधा का चयन करना चाहिए

  1. परीक्षण सेट के रूप में एक नमूना का चयन करें
  2. शेष नमूनों पर सुविधा का चयन करें
  3. चयनित सुविधाओं का उपयोग करके शेष नमूनों के लिए मशीन लर्निंग एल्गोरिदम लागू करें
  4. परीक्षण सेट सही ढंग से वर्गीकृत किया गया है या नहीं, इसका परीक्षण करें
  5. 1 पर जाएं।

यदि आप ऐसा करते हैं, तो आपको हर बार अलग-अलग जीन मिल सकते हैं, इसलिए आप अपने "अंतिम" इष्टतम जीन क्लासिफायरियर को कैसे प्राप्त करेंगे? यानी चरण 6 क्या है।

इष्टतम से मेरा मतलब है कि जीन का संग्रह है जिसे किसी भी आगे के अध्ययन का उपयोग करना चाहिए। उदाहरण के लिए, मान लें कि मेरे पास एक कैंसर / सामान्य डेटासेट है और मैं शीर्ष 10 जीनों को खोजना चाहता हूं जो एक एसवीएम के अनुसार ट्यूमर प्रकार को वर्गीकृत करेंगे। मैं जीन के सेट और एसवीएम मापदंडों को जानना चाहता हूं जो आगे के प्रयोगों में इस्तेमाल किया जा सकता है यह देखने के लिए कि क्या इसका निदान परीक्षण के रूप में उपयोग किया जा सकता है।


मुझे पूर्ण प्रकटीकरण के लिए कहना चाहिए कि मैंने इसे पहले ही बायोकॉन्टर सूची में पोस्ट कर दिया है
danielsbrewer

कृपया किसी भी बायोकॉन्टर परिणाम को वापस यहाँ संक्षेप में बताएं?
शेन

जवाबों:


39

यह एक बहुत अच्छा सवाल है जो मैंने एसएनपी डेटा के साथ काम करते समय खुद का सामना किया ... और मुझे साहित्य के माध्यम से कोई स्पष्ट जवाब नहीं मिला।

चाहे आप LOO या K-fold CV का उपयोग करते हैं, आप विभिन्न विशेषताओं के साथ समाप्त हो जाएंगे क्योंकि क्रॉस-वैरीएशन पुनरावृत्ति सबसे बाहरी लूप होनी चाहिए, जैसा कि आपने कहा। आप किसी प्रकार की मतदान योजना के बारे में सोच सकते हैं जो आपके LOO-CV से प्राप्त सुविधाओं के n-vectors को रेट करेगी (कागज को याद नहीं कर सकती है लेकिन यह Harald Binder या Antoine Cornuéjols के काम की जाँच करने के लायक है )। एक नया परीक्षण नमूना की अनुपस्थिति में, आमतौर पर जो किया जाता है वह एमएल एल्गोरिथम को पूरे नमूने पर फिर से लागू करने के लिए होता है, जब आपको इसका इष्टतम क्रॉस-मान्य पैरामीटर मिल जाता है। लेकिन इस तरह से आगे बढ़ना, आप यह सुनिश्चित नहीं कर सकते कि कोई ओवरफिटिंग नहीं है (क्योंकि नमूना पहले से ही मॉडल अनुकूलन के लिए उपयोग किया गया था)।

np

  1. कटलर, ए।, कटलर, डीआर, और स्टीवंस, जेआर (2009)। ट्री-बेस्ड मेथड्स, इन हाई-डायमेंशनल डेटा एनालिसिस इन कैंसर रिसर्च , ली, एक्स। एंड जू, आर। (एड।), पीपी। 83-101, स्प्रिंगर।
  2. सैयस, वाई।, इंज़ा, आई।, और लारनागा, पी। (2007)। जैव सूचना विज्ञान में सुविधा चयन तकनीकों की समीक्षा। जैव सूचना विज्ञान , 23 (19) : 2507-2517।
  3. डिआज़-उरीटेर्ट, आर।, अल्वारेज़ डी एंड्रेस, एस (2006)। यादृच्छिक जंगल का उपयोग करके माइक्रोएरे डेटा का जीन चयन और वर्गीकरण। बीएमसी जैव सूचना विज्ञान , 7 : 3।
  4. डियाज-उरीटेर्ट, आर। (2007)। GeneSrF और varSelRF: एक वेब-आधारित टूल और यादृच्छिक वन का उपयोग करके जीन चयन और वर्गीकरण के लिए R पैकेज। बीएमसी जैव सूचना विज्ञान , 8 : 328

चूंकि आप एसवीएम की बात कर रहे हैं, आप दंडित एसवीएम की तलाश कर सकते हैं ।


उसके लिए धन्यवाद। मैं एसवीएम पर विशेष रूप से नहीं बेच रहा हूं, उदाहरण के रूप में इसका उपयोग कर रहा हूं। इसलिए यदि आपने बेतरतीब पेड़ों का उपयोग किया है, तो आपको क्रॉस-वेलिडेशन करने की आवश्यकता नहीं है? क्या वह सही है।
danielsbrewer

7
p

3
यह महत्वपूर्ण है कि इसे रैंडम फ़ॉरेस्ट कहा जाता है रैंडम पेड़ नहीं; आपको Google के साथ समस्या हो सकती है।

1
+1, अच्छा जवाब और मेरे लिए गंभीर - पेपर संदर्भों के लिए बहुत धन्यवाद, विशेष रूप से समीक्षा।
ars

पर्याप्त डेटा के साथ, टेस्ट सेट पकड़ना, मॉडल मापदंडों का अनुकूलन करने के लिए प्रशिक्षण सेट पर लूप करना, पूरे ट्रेन सेट को फिट करना (और "अंतिम" क्लासिफायर कॉल करना) सर्वश्रेष्ठ होगा, और फिर अंतिम मॉडल का मूल्यांकन करें। परीक्षण सेट पर?
user0

40

सिद्धांत में:

संपूर्ण डेटासेट पर प्रशिक्षित एकल मॉडल का उपयोग करके अपनी भविष्यवाणियां करें (ताकि सुविधाओं का केवल एक सेट हो)। क्रॉस-वेलिडेशन का उपयोग केवल संपूर्ण डेटासेट पर प्रशिक्षित एकल मॉडल के अनुमानित प्रदर्शन का अनुमान लगाने के लिए किया जाता है। यह क्रॉस-मान्यता का उपयोग करने में महत्वपूर्ण है कि प्रत्येक गुना में आप प्राथमिक मॉडल को फिट करने के लिए उपयोग की जाने वाली पूरी प्रक्रिया को दोहराते हैं, अन्यथा आप प्रदर्शन में पर्याप्त आशावादी पूर्वाग्रह के साथ समाप्त हो सकते हैं।

ऐसा क्यों होता है, यह देखने के लिए 1000 द्विआधारी सुविधाओं के साथ एक द्विआधारी वर्गीकरण समस्या पर विचार करें, लेकिन केवल 100 मामले, जहां मामले और विशेषताएं सभी पूरी तरह से यादृच्छिक हैं, इसलिए सुविधाओं और मामलों के बीच कोई सांख्यिकीय संबंध नहीं है। यदि हम पूर्ण डेटासेट पर एक प्राथमिक मॉडल प्रशिक्षित करते हैं, तो हम हमेशा प्रशिक्षण सेट पर शून्य त्रुटि प्राप्त कर सकते हैं क्योंकि मामलों की तुलना में अधिक विशेषताएं हैं। हम भी "जानकारीपूर्ण" सुविधाओं का एक सबसेट पा सकते हैं (जो कि संयोग से सहसंबद्ध होने के लिए होता है)। यदि हम केवल उन्हीं विशेषताओं का उपयोग करके क्रॉस-वेरिफिकेशन करते हैं, तो हमें प्रदर्शन का एक अनुमान मिलेगा जो यादृच्छिक अनुमान से बेहतर है। कारण यह है कि क्रॉस-वैलिडेशन प्रक्रिया के प्रत्येक तह में परीक्षण के लिए उपयोग किए गए मामलों के बारे में कुछ जानकारी है क्योंकि सुविधाओं को चुना गया था क्योंकि वे भविष्यवाणी करने के लिए अच्छे थे, उन सभी में, उन लोगों को शामिल किया गया। बेशक असली त्रुटि दर 0.5 होगी।

यदि हम उचित प्रक्रिया अपनाते हैं, और प्रत्येक तह में सुविधा का चयन करते हैं, तो उस तह में उपयोग की गई सुविधाओं के चुनाव में आयोजित मामलों के बारे में कोई जानकारी नहीं है। यदि आप उचित प्रक्रिया का उपयोग करते हैं, तो इस स्थिति में, आपको लगभग 0.5 की त्रुटि दर मिलेगी (हालांकि यह डेटासेट के विभिन्न अहसासों के लिए थोड़ा अलग होगा)।

पढ़ने के लिए अच्छे कागजात हैं:

क्रिस्टोफ़ एम्ब्रोइज़, जेफ्री जे। मैक्लैक्लन, "माइक्रोएरे जीन-अभिव्यक्ति डेटा के आधार पर जीन निष्कर्षण में चयन पूर्वाग्रह", पीएनएएस http://www.pnas.org/content/99/10/6562.abstract

जो ओपी के लिए अत्यधिक प्रासंगिक है और

गैविन सी। कावले, निकोला एलसी टैलबोट, "ऑन-फिटिंग ऑन ओवर मॉडल सेलेक्शन एंड इसके बाद सिलेक्शन बायस इन परफॉर्मेंस इवैल्यूएशन", JMLR 11 (Jul): 2079−2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html

जो दर्शाता है कि एक ही चीज आसानी से मॉडल चयन में बदल सकती है (जैसे कि SVM के हाइपर-मापदंडों को ट्यून करना, जिसे CV प्रक्रिया के प्रत्येक पुनरावृत्ति में भी दोहराया जाना चाहिए)।

प्रयोग में:

मैं प्रदर्शन का अनुमान लगाने के लिए बैगिंग का उपयोग करने और आउट-ऑफ-बैग त्रुटि का उपयोग करने की सलाह दूंगा। आपको कई विशेषताओं का उपयोग करके एक समिति मॉडल मिलेगा, लेकिन यह वास्तव में एक अच्छी बात है। यदि आप केवल एक मॉडल का उपयोग करते हैं, तो यह संभावना होगी कि आप फीचर चयन मानदंड को ओवर-फिट कर देंगे, और एक मॉडल के साथ समाप्त होगा जो एक मॉडल की तुलना में खराब भविष्यवाणियां देता है जो बड़ी संख्या में सुविधाओं का उपयोग करता है।

प्रतिगमन में सब्मिट चयन पर एलन मिलर्स बुक (सांख्यिकी और लागू संभावना पर चैपमैन और हॉल मोनोग्राफ, वॉल्यूम 95) सलाह का अच्छा सा हिस्सा देता है (पृष्ठ 221) यदि भविष्य कहनेवाला प्रदर्शन सबसे महत्वपूर्ण बात है, तो कोई भी चयन न करें , बजाय रिज प्रतिगमन का उपयोग करें। और वह सबसेट चयन पर एक किताब में है !!! ; ओ)


17

Chl में जोड़ने के लिए: समर्थन वेक्टर मशीनों का उपयोग करते समय, एक अत्यधिक अनुशंसित दंड विधि लोचदार नेट है। यह विधि गुणांक को शून्य की ओर सिकोड़ देगी, और सिद्धांत रूप में मॉडल में सबसे स्थिर गुणांक को बनाए रखता है। प्रारंभ में इसका उपयोग प्रतिगमन ढांचे में किया गया था, लेकिन इसे आसानी से समर्थन वेक्टर मशीनों के साथ उपयोग के लिए बढ़ाया गया है।

मूल प्रकाशन : ज़ो और हस्ती (2005): लोचदार नेट के माध्यम से नियमितीकरण और परिवर्तनशील चयन। JRStatist.Soc। बी, 67-2, पीपी.301-320

एसवीएम के लिए लोचदार जाल : झू और ज़ो (2007): सपोर्ट वेक्टर मशीन के लिए परिवर्तनीय चयन: तंत्रिका संगणना में रुझान, अध्याय 2 (संपादक: चेन और वांग)

लोचदार शुद्ध जून-ताओ और यिंग-मिन (2010) में सुधार: कैंसर वर्गीकरण और जीन चयन के लिए एक बेहतर लोचदार नेट: एक्टा आटोमिना सिनिका, 36-7, पीपी.976-981


9

चरण 6 (या 0) के रूप में आप संपूर्ण डेटा सेट पर सुविधा पहचान एल्गोरिथ्म चलाते हैं।

n1n


मुझे लगता है कि एक ही नमूना (1) का उपयोग करते समय एक सामान्यीकरण का मुद्दा है, जब अपने मापदंडों (अंततः, सुविधा चयन के साथ) और (2) का उपयोग करते हुए क्लासिफायर वर्गीकरण / भविष्यवाणी प्रदर्शन का आकलन करने के लिए पूरे डेटा सेट पर अपनी भविष्यवाणियों का उपयोग करें। वास्तव में, आप ओवरफिटिंग पर लगाए गए नियंत्रण को तोड़ रहे हैं जो कि क्रॉस-वैधीकरण का उपयोग करके विस्तृत किया गया था। हस्ती एट अल। सीवी नुकसान, जासूसी का एक अच्छा चित्रण प्रदान करते हैं। wrt। सुविधा का चयन, उनकी ESL पुस्तक में, ,.१०.२ दूसरे संस्करण में।
chl

@chl: ट्यूनिंग मापदंडों के बारे में किसने कुछ कहा? यदि अतिरिक्त चीजें निष्पादित की जाती हैं, तो उन्हें क्रॉस-सत्यापन के दौरान भी दोहराया जाना चाहिए। अपने एल्गोरिथ्म को स्पष्ट रूप से संशोधित करने के लिए जब तक आपको अच्छी क्रॉस-वैलिड त्रुटि दर नहीं मिलती है, "धोखा" है। BTW, मैं मानता हूं कि क्रॉस-वैरिफिकेशन, खासकर लीव-वन-आउट, यह सब बहुत अच्छा नहीं है।
ऐको

यह धोखा नहीं है, क्योंकि CV आपको यह बताता है कि एल्गोरिथ्म नए डेटा पर कैसा प्रदर्शन करेगा। आपको केवल यह सुनिश्चित करने की आवश्यकता है कि आपने पूरे सेट के आधार पर किसी चीज़ पर समझौता नहीं किया है (यह पूर्ण सेट की संरचना के बारे में जानकारी का रिसाव है, इसलिए यह तुरंत सभी ट्रेन भागों को पूर्वाग्रह कर सकता है)।

@ अंब - अंको सही है, अपने मॉडल को सीवी स्टेटिस्टिक को कम करने के लिए ट्यूनिंग है "धोखा" और अंतिम मॉडल के सीवी स्टेटिस्टिक में एक पर्याप्त आशावादी पूर्वाग्रह होगा। इसका कारण यह है कि सीवी स्टेटिस्टिक में एक गैर-नगण्य विचरण है (जैसा कि डेटा के परिमित सेट पर मूल्यांकन किया जाता है) और इस प्रकार यदि आप सीधे सीवी स्टैटिस्टिक्स का अनुकूलन करते हैं तो आप इसे ओवर-फिट कर सकते हैं और आप एक मॉडल के साथ समाप्त हो सकते हैं आपके द्वारा शुरू किए गए की तुलना में यह सामान्य रूप से कम अच्छा है। इसके प्रदर्शन के लिए, मशीन सीखने के संदर्भ में, jmlr.csail.mit.edu/papers/v11/cawley10a.html समाधान देखें : नेस्टेड XVAL का उपयोग करें
Dikran Marsupial

1

यह है कि मैं सुविधाओं का चयन कैसे करता हूं। मान लीजिए कि कुछ ज्ञान के आधार पर, तुलना करने के लिए 2 मॉडल हैं। मॉडल ए में नंबर 1 से नंबर 1 का उपयोग किया जाता है। 10. मॉडल बी नंबर 1 से नंबर 1 का उपयोग करता है। 20. मैं लू-सीवी को मॉडल ए के लिए लागू करूंगा ताकि इसका आउट-ऑफ-सैंपल प्रदर्शन प्राप्त कर सके। B को मॉडल करने के लिए ऐसा ही करें और फिर उनकी तुलना करें।


-1

मैं वर्गीकरण समस्याओं के बारे में निश्चित नहीं हूं, लेकिन प्रतिगमन समस्याओं के लिए फीचर चयन के मामले में, जून शाओ ने दिखाया कि लीव-वन-आउट सीवी असंगत रूप से असंगत है , अर्थात सुविधाओं के उचित सबसेट का चयन करने की संभावना 1 के रूप में परिवर्तित नहीं होती है नमूनों की संख्या बढ़ जाती है। व्यावहारिक दृष्टिकोण से, शाओ मोंटे-कार्लो क्रॉस-सत्यापन, या कई-बाहर की प्रक्रिया की सिफारिश करता है।


ओह माय, फिर भी; क्या आपने इस लेख का शीर्षक पढ़ा है?

2
ठीक है, स्पष्ट होने के लिए - मैं यह नहीं कह रहा हूं कि LOOCV बड़ी संख्या में वस्तुओं के लिए एक अच्छा विचार है; स्पष्ट रूप से यह नहीं है, लेकिन शाओ यहां लागू नहीं है। दरअसल ज्यादातर मामलों में एलएम के नियम एमएल के लिए नहीं होते हैं।

1
यह भी संदिग्ध है कि क्या बड़ी संख्या में विशेषताओं और तुलनात्मक रूप से कुछ पैटर्नों वाले डेटासेट्स को देखते हुए एसिम्प्टोटिक परिणाम व्यावहारिक उपयोग के हैं। उस मामले में प्रक्रिया का विचरण पूर्वाग्रह या संगति से अधिक व्यावहारिक महत्व का होने की संभावना है। एलओओसीवी का मुख्य मूल्य यह है कि कई मॉडलों के लिए इसे नगण्य कम्प्यूटेशनल व्यय पर लागू किया जा सकता है, इसलिए जबकि बूटस्ट्रैपिंग की तुलना में इसका उच्च संस्करण है, यह उपलब्ध कम्प्यूटेशनल बजट के भीतर एकमात्र व्यवहार्य दृष्टिकोण हो सकता है। यही कारण है कि मैं इसका उपयोग करता हूं, लेकिन मैं प्रदर्शन मूल्यांकन के लिए कुछ और उपयोग करता हूं!
डिक्रान मार्सुपियल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.