मॉडल चयन के बाद क्रॉस सत्यापन (त्रुटि सामान्यीकरण)


21

नोट: मामला n >> p है

मैं सांख्यिकीय शिक्षण के तत्वों को पढ़ रहा हूं और क्रॉस वेलिडेशन करने के "सही" तरीके के बारे में विभिन्न उल्लेख हैं (जैसे पृष्ठ 60, पृष्ठ 245)। विशेष रूप से, मेरा सवाल यह है कि जब कोई मॉडल खोज की गई है तो के-गुना सीवी या बूटस्ट्रैपिंग का उपयोग करके अंतिम मॉडल (एक अलग परीक्षण सेट के बिना) का मूल्यांकन कैसे किया जाए? ऐसा लगता है कि ज्यादातर मामलों में (एम्बेडेड सुविधा चयन के बिना एमएल एल्गोरिदम) होंगे

  1. एक सुविधा चयन कदम
  2. एक मेटा पैरामीटर चयन चरण (उदाहरण के लिए SVM में लागत पैरामीटर)।

मेरे सवाल:

  1. मैंने देखा है कि सुविधा का चयन चरण में किया जा सकता है जहां सुविधा का चयन पूरे प्रशिक्षण सेट पर किया जाता है और एक तरफ आयोजित किया जाता है। फिर, के-फोल्ड सीवी का उपयोग करते हुए, सुविधा चयन एल्गोरिथ्म का उपयोग प्रत्येक फोल्ड में किया जाता है (हर बार अलग-अलग विशेषताओं को चुना जाता है) और त्रुटि का औसत। फिर, आप अंतिम मोड को प्रशिक्षित करने के लिए सभी डेटा (जो एक तरफ सेट किए गए थे) का उपयोग करके चुने गए विशेषताओं का उपयोग करेंगे, लेकिन मॉडल के भविष्य के प्रदर्शन के अनुमान के रूप में क्रॉस सत्यापन से त्रुटि का उपयोग करें। क्या ये सही है?
  2. जब आप मॉडल मापदंडों का चयन करने के लिए क्रॉस सत्यापन का उपयोग कर रहे हैं, तो बाद में मॉडल के प्रदर्शन का अनुमान कैसे करें? यह # 1 के रूप में एक ही प्रक्रिया है या आप का उपयोग किया जाना चाहिए सीवी 54 पृष्ठ पर डाउनलोड किया है ( पीडीएफ ) या ईमेल नंबर ?
  3. जब आप दोनों चरणों (सुविधा और पैरामीटर सेटिंग) कर रहे हैं ..... तो आप क्या करते हैं? जटिल नेस्टेड छोरों?
  4. यदि आपके पास एक अलग होल्ड आउट नमूना है, तो क्या चिंता दूर हो जाती है और आप सुविधाओं और मापदंडों का चयन करने के लिए क्रॉस सत्यापन का उपयोग कर सकते हैं (चिंता के बिना क्योंकि आपका प्रदर्शन अनुमान एक होल्ड आउट सेट से आएगा)?

@ user2040 (+1) वे प्रश्न वास्तव में बहुत अच्छे हैं! कुछ हद तक संबंधित प्रश्न यहां पाया जा सकता है: मशीन लर्निंग में क्रॉस-सत्यापन करते समय "अंतिम" मॉडल के लिए फ़ीचर चयन
chl

@chi धन्यवाद, मैंने वह पोस्ट देखी थी। क्या आपको लगता है कि मैं अपनी विचार प्रक्रिया के साथ कम से कम सही रास्ते पर हूं? ऐसा लगता है कि एक स्वतंत्र परीक्षण सेट हमें सुविधा चयन और मॉडल ट्यूनिंग / चयन के लिए सीवी के हमारे उपयोग में अधिक उदार होने की अनुमति देता है। अन्यथा, नेस्टेड छोरों को एक ही प्रशिक्षण डेटा का उपयोग करके सभी को प्रशिक्षित करने, धुन और अनुमान सामान्यीकरण की आवश्यकता होती है।
B_Miner

जवाबों:


18

याद रखने वाली महत्वपूर्ण बात यह है कि क्रॉस-वैलिडेशन के लिए (लगभग) निष्पक्ष प्रदर्शन का अनुमान लगाने के लिए मॉडल को फिट करने में शामिल हर कदम को क्रॉस-वैलिडेशन प्रक्रिया के प्रत्येक तह में स्वतंत्र रूप से प्रदर्शन करना होगा। सबसे अच्छी बात यह है कि फीचर चयन, मेटा / हाइपर-पैरामीटर सेटिंग को देखना और मापदंडों को मॉडल फिटिंग के अभिन्न अंग के रूप में अनुकूलित करना और कभी भी इन दोनों में से कोई भी एक चरण को अन्य दो को किए बिना नहीं करना चाहिए।

आशावादी पूर्वाग्रह जो उस नुस्खा से प्रस्थान करके पेश किए जा सकते हैं, आश्चर्यजनक रूप से बड़े हो सकते हैं, जैसा कि केवली और टैलबोट द्वारा प्रदर्शित किया गया है , जहां एक जाहिरा तौर पर सौम्य प्रस्थान द्वारा पेश किया गया पूर्वाग्रह प्रतिस्पर्धी वर्ग के प्रदर्शन के अंतर से बड़ा था। बदतर अभी भी पक्षपाती प्रोटोकॉल खराब मॉडलों का सबसे दृढ़ता से पक्ष लेते हैं, क्योंकि वे हाइपर-मापदंडों की ट्यूनिंग के प्रति अधिक संवेदनशील होते हैं और इसलिए मॉडल चयन मानदंड को ओवर-फिटिंग करने के लिए अधिक प्रवण होते हैं!

विशिष्ट प्रश्नों के उत्तर:

चरण 1 में प्रक्रिया मान्य है क्योंकि प्रत्येक चयन में फ़ीचर चयन अलग-अलग किया जाता है, इसलिए आप जो क्रॉस-मान्य कर रहे हैं वह पूरी प्रक्रिया है जिसका उपयोग अंतिम मॉडल को फिट करने के लिए किया जाता है। क्रॉस-वैलिडेशन अनुमान में थोड़ा निराशावादी पूर्वाग्रह होगा क्योंकि प्रत्येक गुना के लिए डेटासेट अंतिम मॉडल के लिए उपयोग किए जाने वाले संपूर्ण डेटासेट से थोड़ा छोटा होता है।

2 के लिए, चूंकि क्रॉस-सत्यापन का उपयोग मॉडल मापदंडों का चयन करने के लिए किया जाता है, तो आपको प्रदर्शन आकलन के लिए उपयोग किए गए क्रॉस-सत्यापन के प्रत्येक तह में स्वतंत्र रूप से उस प्रक्रिया को दोहराने की आवश्यकता होती है, आप नेस्टेड क्रॉस-सत्यापन के साथ समाप्त होते हैं।

3 के लिए, अनिवार्य रूप से, हाँ आपको नेस्टेड-नेस्टेड क्रॉस-सत्यापन करने की आवश्यकता है। अनिवार्य रूप से आपको सबसे बाहरी क्रॉस-वैलिडेशन (प्रदर्शन आकलन के लिए उपयोग किया जाता है) के प्रत्येक गुना में दोहराने की जरूरत है जो आप अंतिम मॉडल को फिट करने के लिए करना चाहते हैं।

4 के लिए - हाँ, यदि आपके पास एक अलग होल्ड-आउट सेट है, तो यह अतिरिक्त क्रॉस-सत्यापन की आवश्यकता के बिना प्रदर्शन का निष्पक्ष अनुमान देगा।


Q1 को अपना उत्तर दें। समस्या यह नहीं है? बहुत बार हम सोचते हैं कि हम मॉडल को क्रॉस-मान्य कर रहे हैं, जब वास्तव में हम मॉडलिंग प्रक्रिया को पार कर रहे हैं। अंतर दार्शनिक हो सकता है, क्योंकि जब आप गणित लिखते हैं, तो एफ मॉडल या मॉडलिंग प्रक्रिया के लिए खड़ा हो सकता है। लेकिन तब कोई भी पूछ सकता है, जो हम चाहते हैं, उस प्रक्रिया को क्रॉस-मान्य कर रहा है, या मॉडल को क्रॉस-मान्य कर रहा है। आपका क्या विचार है?
किओलेथ

आप किसी मॉडल को क्रॉस-वैलिडेट नहीं कर सकते क्योंकि मॉडल उस डेटा के नमूने पर निर्भर करता है जिस पर उसे प्रशिक्षित किया गया था, जैसे ही आप इसे डेटा के एक अलग नमूने में फिट करते हैं यह एक अलग मॉडल है। बिंदु मैं वास्तव में वहाँ बना रहा था कि अगर आप किसी भी तरह से मॉडल को डेटा के पूरे नमूने पर ट्यून करते हैं (जैसे कि फीचर का चयन करके), तो क्रॉस-सत्यापन सामान्यीकरण का एक आशावादी अनुमान देगा क्योंकि परीक्षण विभाजन का उपयोग ट्यून करने के लिए किया गया है मॉडल के पहलू (यानी इस्तेमाल किया गया फीचर सेट)। HTH।
डिक्रान मार्सुपियल

मुझे नहीं पता कि यह टिप्पणी अनुभाग में हमारी चर्चा जारी रखने के लिए ठीक है, लेकिन जब तक कोई व्यक्ति अन्यथा नहीं कहता ... हां, मैं समझता हूं कि सीवी के बारे में आपकी बात को बाहरी स्तर पर किए जाने की आवश्यकता है और मैं इस पर आपत्ति नहीं जता रहा हूं। वास्तव में, मैंने कल ही अपने सहकर्मी को यही सलाह दी थी। मैं केवल यह इंगित कर रहा हूं कि हम अक्सर यह सुनिश्चित नहीं करते हैं कि हम क्या क्रॉस-वैरिफाइंग हैं। उसी समय मुझे आश्चर्य होता है कि मॉडलिंग प्रक्रिया के बजाय मॉडल पर मूल्यांकन प्राप्त करना, वही है जो हम वास्तव में चाहते हैं। एक उपाय हो सकता है कि कोई सोच सकता है कि वह मॉडल त्रुटि का अनुमान लगाने के लिए प्रक्रिया त्रुटि का उपयोग कर रहा है। शायद यह काम करता है।
13 दिसंबर को क़ोईलेथ

हम बाहरी परीक्षण सेट के बिना किसी विशेष मॉडल के प्रदर्शन का प्रत्यक्ष अनुमान नहीं प्राप्त कर सकते हैं। एक मॉडल के निर्माण के लिए विधि का प्रदर्शन हालांकि मॉडल के प्रदर्शन के लिए एक उचित प्रॉक्सी है, बशर्ते कि यह पूरी विधि है जो क्रॉस-मान्य है। दूसरे शब्दों में, मैं आपके अंतिम वाक्य के सारांश से सहमत हूँ!
डिक्रान मार्सुपियल

5

मैं एक डेटा सेट पर एक व्यापक क्रॉस-सत्यापन विश्लेषण कर रहा हूं, जिसे प्राप्त करने के लिए लाखों की लागत है, और कोई बाहरी सत्यापन सेट उपलब्ध नहीं है। इस मामले में, मैंने वैधता सुनिश्चित करने के लिए व्यापक नेस्टेड क्रॉस सत्यापन किया। मैंने संबंधित प्रशिक्षण सेटों से ही सुविधाओं और अनुकूलित मापदंडों का चयन किया। यह बड़े डेटा सेटों के लिए कम्प्यूटेशनल रूप से महंगा है, लेकिन यह मुझे वैधता बनाए रखने के लिए करना था। हालांकि, ऐसी जटिलताएं हैं जो इसके साथ आती हैं ... उदाहरण के लिए, प्रत्येक प्रशिक्षण सेट में विभिन्न विशेषताओं का चयन किया जाता है।

तो मेरा जवाब है कि ऐसे मामलों में जहां आपके पास बाहरी डेटा सेट के लिए संभव पहुंच नहीं है, यह जाने का एक उचित तरीका है। जब आपके पास एक बाहरी डेटा सेट होता है, तो आप बहुत अधिक शहर जा सकते हैं, हालांकि आप मुख्य डेटा सेट पर चाहते हैं और फिर बाहरी डेटा सेट पर एक बार परीक्षण कर सकते हैं।


@ user2643: क्या आपके पास साझा करने के लिए कोई संदर्भ है कि आपने नेस्टेड सीवी कैसे बनाया? क्या यह उसी लाइन के साथ था जैसा कि मैंने अपने प्रश्न में पीडीएफ के साथ जोड़ा था? क्या ..... संयोग से यह डेटा मार्केटिंग डेटा है?
B_Miner

@ user2643 उस दृष्टिकोण के साथ समस्या (जो सही है) यह है कि यह केवल सटीकता (वर्गीकरण) या परिशुद्धता (प्रतिगमन) के लिए एक ही मानदंड पैदा करता है; जैसा कि आप ने कहा, "आप उन विशेषताओं को नहीं कह पाएंगे जो सबसे दिलचस्प हैं।" मैं आनुवंशिक डेटा (600k चर) के साथ काम कर रहा हूं, जहां हमने निष्कर्षों की विश्वसनीयता का आकलन करने के लिए एक क्रमचय योजना (k = 1000, 5% के स्तर पर आरामदायक होने के लिए) के तहत एम्बेडेड सुविधा चयन के साथ 10-गुना सीवी का उपयोग किया। इस तरह, हम यह कहने में सक्षम हैं: "हमारा मॉडल अच्छी तरह से सामान्य है या नहीं", अधिक कुछ नहीं।
CHL

2
यदि सुविधाएँ तह से अलग-अलग होती हैं, तो इसका मतलब है कि उपयोगी सुविधाओं की पहचान करने के लिए पर्याप्त जानकारी नहीं है, इसलिए मैं यह देखूंगा कि क्रॉस-वैलिडेशन के लाभ के रूप में (जैसा कि किसी एकल मॉडल से परिणामों को देखने की संभावना है सुविधा चयन मानदंड से अधिक फिट है और इसलिए भ्रामक हो)। कई विशेषताओं और कुछ टिप्पणियों के साथ समस्याओं के लिए, रिज प्रतिगमन अक्सर बेहतर प्रदर्शन देता है, इसलिए जब तक कि सुविधाओं की पहचान करना एक महत्वपूर्ण लक्ष्य नहीं है, अक्सर यह बेहतर होता है कि किसी भी सुविधा का चयन न करें।
डिक्रान मार्सुपियल

np

@ user2040: देर से उत्तर के लिए क्षमा करें। मैं नेस्टेड सीवी दृष्टिकोण के अपने खुद के सॉफ्टवेयर कार्यान्वयन बनाया। क्योंकि मेरा शोध जैव सूचना विज्ञान से संबंधित है, इसलिए मैं जल्द ही जैव सूचना विज्ञान पत्रिका के लिए सॉफ्टवेयर का विवरण प्रस्तुत करने की योजना बना रहा हूं। लेकिन इसका इस्तेमाल किसी भी रिसर्च डोमेन में किया जा सकता है। यदि आप इसे आज़माने में रुचि रखते हैं, तो कृपया मुझे बताएं। सुनहरी
1434
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.