परीक्षण सेट और प्रशिक्षण सेट के वितरण के बीच अंतर को कैसे संभालना है?


23

मुझे लगता है कि मशीन सीखने या पैरामीटर के आकलन की एक बुनियादी धारणा यह है कि अनदेखी डेटा प्रशिक्षण सेट के समान वितरण से आता है। हालांकि, कुछ व्यावहारिक मामलों में, परीक्षण सेट का वितरण लगभग प्रशिक्षण सेट से अलग होगा।

बड़े पैमाने पर बहु-वर्गीकरण समस्या के लिए कहें जो उत्पाद विवरणों को लगभग 17,000 वर्गों में वर्गीकृत करने की कोशिश करता है। प्रशिक्षण सेट में अत्यधिक तिरछे वर्ग के पुजारी होंगे, जैसे कि कुछ वर्ग के पास कई प्रशिक्षण उदाहरण हो सकते हैं, लेकिन कुछ में कुछ ही हो सकते हैं। मान लीजिए कि हमें किसी क्लाइंट से अज्ञात श्रेणी के लेबल के साथ एक परीक्षण सेट दिया गया है। हम प्रशिक्षण सेट पर प्रशिक्षित क्लासिफायर का उपयोग करके, प्रत्येक उत्पाद को 17,000 वर्गों में से एक में सेट किए गए परीक्षण में वर्गीकृत करने का प्रयास करते हैं। परीक्षण सेट में शायद वर्ग वितरण कम होता है, लेकिन शायद प्रशिक्षण सेट से बहुत अलग होता है, क्योंकि वे विभिन्न व्यावसायिक क्षेत्रों से संबंधित हो सकते हैं। यदि दो वर्ग के वितरण बहुत भिन्न हैं, तो प्रशिक्षित सेटिफ़ायर परीक्षण सेट में अच्छी तरह से काम नहीं कर सकता है। यह विशेष रूप से नैवे बेस क्लासिफायर के साथ स्पष्ट लगता है।

क्या प्रशिक्षण सेट और विशेष रूप से दिए गए परीक्षण सेट के बीच अंतर को संभालने के लिए कोई राजसी तरीका है? मैंने सुना है कि "ट्रांजेक्टिव एसवीएम" एसवीएम में समान काम करता है। क्या एक क्लासीफायर सीखने के लिए ऐसी ही तकनीकें हैं जो किसी विशेष दिए गए टेस्ट सेट पर सर्वश्रेष्ठ प्रदर्शन करती हैं? फिर हम विभिन्न दिए गए परीक्षण सेटों के लिए क्लासिफायरियर को फिर से प्राप्त कर सकते हैं, जैसा कि इस व्यावहारिक परिदृश्य में अनुमति दी गई है।

जवाबों:


17

यदि अंतर केवल प्रशिक्षण और परीक्षण सेटों में रिश्तेदार वर्ग की आवृत्तियों में निहित है, तो मैं इस पत्र में शुरू की गई ईएम प्रक्रिया की सिफारिश करूंगा:

मार्को सेरेन्स, पैट्रिस लातिने, क्रिस्टीन डेकाएस्टेकर: द क्लासिफायर ऑफ़ द क्लासिफायर ऑफ़ दि ए क्लासिफायर टू न्यू ए प्रोरी प्रोबैबिलिटीज: ए सिंपल प्रोसीजर। तंत्रिका संगणना 14 (1): 21-41 (2002) ( www )

मैंने इसे स्वयं उपयोग किया है और पाया है कि यह बहुत अच्छी तरह से काम करता है (आपको एक क्लासिफायर की आवश्यकता होती है जो वर्ग सदस्यता की संभावना को आउटपुट करता है)।

यदि प्रत्येक वर्ग के भीतर पैटर्न का वितरण बदलता है, तो समस्या को "कोवरिएट शिफ्ट" के रूप में जाना जाता है और सुगियामा और कावाबे द्वारा एक उत्कृष्ट पुस्तक है । इस समूह के कई कागजात ऑन-लाइन उपलब्ध हैं, लेकिन मैं दृढ़ता से पुस्तक को पढ़ने की सलाह दूंगा यदि आप एक प्रति पकड़ सकते हैं। मूल विचार प्रशिक्षण सेट और परीक्षण सेट (जिसके लिए लेबल की आवश्यकता नहीं है) के बीच घनत्व के अंतर के अनुसार प्रशिक्षण डेटा को वजन करना है। वेटिंग प्राप्त करने का एक सरल तरीका यह है कि लॉजिस्टिक रिग्रेशन का उपयोग करके यह अनुमान लगाया जाए कि प्रशिक्षण सेट या टेस्ट सेट से कोई पैटर्न तैयार किया गया है या नहीं। मुश्किल हिस्सा यह चुनने में है कि आवेदन करने के लिए कितना भार है।

एलेक्स स्मोला द्वारा अच्छी ब्लॉग पोस्ट यहाँ भी देखें ।


इतने सारे मददगार संकेत देने के लिए आपका बहुत-बहुत धन्यवाद!
फशांदे

कोई समस्या नहीं है, "गैर-मानक" स्थितियों के ये प्रकार वास्तव में दिलचस्प हैं, और कोवरिएट शिफ्ट अनुसंधान का एक विशेष रूप से उपयोगी क्षेत्र है।
डिक्रान मार्सुपियल

1
जानकर खुशी हुई। हालांकि "गैर-मानक", यह व्यवहार में यथार्थवादी है।
Fashandge

1

मुझे डोमेन अनुकूलन के बारे में एक उत्कृष्ट ट्यूटोरियल मिला जो इसे और अधिक विस्तार से समझाने में मदद कर सकता है: http://sifaka.cs.uiuc.edu/jiang4/domain_adaptation/survey/da_survey.html एक समाधान जिसका उल्लेख यहां नहीं किया गया है, आधारित है ADABOOST पर। यहाँ मूल लेख का लिंक दिया गया है: http://ftp.cse.ust.hk/~qyang/Docs/2007/tradaboost.pdf मूल विचार ट्रेन डेटा से सीखने को अद्यतन करने के लिए कुछ नए परीक्षण डेटा का उपयोग करना है यह लेख हिमशैल के बारे में एक सीख है - जहां आप एक कार्य से जो जानते हैं उसे दूसरे स्थान पर लागू करते हैं।


1
यदि लिंक ख़राब हो जाता है या इसके स्थान में परिवर्तन होता है, तो क्या आप विशेष रूप से पहले ट्यूटोरियल के कुछ महत्वपूर्ण सारांश बिंदुओं को शामिल कर सकते हैं? हमारे यहाँ "लिंक रोट" की समस्या है, जहाँ हमारे कुछ पुराने उत्तरों के मूल्य काम करने वाले लिंक के कारण कम हो गए हैं, इसलिए यह अच्छा है यदि उत्तर यथासंभव स्व-निहित हों
सिल्वरफ़िश

यहाँ एक संग्रहीत लिंक दिया गया है: web.archive.org/web/20170930145238/http://sifaka.cs.uiuc.edu/…
जस्टास
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.