परीक्षण सेट और प्रशिक्षण सेट के वितरण के बीच अंतर को कैसे संभालना है?

23

मुझे लगता है कि मशीन सीखने या पैरामीटर के आकलन की एक बुनियादी धारणा यह है कि अनदेखी डेटा प्रशिक्षण सेट के समान वितरण से आता है। हालांकि, कुछ व्यावहारिक मामलों में, परीक्षण सेट का वितरण लगभग प्रशिक्षण सेट से अलग होगा।

बड़े पैमाने पर बहु-वर्गीकरण समस्या के लिए कहें जो उत्पाद विवरणों को लगभग 17,000 वर्गों में वर्गीकृत करने की कोशिश करता है। प्रशिक्षण सेट में अत्यधिक तिरछे वर्ग के पुजारी होंगे, जैसे कि कुछ वर्ग के पास कई प्रशिक्षण उदाहरण हो सकते हैं, लेकिन कुछ में कुछ ही हो सकते हैं। मान लीजिए कि हमें किसी क्लाइंट से अज्ञात श्रेणी के लेबल के साथ एक परीक्षण सेट दिया गया है। हम प्रशिक्षण सेट पर प्रशिक्षित क्लासिफायर का उपयोग करके, प्रत्येक उत्पाद को 17,000 वर्गों में से एक में सेट किए गए परीक्षण में वर्गीकृत करने का प्रयास करते हैं। परीक्षण सेट में शायद वर्ग वितरण कम होता है, लेकिन शायद प्रशिक्षण सेट से बहुत अलग होता है, क्योंकि वे विभिन्न व्यावसायिक क्षेत्रों से संबंधित हो सकते हैं। यदि दो वर्ग के वितरण बहुत भिन्न हैं, तो प्रशिक्षित सेटिफ़ायर परीक्षण सेट में अच्छी तरह से काम नहीं कर सकता है। यह विशेष रूप से नैवे बेस क्लासिफायर के साथ स्पष्ट लगता है।

क्या प्रशिक्षण सेट और विशेष रूप से दिए गए परीक्षण सेट के बीच अंतर को संभालने के लिए कोई राजसी तरीका है? मैंने सुना है कि "ट्रांजेक्टिव एसवीएम" एसवीएम में समान काम करता है। क्या एक क्लासीफायर सीखने के लिए ऐसी ही तकनीकें हैं जो किसी विशेष दिए गए टेस्ट सेट पर सर्वश्रेष्ठ प्रदर्शन करती हैं? फिर हम विभिन्न दिए गए परीक्षण सेटों के लिए क्लासिफायरियर को फिर से प्राप्त कर सकते हैं, जैसा कि इस व्यावहारिक परिदृश्य में अनुमति दी गई है।

— Fashandge
स्रोत

17

यदि अंतर केवल प्रशिक्षण और परीक्षण सेटों में रिश्तेदार वर्ग की आवृत्तियों में निहित है, तो मैं इस पत्र में शुरू की गई ईएम प्रक्रिया की सिफारिश करूंगा:

मार्को सेरेन्स, पैट्रिस लातिने, क्रिस्टीन डेकाएस्टेकर: द क्लासिफायर ऑफ़ द क्लासिफायर ऑफ़ दि ए क्लासिफायर टू न्यू ए प्रोरी प्रोबैबिलिटीज: ए सिंपल प्रोसीजर। तंत्रिका संगणना 14 (1): 21-41 (2002) ( www )

मैंने इसे स्वयं उपयोग किया है और पाया है कि यह बहुत अच्छी तरह से काम करता है (आपको एक क्लासिफायर की आवश्यकता होती है जो वर्ग सदस्यता की संभावना को आउटपुट करता है)।

यदि प्रत्येक वर्ग के भीतर पैटर्न का वितरण बदलता है, तो समस्या को "कोवरिएट शिफ्ट" के रूप में जाना जाता है और सुगियामा और कावाबे द्वारा एक उत्कृष्ट पुस्तक है । इस समूह के कई कागजात ऑन-लाइन उपलब्ध हैं, लेकिन मैं दृढ़ता से पुस्तक को पढ़ने की सलाह दूंगा यदि आप एक प्रति पकड़ सकते हैं। मूल विचार प्रशिक्षण सेट और परीक्षण सेट (जिसके लिए लेबल की आवश्यकता नहीं है) के बीच घनत्व के अंतर के अनुसार प्रशिक्षण डेटा को वजन करना है। वेटिंग प्राप्त करने का एक सरल तरीका यह है कि लॉजिस्टिक रिग्रेशन का उपयोग करके यह अनुमान लगाया जाए कि प्रशिक्षण सेट या टेस्ट सेट से कोई पैटर्न तैयार किया गया है या नहीं। मुश्किल हिस्सा यह चुनने में है कि आवेदन करने के लिए कितना भार है।

एलेक्स स्मोला द्वारा अच्छी ब्लॉग पोस्ट यहाँ भी देखें ।

— डिक्रान मार्सुपियल
स्रोत

इतने सारे मददगार संकेत देने के लिए आपका बहुत-बहुत धन्यवाद!

— फशांदे

कोई समस्या नहीं है, "गैर-मानक" स्थितियों के ये प्रकार वास्तव में दिलचस्प हैं, और कोवरिएट शिफ्ट अनुसंधान का एक विशेष रूप से उपयोगी क्षेत्र है।

— डिक्रान मार्सुपियल

1

जानकर खुशी हुई। हालांकि "गैर-मानक", यह व्यवहार में यथार्थवादी है।

— Fashandge

1

मुझे डोमेन अनुकूलन के बारे में एक उत्कृष्ट ट्यूटोरियल मिला जो इसे और अधिक विस्तार से समझाने में मदद कर सकता है: http://sifaka.cs.uiuc.edu/jiang4/domain_adaptation/survey/da_survey.html एक समाधान जिसका उल्लेख यहां नहीं किया गया है, आधारित है ADABOOST पर। यहाँ मूल लेख का लिंक दिया गया है: http://ftp.cse.ust.hk/~qyang/Docs/2007/tradaboost.pdf मूल विचार ट्रेन डेटा से सीखने को अद्यतन करने के लिए कुछ नए परीक्षण डेटा का उपयोग करना है यह लेख हिमशैल के बारे में एक सीख है - जहां आप एक कार्य से जो जानते हैं उसे दूसरे स्थान पर लागू करते हैं।

— rentreg
स्रोत

1

यदि लिंक ख़राब हो जाता है या इसके स्थान में परिवर्तन होता है, तो क्या आप विशेष रूप से पहले ट्यूटोरियल के कुछ महत्वपूर्ण सारांश बिंदुओं को शामिल कर सकते हैं? हमारे यहाँ "लिंक रोट" की समस्या है, जहाँ हमारे कुछ पुराने उत्तरों के मूल्य काम करने वाले लिंक के कारण कम हो गए हैं, इसलिए यह अच्छा है यदि उत्तर यथासंभव स्व-निहित हों

— सिल्वरफ़िश

यहाँ एक संग्रहीत लिंक दिया गया है: web.archive.org/web/20170930145238/http://sifaka.cs.uiuc.edu/…

— जस्टास