मुझे लगता है कि मशीन सीखने या पैरामीटर के आकलन की एक बुनियादी धारणा यह है कि अनदेखी डेटा प्रशिक्षण सेट के समान वितरण से आता है। हालांकि, कुछ व्यावहारिक मामलों में, परीक्षण सेट का वितरण लगभग प्रशिक्षण सेट से अलग होगा।
बड़े पैमाने पर बहु-वर्गीकरण समस्या के लिए कहें जो उत्पाद विवरणों को लगभग 17,000 वर्गों में वर्गीकृत करने की कोशिश करता है। प्रशिक्षण सेट में अत्यधिक तिरछे वर्ग के पुजारी होंगे, जैसे कि कुछ वर्ग के पास कई प्रशिक्षण उदाहरण हो सकते हैं, लेकिन कुछ में कुछ ही हो सकते हैं। मान लीजिए कि हमें किसी क्लाइंट से अज्ञात श्रेणी के लेबल के साथ एक परीक्षण सेट दिया गया है। हम प्रशिक्षण सेट पर प्रशिक्षित क्लासिफायर का उपयोग करके, प्रत्येक उत्पाद को 17,000 वर्गों में से एक में सेट किए गए परीक्षण में वर्गीकृत करने का प्रयास करते हैं। परीक्षण सेट में शायद वर्ग वितरण कम होता है, लेकिन शायद प्रशिक्षण सेट से बहुत अलग होता है, क्योंकि वे विभिन्न व्यावसायिक क्षेत्रों से संबंधित हो सकते हैं। यदि दो वर्ग के वितरण बहुत भिन्न हैं, तो प्रशिक्षित सेटिफ़ायर परीक्षण सेट में अच्छी तरह से काम नहीं कर सकता है। यह विशेष रूप से नैवे बेस क्लासिफायर के साथ स्पष्ट लगता है।
क्या प्रशिक्षण सेट और विशेष रूप से दिए गए परीक्षण सेट के बीच अंतर को संभालने के लिए कोई राजसी तरीका है? मैंने सुना है कि "ट्रांजेक्टिव एसवीएम" एसवीएम में समान काम करता है। क्या एक क्लासीफायर सीखने के लिए ऐसी ही तकनीकें हैं जो किसी विशेष दिए गए टेस्ट सेट पर सर्वश्रेष्ठ प्रदर्शन करती हैं? फिर हम विभिन्न दिए गए परीक्षण सेटों के लिए क्लासिफायरियर को फिर से प्राप्त कर सकते हैं, जैसा कि इस व्यावहारिक परिदृश्य में अनुमति दी गई है।