"दुर्लभ" घटनाओं के साथ सीखने की निगरानी, ​​जब दुर्लभता बड़ी संख्या में काउंटर-तथ्यात्मक घटनाओं के कारण होती है


13

मान लीजिए कि आपको किसी बाज़ार में खरीदारों और विक्रेताओं के बीच "मैच" देखने को मिलते हैं। आप दोनों खरीदारों और विक्रेताओं की विशेषताओं का भी निरीक्षण कर सकते हैं, जिसका उपयोग आप भविष्य के मैचों की भविष्यवाणी करने और बाजार के दोनों किनारों पर सिफारिशें करने के लिए करना चाहेंगे।

सादगी के लिए, मान लें कि एन खरीदार और एन विक्रेता हैं और प्रत्येक को एक मैच मिलता है। एन मैच और (एन -1) (एन -1) गैर मैच हैं। सभी समावेशी प्रशिक्षण डेटासेट में N + (N-1) * (N-1) अवलोकन हैं, जो निषेधात्मक रूप से बड़े हो सकते हैं। ऐसा लगता है कि (N-1) (N-1) से गैर-मिलान करने और उस कम किए गए डेटा पर एक एल्गोरिथ्म को प्रशिक्षित करना अधिक कुशल हो सकता है। मेरे प्रश्न हैं:

(1) क्या इस समस्या से निपटने के लिए एक प्रशिक्षण डाटासेट बनाने के लिए गैर-मैचों से नमूना लेना उचित है?

(२) यदि (१) सत्य है, तो यह तय करने का एक कठोर तरीका है कि (एन -१) (एन -१) को शामिल करने का कितना बड़ा हिस्सा है?

जवाबों:


11

अगर मैं सही ढंग से समझूं, तो आपको दो वर्ग वर्गीकरण की समस्या है, जहाँ सकारात्मक वर्ग (माचिस) दुर्लभ है। इस तरह के एक वर्ग के असंतुलन के साथ कई क्लासीफायर संघर्ष करते हैं, और बेहतर प्रदर्शन प्राप्त करने के लिए बहुसंख्यक वर्ग को उप-नमूना करना आम बात है, इसलिए पहले प्रश्न का उत्तर "हां" है। हालांकि, यदि आप बहुत अधिक उप-नमूना करते हैं, तो आप एक क्लासिफायर के साथ समाप्त हो जाएंगे, जो अल्पसंख्यक सकारात्मक वर्ग की भविष्यवाणी करता है, इसलिए सबसे अच्छी बात यह है कि प्रदर्शन को अधिकतम करने के लिए उप-नमूना राशन का चयन करें, शायद क्रॉस को कम करके- सत्यापन त्रुटि जहां परीक्षण डेटा को उप-नमूना नहीं किया गया है, इसलिए आपको परिचालन प्रदर्शन का एक अच्छा संकेत मिलता है।

यदि आपके पास एक संभाव्य क्लासिफायरिफायर है, जो क्लास मेमोरशिप की संभाव्यता का अनुमान देता है, तो आप प्रशिक्षण सेट और ऑपरेशन में वर्ग आवृत्तियों के बीच के अंतर की भरपाई के लिए एक बेहतर और बाद की प्रक्रिया को आउटपुट कर सकते हैं। मुझे संदेह है कि कुछ क्लासिफायरर्स के लिए, इष्टतम दृष्टिकोण क्रॉस-वैलिडेशन त्रुटि का अनुकूलन करके उप-नमूना अनुपात और आउटपुट में सुधार दोनों को अनुकूलित करना है।

उप-नमूने के बजाय, कुछ क्लासिफायरफाइर्स (जैसे एसवीएम) के लिए आप सकारात्मक और नकारात्मक पैटर्न को अलग-अलग वजन दे सकते हैं। मैं इसे उप-नमूने के लिए पसंद करता हूं क्योंकि इसका मतलब है कि उपयोग किए गए विशेष उप-नमूने के कारण परिणामों में कोई परिवर्तनशीलता नहीं है। जहां यह संभव नहीं है, बैगेड क्लासिफायर बनाने के लिए बूटस्ट्रैपिंग का उपयोग करें, जहां प्रत्येक पुनरावृत्ति में बहुमत वर्ग का एक अलग उप-नमूना उपयोग किया जाता है।

एक और बात मैं कहूंगा कि आमतौर पर जहां एक बड़ा वर्ग असंतुलन होता है, झूठी नकारात्मक त्रुटियां और झूठी सकारात्मक त्रुटि समान रूप से खराब नहीं होती हैं, और इसे क्लासिफायर डिज़ाइन में बनाना एक अच्छा विचार है (जिसे उप द्वारा पूरा किया जा सकता है -Sampling या भार वर्ग से संबंधित पैटर्न)।


3
(+1), हालाँकि मुझे लगता है कि किसी को रैंकिंग के लक्ष्य (माप: एयूसी) और दोनों वर्गों को अलग करना होगा (माप: सटीकता)। पूर्व मामले में, Naive Bayes जैसे एक संभाव्य क्लासफियर को देखते हुए, असंतुलन एक कम भूमिका निभाता है, मुझे लगता है। या इस मामले में भी चिंतित होना चाहिए? एक और सवाल: "आउटपुट के बाद की प्रक्रिया" से आपका क्या मतलब है? वास्तविक संभावनाओं के लिए स्कोर परिवर्तित?
स्टीफन

@Steffen मेरा अंतर्ज्ञान यह है कि श्रेणी के असंतुलन की समस्या रैंकिंग के लिए एक समस्या से कम है, लेकिन यह पूरी तरह से दूर नहीं जाएगी (मैं इस समस्या पर एक पेपर पर काम कर रहा हूं, ताकि कुछ हल करने लायक हो)। पोस्ट-प्रोसेसिंग द्वारा, मेरा मतलब था कि आउटपुट को ऑपरेशनल और ट्रेनिंग सेट क्लास फ्रिक्वेंसी के अनुपात से गुणा करें और फिर सभी संभावित परिणामों की संभावनाओं को फिर से सामान्य कर दें। हालांकि व्यवहार में वास्तविक इष्टतम स्केलिंग कारक कुछ अलग होने की संभावना है - इसलिए XVAL के साथ अनुकूलन करें (लेकिन अभी भी फिर से सामान्य करें)।
डिक्रान मार्सुपियल

1

के बारे में (1)। यदि आप सार्थक परिणाम चाहते हैं तो आपको सकारात्मक और नकारात्मक टिप्पणियों को रखने की आवश्यकता है।
(2) यदि आपके डेटा में कोई प्राथमिकता नहीं है, तो यूनिफ़ॉर्म वितरण की तुलना में सबसम्प्लिंग की कोई समझदार विधि नहीं है।


धन्यवाद Ugo - सहमत, निश्चित रूप से प्रशिक्षण डेटा में मैच और गैर-मैच दोनों की आवश्यकता हो सकती है। सवाल यह है कि कितने (N-1) (N-1) नॉन-मैच की जरूरत है। भाग (2) के लिए, मैं निश्चित रूप से सभी टिप्पणियों पर डब्ल्यू / बराबर वजन का नमूना लेगा।
जॉन हॉर्टन

यदि आपके पास अपने डेटा पर एप्रीओरी नहीं है तो डेटा का नमूना लेने का कोई उचित तरीका नहीं है। इसलिए आपको एक समान नमूनाकरण करना होगा, और इस मामले में, जितना अधिक आप लेंगे, उतना ही बेहतर होगा। हालाँकि आप नमूने द्वारा पेश की गई त्रुटि का अनुमान लगा सकते हैं, लेकिन इस बिंदु पर आपकी सहायता करने के लिए हम यहाँ जानकारी को याद कर रहे हैं।
उगो

यह मुझे लगता है कि त्रुटि उपयोग किए गए क्लासिफायरियर के प्रकार पर निर्भर करेगी। वैसे भी आप हमेशा अलग-अलग नमूना दर पर भविष्यवाणी करने और एक सीमा तय करने की कोशिश कर सकते हैं जहां आपको लगता है कि पेश की गई त्रुटि संतोषजनक है।
उगो
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.