वर्गीकरण के लिए प्रशिक्षण सेट से डुप्लिकेट निकालें


9

हम कहते हैं कि मेरे पास एक वर्गीकरण समस्या के लिए पंक्तियों का एक समूह है:

X1,...XN,Y

कहाँ पे X1,...,XN सुविधाएँ / भविष्यवाणियों और हैं Y पंक्ति का फीचर संयोजन किस श्रेणी का है।

कई फीचर संयोजन और उनकी कक्षाएं डेटासेट में दोहराई जाती हैं, जिसका उपयोग मैं एक क्लासिफायरफायर फिट करने के लिए कर रहा हूं। मैं सिर्फ सोच रहा हूं कि क्या डुप्लिकेट को हटाने के लिए स्वीकार्य है (मैं मूल रूप group by X1 ... XN Yसे एसक्यूएल में प्रदर्शन करता हूं )? धन्यवाद।

पुनश्च:

यह केवल द्विआधारी उपस्थिति के लिए है जहां कक्षा पुजारी काफी तिरछे होते हैं

जवाबों:


13

नहीं, यह स्वीकार्य नहीं है। दोहराव वे होते हैं जो सबूतों का वजन प्रदान करते हैं।

यदि आप अपने डुप्लिकेट को हटाते हैं, तो एक चार पत्ती वाला तिपतिया घास एक नियमित, तीन पत्ती तिपतिया घास के रूप में महत्वपूर्ण है, क्योंकि प्रत्येक एक बार होगा, जबकि वास्तविक जीवन में हर 10,000 नियमित तिपतिया घास के लिए एक चार पत्ती तिपतिया घास है।

यहां तक ​​कि अगर आपके पुजारी "काफी तिरछे" हैं, जैसा कि आप कहते हैं, प्रशिक्षण सेट का उद्देश्य वास्तविक जीवन के अनुभव को संचित करना है, जिसे आप आवृत्ति की जानकारी खो देने पर प्राप्त नहीं करेंगे।


1

मैं पिछले जवाब से सहमत हूं लेकिन यहां मेरे आरक्षण हैं। निर्णय लेने वाले पेड़ों जैसे विशिष्ट क्लासिफायर के लिए प्रशिक्षण और परीक्षण के लिए नमूनों को अलग करते हुए डुप्लिकेट को हटाने की सलाह दी जाती है । कहते हैं, आपके डेटा का 20% एक विशेष वर्ग और14thपरीक्षण में जब्त किए गए लोग, फिर निर्णय पेड़ जैसे एल्गोरिदम डुप्लिकेट नमूनों के साथ उस वर्ग के प्रवेश द्वार बनाएंगे । यह परीक्षण सेट पर भ्रामक परिणाम प्रदान कर सकता है क्योंकि अनिवार्य रूप से सही आउटपुट के लिए एक बहुत ही विशिष्ट प्रवेश द्वार है।

जब आप उस क्लासिफायर को पूरी तरह से नए डेटा पर तैनात करते हैं, तो यह आश्चर्यजनक रूप से खराब प्रदर्शन कर सकता है यदि उपरोक्त 20% नमूनों के समान नमूने नहीं हैं।

तर्क : कोई यह तर्क दे सकता है कि यह स्थिति त्रुटिपूर्ण डेटासेट की ओर इशारा करती है लेकिन मुझे लगता है कि यह वास्तविक जीवन के अनुप्रयोगों के लिए सच है।

तंत्रिका नेटवर्क, बायेसियन मॉडल आदि के लिए डुप्लिकेट निकालना स्वीकार्य नहीं है।


एक और संभव समाधान उनके घटने की आवृत्ति के आधार पर डुप्लिकेट को कम करने के लिए हो सकता है।
रक्षित कोठारी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.