वर्गीकरण के लिए प्रशिक्षण सेट से डुप्लिकेट निकालें

9

हम कहते हैं कि मेरे पास एक वर्गीकरण समस्या के लिए पंक्तियों का एक समूह है:

X_{1}, . . . X_{N}, Y

$X_1, ... X_N, Y$

कहाँ पे $X_1, ..., X_N$ सुविधाएँ / भविष्यवाणियों और हैं $Y$ पंक्ति का फीचर संयोजन किस श्रेणी का है।

कई फीचर संयोजन और उनकी कक्षाएं डेटासेट में दोहराई जाती हैं, जिसका उपयोग मैं एक क्लासिफायरफायर फिट करने के लिए कर रहा हूं। मैं सिर्फ सोच रहा हूं कि क्या डुप्लिकेट को हटाने के लिए स्वीकार्य है (मैं मूल रूप group by X1 ... XN Yसे एसक्यूएल में प्रदर्शन करता हूं )? धन्यवाद।

पुनश्च:

यह केवल द्विआधारी उपस्थिति के लिए है जहां कक्षा पुजारी काफी तिरछे होते हैं

— cs0815
स्रोत

13

नहीं, यह स्वीकार्य नहीं है। दोहराव वे होते हैं जो सबूतों का वजन प्रदान करते हैं।

यदि आप अपने डुप्लिकेट को हटाते हैं, तो एक चार पत्ती वाला तिपतिया घास एक नियमित, तीन पत्ती तिपतिया घास के रूप में महत्वपूर्ण है, क्योंकि प्रत्येक एक बार होगा, जबकि वास्तविक जीवन में हर 10,000 नियमित तिपतिया घास के लिए एक चार पत्ती तिपतिया घास है।

यहां तक कि अगर आपके पुजारी "काफी तिरछे" हैं, जैसा कि आप कहते हैं, प्रशिक्षण सेट का उद्देश्य वास्तविक जीवन के अनुभव को संचित करना है, जिसे आप आवृत्ति की जानकारी खो देने पर प्राप्त नहीं करेंगे।

— कार्लोस एक्सीली
स्रोत

1

मैं पिछले जवाब से सहमत हूं लेकिन यहां मेरे आरक्षण हैं। निर्णय लेने वाले पेड़ों जैसे विशिष्ट क्लासिफायर के लिए प्रशिक्षण और परीक्षण के लिए नमूनों को अलग करते हुए डुप्लिकेट को हटाने की सलाह दी जाती है । कहते हैं, आपके डेटा का 20% एक विशेष वर्ग और $\frac{1}{4}^{th}$ परीक्षण में जब्त किए गए लोग, फिर निर्णय पेड़ जैसे एल्गोरिदम डुप्लिकेट नमूनों के साथ उस वर्ग के प्रवेश द्वार बनाएंगे । यह परीक्षण सेट पर भ्रामक परिणाम प्रदान कर सकता है क्योंकि अनिवार्य रूप से सही आउटपुट के लिए एक बहुत ही विशिष्ट प्रवेश द्वार है।

जब आप उस क्लासिफायर को पूरी तरह से नए डेटा पर तैनात करते हैं, तो यह आश्चर्यजनक रूप से खराब प्रदर्शन कर सकता है यदि उपरोक्त 20% नमूनों के समान नमूने नहीं हैं।

तर्क : कोई यह तर्क दे सकता है कि यह स्थिति त्रुटिपूर्ण डेटासेट की ओर इशारा करती है लेकिन मुझे लगता है कि यह वास्तविक जीवन के अनुप्रयोगों के लिए सच है।

तंत्रिका नेटवर्क, बायेसियन मॉडल आदि के लिए डुप्लिकेट निकालना स्वीकार्य नहीं है।

— रक्षित कोठारी
स्रोत

एक और संभव समाधान उनके घटने की आवृत्ति के आधार पर डुप्लिकेट को कम करने के लिए हो सकता है।

— रक्षित कोठारी