हम कब कहते हैं कि डेटासेट वर्गीकृत नहीं है?


11

मैंने कई बार एक डेटासेट का विश्लेषण किया है जिस पर मैं वास्तव में किसी भी प्रकार का वर्गीकरण नहीं कर सकता था। यह देखने के लिए कि क्या मुझे एक क्लासिफायर प्राप्त हो सकता है जिसे मैंने आमतौर पर निम्नलिखित चरणों का उपयोग किया है:

  1. संख्यात्मक मूल्यों के खिलाफ लेबल के बॉक्स प्लॉट बनाएं।
  2. वर्गों को अलग-थलग करने के लिए आयाम को 2 या 3 पर कम करें, कभी-कभी एलडीए की भी कोशिश की।
  3. एसवीएम और रैंडम फॉरेस्ट को फिट करने का प्रयास करें और फीचर-महत्व को देखें कि क्या विशेषताएं किसी भी अर्थ में हैं या नहीं।
  4. वर्ग असंतुलन एक मुद्दा हो सकता है, यह जांचने के लिए अंडर-सैंपलिंग और ओवर-सैंपलिंग जैसी कक्षाओं और तकनीकों के संतुलन को बदलने की कोशिश करें।

कई अन्य दृष्टिकोण हैं जिनके बारे में मैं सोच सकता हूं, लेकिन कोशिश नहीं की है। कभी-कभी मुझे पता चलता है कि ये विशेषताएं अच्छी नहीं हैं और उस लेबल से संबंधित नहीं हैं जिसके बारे में हम भविष्यवाणी करने की कोशिश कर रहे हैं। फिर मैं व्यायाम को समाप्त करने के लिए उस व्यावसायिक अंतर्ज्ञान का उपयोग करता हूं, यह निष्कर्ष निकालता हूं कि हमें बेहतर सुविधाओं या पूरी तरह से अलग-अलग लेबल की आवश्यकता है।

मेरा सवाल यह है कि डेटा साइंटिस्ट कैसे रिपोर्ट करता है कि इन सुविधाओं के साथ वर्गीकरण नहीं किया जा सकता है। क्या इसको रिपोर्ट करने या पहले अलग-अलग एल्गोरिदम में डेटा फिट करने का कोई सांख्यिकीय तरीका है और सत्यापन मीट्रिक देखना सबसे अच्छा विकल्प है?


मुझे ऐसा लगता है कि यदि इस प्रश्न का स्पष्ट और वस्तुनिष्ठ उत्तर है, तो वैज्ञानिक प्रयास के सभी अर्थहीन हो जाते हैं। विज्ञान कला है।
मेफी

हाहा हाँ सच। मैं सिर्फ अलगता खोजने के लिए और अधिक तरीकों को जानने के लिए इच्छुक हूं। ग्राहकों को यह दिखाने के लिए कि सांख्यिकीय रूप से कैसे दिखाया जाए, जैसे कि कुछ अभ्यासों पर अधिक समय देना निरर्थक हो सकता है।
vc_dim

1
मैं अंतिम दो पैराग्राफ छोड़ने का सुझाव देता हूं, क्योंकि वे प्रश्न को बहुत अधिक / व्यापक बनाते हैं। पहला भाग - पेशेवर रूप से एक गैर-परिणाम को कैसे संभालना और रिपोर्ट करना है - जवाबदेह होना चाहिए, और व्यक्तिगत रूप से मुझे लगता है कि हमें साइट पर इस प्रकार के डेटा विज्ञान पेशेवर शिष्टाचार प्रश्न की अधिक आवश्यकता है।
नील स्लेटर

नील समझती है। इसे कुरकुरा होने का संपादन।
vc_dim

जवाबों:


4

यह आपके डेटा पर निर्भर करता है। मानव स्तर की त्रुटि नामक कुछ है। मान लीजिए कि मुद्रित पुस्तकों को पढ़ने जैसे कार्य, मनुष्य पढ़ने के लिए संघर्ष नहीं करते हैं और यह तब तक नहीं हो सकता है जब तक कि छपाई की गुणवत्ता खराब न हो। हाथ से लिखी पांडुलिपियों को पढ़ने जैसे मामलों में, यह बहुत हो सकता है कि सभी शब्दों को न समझें अगर लेखक का फ़ॉन्ट पाठक के लिए अजीब है। पहली स्थिति में मानव स्तर की त्रुटि बहुत कम है और सीखने के एल्गोरिदम का प्रदर्शन समान हो सकता है लेकिन दूसरा उदाहरण इस तथ्य को दर्शाता है कि कुछ स्थितियों में मानव स्तर की त्रुटि इतनी अधिक और सामान्य तरीके से होती है (यदि आप उसी का उपयोग करते हैं मनुष्य के रूप में सुविधाएँ) आपके सीखने के एल्गोरिथ्म में इतना त्रुटि अनुपात होगा।

सांख्यिकीय सीखने में, कुछ कहा जाता है Bayes Error, जब भी कक्षाओं का वितरण ओवरलैप होता है, तो त्रुटि का अनुपात बड़ा होता है। सुविधाओं को बदलने के बिना, वर्तमान वितरण की बेयस त्रुटि सबसे अच्छा प्रदर्शन है और इसे बिल्कुल भी कम नहीं किया जा सकता है।

मैं आपको यहां पढ़ने का सुझाव भी देता हूं । नियुक्त सुविधाओं के साथ बड़ी मात्रा में बेयस त्रुटि वाली समस्याओं को उन विशेषताओं के स्थान के साथ वर्गीकृत नहीं किया जाता है। एक और उदाहरण के रूप में आप मान सकते हैं कि आप कारों को रोशनी के साथ वर्गीकृत करना चाहते हैं। यदि आप सुबह ऐसा करने की कोशिश करते हैं, तो आप स्वयं में बहुत सारी त्रुटियां हो सकती हैं और यदि आप लर्निंग अल्गोरिद्म को प्रशिक्षित करने के लिए समान चित्रों का उपयोग करते हैं, तो यह भी हो सकता है।

इसके अलावा, मैं आपको अपनी कक्षाओं के वितरण को नहीं बदलने की सलाह देता हूं। ऐसे मामलों में, सीमा के पास क्लासिफायर का परिणाम पूरी तरह से यादृच्छिक होगा। आपके मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करने के लिए डेटा का वितरण नहीं बदला जाना चाहिए और यह वास्तविक स्थिति में होना चाहिए।


यह मददगार है, मुझे बेयस एरर के बारे में नहीं पता था। कक्षाओं के वितरण को बदलने के बाद मुझे सटीकता में सुधार करने में कठिनाई हुई। मैं मानता हूं कि यह बहुत अच्छा विचार नहीं है। फिर भी मैंने कभी-कभी श्रेणी के पदानुक्रमों को बदलने की कोशिश की है जो यह उम्मीद करते हैं कि सुविधा अधिक दानेदार या सार वर्गों (जैसे बदलते बंदर, कुत्तों और अन्य स्तनपायी) का प्रतिनिधित्व कर सकती है। मुझे लगता है कि यदि कोई बेयस त्रुटि है, तो श्रेणी पदानुक्रम बदलने से भी मदद नहीं मिलेगी।
vc_dim

@SumitSinghChauhan वास्तव में उन स्थितियों में जहां बेयस त्रुटि बड़ी है, सुविधा इंजीनियरिंग करने की कोशिश करना सबसे अच्छा समाधान है। क्योंकि गहरी शिक्षा जो स्वयं सुविधाओं को ढूंढती है, उन मामलों में उपयोग नहीं की जा सकती है जहां डेटासेट बड़ा नहीं है।
मीडिया में

5

एक कक्षा से एक नमूना तत्व और दूसरी कक्षा से एक नमूना तत्व लें। क्या इन दोनों तत्वों के लिए सटीक एक ही विशेषता वेक्टर होना संभव है? यदि ऐसा कभी हो सकता है, तो दो वर्ग आपके वर्तमान फीचर वैक्टर का उपयोग करके पूरी तरह से अलग नहीं होते हैं (क्योंकि वर्गीकरण का निर्णय पूरी तरह से किसी दिए गए तत्व के लिए फीचर वेक्टर में आधारित है)।

दूसरी ओर, यदि एक वर्ग में * प्रत्येक "तत्व में अन्य वर्ग में एक समान तत्व होता है जैसे कि दो तत्वों में एक ही फीचर वैक्टर होता है, तो आपके वर्तमान फीचर वैक्टर का उपयोग करके दोनों वर्ग अप्रभेद्य होते हैं।

इसके अलावा, यदि वह स्थिति आपके कुछ तत्वों में से कुछ के लिए है, न कि दूसरों के बीच में, तो आप कहीं बीच में हैं, और आप इसका उपयोग एक आधार के रूप में कर सकते हैं कि आप अपने वर्तमान फीचर सेट का उपयोग करके किसी क्लासिफायर से कितनी अच्छी उम्मीद कर सकते हैं।

इन सभी मूल्यांकनों का उपयोग अलग-अलग डिग्री के तर्क के लिए किया जा सकता है जिसे आपको अधिक सुविधाएँ निकालने की आवश्यकता है।


1
धन्यवाद रॉबर्ट यह परिचित है और सही लगता है। मैंने कुछ परियोजनाओं के लिए एक ही विश्लेषण किया है। मेरे पास एक ही सुविधा वेक्टर था जिसमें वेक्टर को अलग-अलग टैग किया गया था और इसका उपयोग एक आधार के रूप में किया गया था कि मैं कितना सटीक हो सकता हूं। कुछ बार बॉक्स प्लॉट की साजिश रचने में भी मदद मिली। अभी तक मैंने ग्राहकों को समझाने के लिए सबसे अच्छा तरीका बताया है।
vc_dim
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.