एक वर्गीकरण समस्या के लिए यदि वर्ग चर में असमान वितरण है तो हमें किस तकनीक का उपयोग करना चाहिए?


10

उदाहरण के लिए। अगर मेरे पास दो और अच्छे और बुरे वर्गों के साथ एक वर्ग चर क्रेडिट स्कोरिंग है, जहां # (अच्छा) = 700 और # (बुरा) = 300 है। मैं अपने डेटा को छोटा नहीं करना चाहता। मुझे किस तकनीक का उपयोग करना चाहिए? मैं एसवीएम का उपयोग कर रहा था लेकिन यह भविष्यवाणियों में अच्छाई दे रहा है।


यह विषमता इतनी बुरी नहीं लगती है ; क्या आप सुनिश्चित हैं कि आपके पास कहीं और त्रुटि नहीं है? क्या आप डेटा के बारे में कुछ और जानकारी दे सकते हैं? इसका कोई सामान्य समाधान नहीं है।

मेरे डेटासेट में 17 भविष्यवक्ता (3 निरंतर और 14 श्रेणीबद्ध) हैं, जाहिर है 1 वर्ग चर, और कुल 1000 अवलोकन। आवृत्ति डिस्ट। वर्ग संस्करण के लिए। ट्रेन और टेस्ट के साथ ट्रेन है (खराब) = 197, टेस्ट (खराब) = 103, ट्रायन (अच्छा) = 446, टेस्ट (अच्छा) = 254
asad.taj

जवाबों:


6

आपके वर्ग नमूना आकार इतने असंतुलित नहीं लगते हैं क्योंकि आपके अल्पसंख्यक वर्ग में 30% अवलोकन हैं। लॉजिस्टिक रिग्रेशन आपके मामले में अच्छा प्रदर्शन करना चाहिए। आपके मॉडल में प्रवेश करने वाले भविष्यवक्ताओं की संख्या के आधार पर, आप पैरामीटर अनुमान के लिए कुछ प्रकार के दंड पर विचार कर सकते हैं, जैसे रिज (एल 2) या लासो (एल 1)। बहुत असंतुलित वर्ग के साथ समस्याओं के अवलोकन के लिए, क्रैमर (1999), द स्टेटिस्टिशियन, 48: 85-94 ( पीडीएफ ) देखें।

मैं क्रेडिट स्कोरिंग तकनीकों से परिचित नहीं हूं, लेकिन मुझे कुछ कागजात मिले जो बताते हैं कि आप भारित कक्षाओं के साथ एसवीएम का उपयोग कर सकते हैं, जैसे क्रेडिट स्कोरिंग के लिए सपोर्ट वेक्टर मशीनें: गैर मानक मामलों तक विस्तार । एक विकल्प के रूप में, आप कार्ट, या रैंडम फ़ॉरेस्ट (उत्तरार्द्ध मामले में) के साथ बढ़ाने के तरीकों को देख सकते हैं, नमूना रणनीति को अनुकूलित करना संभव है ताकि वर्गीकरण पेड़ों का निर्माण करते समय प्रत्येक वर्ग का प्रतिनिधित्व किया जाए)। नोवाक और लाड्यू के पेपर जीएलएम बनाम रिकर्सिव विभाजन के पेशेवरों और विपक्षों पर चर्चा करते हैं । मुझे यह लेख हाथ और विंसीकोटी द्वारा असंतुलित वर्ग आकारों के साथ स्कोरकार्ड निर्माण भी मिला ।


Cramer (1999) के लिए लिंक कागजात
98085.pdf

10

वर्ग असंतुलन की समस्याओं को हल करने के लिए एक लोकप्रिय दृष्टिकोण क्लासिफायरियस को पूर्वाग्रह करना है ताकि यह सकारात्मक उदाहरणों पर अधिक ध्यान दे। यह, उदाहरण के लिए, नकारात्मक वर्ग के सापेक्ष सकारात्मक वर्ग के गर्भपात से जुड़े दंड को बढ़ाकर किया जा सकता है। एक अन्य तरीका यह है कि एक संतुलित डेटासेट बनाने के लिए बहुमत वर्ग की निगरानी करके या अल्पसंख्यक वर्ग को रेखांकित करके डेटा को रोकना है।

हालाँकि, आपके मामले में, वर्ग असंतुलन एक समस्या नहीं है। शायद यह पैरामीटर ट्यूनिंग की बात है, क्योंकि एसवीएम क्लासिफायर के लिए इष्टतम पैरामीटर खोजने के बजाय एक थकाऊ प्रक्रिया हो सकती है। RBF कर्नेल में उदाहरण के लिए दो पैरामीटर हैं:सी तथा γ। यह पहले से ज्ञात नहीं है कि कौन सा हैसी तथा γकिसी समस्या के लिए सर्वश्रेष्ठ हैं; परिणामस्वरूप कुछ प्रकार के मॉडल का चयन (पैरामीटर खोज) किया जाना चाहिए।

डेटा प्रीप्रोसेसिंग चरण में, याद रखें कि SVM के लिए आवश्यक है कि प्रत्येक डेटा इंस्टेंस को वास्तविक संख्याओं के वेक्टर के रूप में दर्शाया जाए। इसलिए, यदि श्रेणीबद्ध विशेषताएँ हैं, तो उन्हें एम-श्रेणी की विशेषता का प्रतिनिधित्व करने के लिए एम संख्या का उपयोग करके (या इसे नए बाइनरी चर के साथ बदलकर) संख्यात्मक डेटा में परिवर्तित करने की सिफारिश की गई है।

इसके अलावा, SVM लगाने से पहले वेरिएबल्स को स्केल करना महत्वपूर्ण होता है, ताकि छोटे न्यूमेरिक रेंज में उन पर हावी होने वाले अधिक न्यूमेरिक रेंज में विशेषताओं से बचा जा सके।

की जाँच करें इस पत्र

यदि आप R में काम कर रहे हैं, तो आपूर्ति किए गए पैरामीटर सीमाओं पर ग्रिड खोज का उपयोग करके हाइपरपैरमीटर को ट्यून करने के लिए ट्यून फ़ंक्शन (पैकेज e1071) देखें। फिर, प्लॉट.इन का उपयोग करके , आप नेत्रहीन देख सकते हैं कि मूल्यों का कौन सा सेट छोटी त्रुटि दर देता है।

समय लेने वाली पैरामीटर खोज के आसपास एक शॉर्टकट है। "Svmpath" नामक एक R पैकेज है जो एक बार में 2-वर्ग SVM क्लासिफायर के लिए संपूर्ण नियमितीकरण पथ की गणना करता है। यहां पेपर का लिंक दिया गया है जो बताता है कि यह क्या कर रहा है।

पुनश्च आप इस पेपर को दिलचस्प भी पा सकते हैं: कैलिब्रेटेड प्रायिकता अनुमान प्राप्त करना


2
+1; अभी भी kernlab से ksvm को पसंदीदा R SVM कार्यान्वयन लगता है। उदाहरण के लिए, यह अपने आप ही चर को मापता है और अच्छा लेने के लिए एक अच्छा (= बहुत अच्छी तरह से काम करने वाला) अनुमानी प्रक्रिया हैγआरबीएफ के लिए।

1

मैं सकारात्मक वर्ग के उदाहरणों और नकारात्मक वर्ग के उदाहरणों के लिए नियमितीकरण पैरामीटर सी के एक अलग मूल्य का उपयोग करने की सलाह दूंगा (कई एसवीएम पैकेज इसका समर्थन करते हैं, और किसी भी मामले में इसे आसानी से लागू किया जाता है)। फिर दो नियमितीकरण मापदंडों के अच्छे मूल्यों को खोजने के लिए उदाहरण के लिए क्रॉस-वैलिडेशन का उपयोग करें।

यह दिखाया जा सकता है कि यह सी + और सी द्वारा निर्धारित अनुपात में डेटा के समान रूप से समतुल्य पुन: नमूना है (इसलिए पुन: भार के बजाय पुन: नमूने में कोई फायदा नहीं है, वे अंत में एक ही चीज पर आते हैं और वजन करते हैं) असतत के बजाय निरंतर हो सकता है, इसलिए यह बेहतर नियंत्रण देता है)।

पॉजिटिव और नेगेटिव पैटर्न को 50-50 वेटिंग देने के लिए बस C + और C- का चयन न करें, क्योंकि "असंतुलन कक्षाओं" समस्या के प्रभाव की गति, डेटासेट से डेटासेट में भिन्न होगी, इसलिए इष्टतम री की ताकत -वेटिंग का निर्धारण प्राथमिकता से नहीं किया जा सकता।

यह भी याद रखें कि झूठी-सकारात्मक और झूठी-नकारात्मक लागत अलग-अलग हो सकती है, और समस्या स्वयं हल हो सकती है यदि ये C + और C- को निर्धारित करने में शामिल हैं।

यह भी ध्यान में रखने योग्य है, कि कुछ समस्याओं के लिए बेयस इष्टतम निर्णय नियम एक वर्ग को सभी पैटर्न प्रदान करेगा और दूसरे को अनदेखा करेगा, इसलिए यह जरूरी नहीं कि एक बुरी बात है - इसका मतलब यह हो सकता है कि पैटर्न के घनत्व एक वर्ग दूसरे वर्ग के पैटर्न के घनत्व से नीचे है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.