लॉजिस्टिक रिग्रेशन में अत्यधिक तिरछे डेटा सेट के लिए वेट जोड़ना


9

मैं अपने इनपुट वैरिएबल को बाइनरी आउटपुट वेरिएबल्स में फिट करने के लिए लॉजिस्टिक रिग्रेशन के एक मानक संस्करण का उपयोग कर रहा हूं।

हालांकि मेरी समस्या में, नकारात्मक आउटपुट (0s) सकारात्मक आउटपुट (1s) से बहुत आगे निकल जाते हैं। अनुपात 20: 1 है। इसलिए जब मैं एक क्लासिफायरियर को प्रशिक्षित करता हूं, तो ऐसा लगता है कि यहां तक ​​कि ऐसे फीचर्स भी हैं जो दृढ़ता से एक सकारात्मक आउटपुट की संभावना का सुझाव देते हैं फिर भी उनके संबंधित मापदंडों के लिए बहुत कम (अत्यधिक नकारात्मक) मान हैं। मुझे ऐसा लगता है कि ऐसा होता है क्योंकि मापदंडों को अपनी दिशा में खींचने वाले बहुत सारे नकारात्मक उदाहरण हैं।

इसलिए मैं सोच रहा हूं कि क्या मैं सकारात्मक उदाहरणों के लिए वजन (1 के बजाय 20 का उपयोग करके) जोड़ सकता हूं। क्या इससे सभी को लाभ होने की संभावना है? और अगर ऐसा है, तो मुझे वज़न कैसे जोड़ना चाहिए (नीचे समीकरणों में)।

लागत समारोह निम्न प्रकार दिखता है:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

इस लागत समारोह (ढाल ) की ढाल इस प्रकार है:θ

grad=((h(xθ)y)X)

यहाँ = परीक्षण मामलों की संख्या, = सुविधा मैट्रिक्स, = आउटपुट वेक्टर, = सिग्मॉइड फ़ंक्शन, = पैरामीटर जिसे हम सीखने की कोशिश कर रहे हैं।mxyhθ

अंत में मैं सबसे कम को खोजने के लिए ढाल वंश चला रहा हूं । कार्यान्वयन सही ढंग से चलता है।J


नमस्ते, मेरी वही समस्या है जिसका आपने वर्णन किया है। मेरे डेटा में बहुत सारे उदाहरण नकारात्मक और बहुत कम सकारात्मक हैं, और मेरे लिए सकारात्मक को सही ढंग से वर्गीकृत करना अधिक महत्वपूर्ण है, भले ही इसका मतलब है कि कुछ नकारात्मक को वर्गीकृत करना। ऐसा प्रतीत होता है कि मैं भी वही तरीके लागू कर रहा हूं जो आप कर रहे थे, क्योंकि मैं उसी कॉस्ट फंक्शन और ग्रेडिएंट समीकरणों का उपयोग कर रहा हूं। अब तक, मैं कुछ परीक्षण चला है और मैं निम्नलिखित परिणाम प्राप्त: - साथ 7 मानकों , प्रशिक्षण नमूने का आकार: 225000 , टेस्ट नमूने का आकार: 75000 परिणाम: 92% सटीकता , हालांकि में सकारात्मक मामलों केवल 11% w
Cartz

1
आप जो कर रहे हैं वह अधिकतम संभावना के साथ एक हानि फ़ंक्शन को भ्रमित कर रहा है। अनवैलेंट एमएल "सही काम" को हीन दृष्टिकोण से कर रहा है, और यह दर्शाता है कि प्रत्येक कोवरिएट विनिर्देश के लिए परिणाम कितना दुर्लभ है। आपके पास अलगाव भी हो सकता है - ऐसा होगा कि एक विशेष रूप से कोवरिएट का एक सेट जो प्रशिक्षण डेटा में प्रतिक्रिया की पूरी तरह से भविष्यवाणी कर सकता है - यह बड़े नकारात्मक मूल्यों को जन्म देगा।
प्रोबैबिलिसोलॉजिकल

2
वर्गीकरण एक अच्छा लक्ष्य नहीं है और लॉजिस्टिक प्रतिगमन विकसित करने का तरीका नहीं है। यह वर्गीकरण की धारणा है जो यहां सूचीबद्ध सभी समस्याओं का कारण बनता है। संभावित संभावनाओं और उचित सटीकता स्कोरिंग नियमों के लिए छड़ी
फ्रैंक हरेल

1
@ नरहंत यह केवल आंशिक रूप से सच है। एक लॉग लिंक के साथ एक बाइनरी लॉजिस्टिक रिग्रेशन अभी भी मान्य है कि आपके सहसंयोजकों पर गुणांक MLE हैं और कक्षा 1 की तुलना में कक्षा 1 की बाधाओं पर उन प्रभावों को प्रतिबिंबित करते हैं। हालांकि, केस-कंट्रोल डिज़ाइन में, अवरोधन है हमेशा कक्षा 1 से कक्षा 0 के अनुपात को प्रतिबिंबित करने के लिए तय किया गया है, और कक्षाओं को असाइन करने के लिए अवरोधन शब्द को समायोजित करने के लिए पूरी तरह से मान्य है, उदाहरण के लिए, मिसकैरेज की कुछ लागत फ़ंक्शन, या कुछ अन्य प्रक्रिया, क्योंकि यह गुणांक नहीं बदलता है चरों पर।
साइकोरैक्स का कहना है कि मोनिका

1
किसी को यह विचार कहां से मिला कि कटऑफ की जरूरत है / वांछित / वांछित?
फ्रैंक हरेल

जवाबों:


8

यह अब अधिकतम संभावना नहीं होगी। का ऐसा चरम वितरण केवल समस्याओं को प्रस्तुत करता है यदि आप एक क्लासिफायराइज़र का उपयोग कर रहे हैं, अर्थात, यदि आप सही तरीके से वर्गीकृत अनुपात की गणना कर रहे हैं, तो एक अनुचित स्कोरिंग नियम। मानक अधिकतम संभावना से संभावना अनुमान मान्य हैं। यदि "पॉज़िटिव" की कुल संख्या उम्मीदवार चर की संख्या से 15 गुना कम है, तो दंडित अधिकतम संभावना अनुमान क्रम में हो सकता है।Y


फ्रैंक, क्या आपके "15 बार ..." विवरण का समर्थन करने के लिए एक संदर्भ या कुछ है? मुझे कुछ आंकड़ों में समान असंतुलन है कि मैं आरओसी पद्धति के स्थान पर कुछ अन्य शोधकर्ताओं द्वारा विकसित लॉजिस्टिक प्रतिगमन का उपयोग कर रहा हूं। मैं हाल ही में छोटे-नमूने के पूर्वाग्रह के पार आया हूं और अपने कोड / पैकेज में फिटिंग के विकल्प के रूप में फर्थ के पूर्वाग्रह में कमी के लिए एक विकल्प जोड़ा है। जैसा कि मैं यह एक पत्रिका के लिए लिख रहा हूँ यह इस तरह अंगूठे के साइड नियमों के साथ कुछ करने के लिए उपयोगी होगा। माफी यदि संदर्भ आपकी RMS पुस्तक है जो मेरी अलमारियों पर बैठी है, लेकिन वहां अभी तक नहीं देखी गई है।
गैविन सिम्पसन

छोटे-नमूना पूर्वाग्रह पर कागजात हैं और फर्थ दंड का मूल्य है। मेरे पास वे काम नहीं हैं। 15 के बारे में: 1 देखें biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
फ्रैंक

धन्यवाद फ्रैंक - 15: 1 मुद्दों पर मैं सबसे बाद में था। मेरे पास छोटे-नमूने के पूर्वाग्रह और फर्थ की विधि पर कुछ प्रकाशन हैं - लेकिन अगर आपके पास कुछ करने के लिए अंततः हाथ था तो मैं सबसे आभारी रहूंगा यदि आप मुझे बताएं कि यह क्या था।
गैविन सिम्पसन

3
बस के मामले में किसी और को ऊपर गलत करना चाहिए जैसा कि मैंने पहले किया था। प्रश्न में 20: 1 नकारात्मक से सकारात्मक टिप्पणियों का अनुपात है। फ्रैंक हरेल के उत्तर में 15: 1 कुछ और है: स्वतंत्र चर के उम्मीदवार के लिए सकारात्मक टिप्पणियों का अनुपात।
एडम बैली

एक चरम वितरण भी अर्ध-पूर्ण अलगाव की संभावना को बढ़ाकर एक समस्या प्रस्तुत करता है, खासकर यदि आपके पास स्पष्ट भविष्यवक्ता हैं। दंड के रूप में अच्छी तरह से यहाँ मदद करता है।
probabilityislogic

3

इस तरह के मामलों में, लॉजिस्टिक लिंक के बजाय एक लचीली लिंक का उपयोग करना अक्सर बेहतर होता है, जो इस विषमता को पकड़ सकता है। उदाहरण के लिए एक तिरछा-सामान्य, GEV , sinh-arcsinh , और उसमें सन्दर्भ। कई अन्य हैं लेकिन मैं 2 से अधिक लिंक पोस्ट नहीं कर सकता।


क्या आप अन्य लिंक कार्यों के लिए कोई स्पष्टीकरण प्रदान कर सकते हैं बेहतर है?
डीडब्ल्यू
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.