केस ने लॉजिस्टिक रिग्रेशन को भारित किया

मैं कुछ लॉजिस्टिक रिग्रेशन मुद्दों को देख रहा हूं। ("नियमित" और "सशर्त")।

आदर्श रूप से, मैं प्रत्येक इनपुट मामलों को भारित करना चाहूंगा ताकि glm अधिक भारित मामलों की सही भविष्यवाणी करने पर अधिक ध्यान केंद्रित करेंगे, जो संभवतः कम भारित मामलों को मिसकॉलिफाई करने की कीमत पर होगा।

निश्चित रूप से यह पहले किया गया है। क्या कोई मुझे कुछ प्रासंगिक साहित्य की ओर इशारा कर सकता है (या संभवतः एक संशोधित संभावना फ़ंक्शन का सुझाव दे सकता है।)

धन्यवाद!

logistic

— नूह
स्रोत

आप मान रहे हैं कि वर्गीकरण लक्ष्य है, भविष्यवाणी के विपरीत। संभावनाओं के अनुकूलतम आकलन के लिए आपको किसी भी चीज़ को फिर से वजन करने की आवश्यकता नहीं है। "गलत नकारात्मक" और "गलत सकारात्मक" केवल मजबूर विकल्पों के साथ होते हैं, और आमतौर पर कोई भी शुद्ध द्विआधारी विकल्प के लिए मजबूर नहीं करता है।

— फ्रैंक हार्ले

@Frank आप एक अच्छी बात करते हैं। अंततः, इस परियोजना का लक्ष्य आगे की घटनाओं के परिणाम की भविष्यवाणी करना है। (इसलिए, मुझे लगता है कि इसे प्रशिक्षण डेटा के साथ मशीन लर्निंग स्वाद के रूप में सोचा जा सकता है।) कुछ परिणाम दूसरों की तुलना में अधिक "महत्वपूर्ण" हैं, इसलिए मैं उनके अनुसार वजन करने के लिए एक रास्ता तलाश रहा था। संभावना समारोह के लिए निक का सुझाव समझ में आता है और कोड में लागू करने के लिए काफी तुच्छ होना चाहिए।

— नूह

लगता है जैसे आपको वजन की आवश्यकता के साथ बिल्कुल संभावना मॉडल की आवश्यकता है।

— फ्रैंक हार्ले

सही; लागत फ़ंक्शन में प्लग करें और अनुमानित संभावना का उपयोग करें और आपके पास एक इष्टतम निर्णय है।

— फ्रैंक हार्ले

एक अच्छी तरह से कैलिब्रेटेड प्रायिकता मॉडल के साथ कोई "त्रुटियां" नहीं हैं, बस यादृच्छिकता है जिसका अनुमान नहीं लगाया जा सकता है। इष्टतम निर्णय अनुमानित संभावना का एक कार्य है और कार्य करने के लिए विभिन्न निर्णय लेने के लिए लागत कार्य है।

— फ्रैंक हरेल

जवाबों:

glmweightsइस उद्देश्य के लिए एक पैरामीटर रखता है । आप इसे किसी भी पैमाने पर संख्याओं के वेक्टर के साथ प्रदान करते हैं, जो आपके पास टिप्पणियों के समान भार रखता है।

मुझे केवल अब एहसास हुआ कि आप बात नहीं कर रहे होंगे R। यदि नहीं, तो आप कर सकते हैं।

— निक सब्बे
स्रोत

मैं आर से बहुत परिचित हूं, हालांकि मैं इस संभावना के पीछे के गणित को समझना चाहूंगा। मैं इसे C ++ या किसी अन्य भाषा में कोड कर सकता हूं। (बस glm फ़ंक्शन के "ब्लैकबॉक्स" पर भरोसा करना हमेशा सबसे अच्छा समाधान नहीं होता है)

— नूह

आह। आप पर अच्छा। खैर, जहाँ तक मुझे पता है, वज़न का उपयोग केवल प्रति-अवलोकन loglikelihood के साथ गुणा करने के लिए किया जाता है। इसलिए यदि आपने एक बिना वजन वाला संस्करण लिखा है, तो वज़न जोड़ना एक डोडल होना चाहिए। यह भी ध्यान दें कि आप हमेशा glm(शायद) सी कार्यान्वयन खोजने के लिए स्रोत कोड देख सकते हैं ।

— निक सब्बे

@ ठीक है, मैं भी इस गलत धारणा के तहत था कि यह चकाचौंध में वज़न तर्क का कार्य था - यह नहीं है। इसका उपयोग वास्तव में तब किया जाता है जब द्विपद के परिणाम इस अर्थ में अमानवीय होते हैं कि वे विभिन्न संख्याओं पर आधारित होते हैं। उदाहरण के लिए, यदि पहला अवलोकन द्विपद (

3, .5

$3,.5$ ) और दूसरा द्विपद (

7, .5

$7,.5$ ), उनका वजन होगा

3, 7

$3,7$ । फिर, glm में वज़न तर्क () वेट सैंपलिंग नहीं कर रहे हैं। आर में ऐसा करने के लिए आपको वेट के अनुसार डेटा सेट का विस्तार करना होगा और मॉडल को विस्तारित डेटा सेट में फिट करना होगा (एसई इस मामले में गलत हो सकता है)।

— मैक्रो

यहाँ एक संदेश बोर्ड पर 'वेट्स' तर्क की चर्चा है: r.789695.n4.nabble.com/Weights-in-binomial-glm-td1991249.html

— मैक्रो

@ मैक्रो: thx! बहुत साफ़। चीजों में से एक है जो मुझे दांतों में मार सकता है अगर मैं आपकी टिप्पणी से पहले इसका इस्तेमाल करूंगा :-)

— निक सबबे

यदि आपके पास एसएएस तक पहुंच है, तो यह बहुत आसानी से PROC GENMOD का उपयोग करके पूरा किया गया है। जब तक प्रत्येक अवलोकन में एक वजन चर होता है, तब तक वजन विवरण का उपयोग आपको उस तरह का विश्लेषण करने की अनुमति देगा, जिसे आप खोज रहे हैं। मैंने ज्यादातर इसका उलटा-प्रायिकता-उपचार-उपचार वजन का उपयोग किया है, लेकिन मुझे कोई कारण नहीं दिखता है कि आप कुछ प्रकार के मामलों पर जोर देने के लिए अपने डेटा को भार नहीं दे सकते हैं, इसलिए जब तक आप यह सुनिश्चित करते हैं कि आपका एन स्थिर रहता है। आप यह भी सुनिश्चित करना चाहेंगे कि कुछ प्रकार के आईडी वैरिएबल को शामिल किया जाए, क्योंकि तकनीकी रूप से अपवर्तित मामलों को बार-बार अवलोकन किया जाता है। उदाहरण कोड, 'आईडी' की अवलोकन आईडी और 'wt' के एक वजन चर के साथ:

proc genmod data=work.dataset descending;
    class id;
    model exposure = outcome covariate / dist=bin link=logit;
    weight wt;
    repeated subject=id/type=ind;
run;

— Fomite
स्रोत