निरंतर निर्भर चर के लिए लॉजिस्टिक प्रतिगमन का उपयोग करना


9

मुझे हाल ही में अपने शोध पत्र के लिए एक संशोधन मिला है और मेरे पेपर पर समीक्षक की टिप्पणी निम्नलिखित है:

एक मॉडल से प्राप्त परिणाम विशेष रूप से रैखिक प्रतिगमन के बारे में बहुत आश्वस्त नहीं हैं, आमतौर पर आउटलेर्स से निपटने में कमियां हैं। मेरा सुझाव है कि लेखक भी लॉजिस्टिक प्रतिगमन का प्रयास करें और वर्तमान परिणामों के साथ संबंधित परिणामों की तुलना करें। यदि समान अवलोकन प्राप्त किए जाते हैं, तो परिणाम अधिक ठोस होंगे।

क्या समीक्षक की टिप्पणी सही है? क्या लॉजिस्टिक रिग्रेशन मल्टीपल लीनियर रिग्रेशन से बेहतर है?

समस्या यह है कि मेरा आश्रित चर श्रेणीगत नहीं है, यह एक पैमाना चर है। अब मैं क्या कर सकता हूँ? मेरे मॉडल का मूल्यांकन करने के लिए आप किस अन्य प्रतिगमन विधि की सलाह देते हैं?

निम्न तालिका में स्कोर आश्रित चर है। रीसेंसी, फ़्रीक्वेंसी, टेन्योर और लास्ट स्कोर स्वतंत्र चर हैं।

यहाँ छवि विवरण दर्ज करें

मैं एक साइट से इन चरों निकाला है और मैं परिकल्पना है कि इन स्वतंत्र चरों है महत्वपूर्ण प्रभाव पर स्कोर । इसलिए, मैं निम्नलिखित मॉडलों का प्रतिनिधित्व करता हूं:

यहाँ छवि विवरण दर्ज करें


वैसे, इस रैखिक मॉडल के लिए R वर्ग का मान 0.316 है! समीक्षक ने इस मूल्य पर भी टिप्पणी की:

फिर परिणाम आश्वस्त नहीं हैं क्योंकि सीखा गुणांकों की गुणवत्ता पर कोई संकेतक नहीं है। एक छोटा R ^ 2 अच्छे प्रदर्शन का संकेत नहीं दे सकता क्योंकि मॉडल ओवर-फिट हो सकता है।

0.316 आर वर्ग के लिए बहुत कम है? पिछले पत्रों में मैंने समान मूल्यों को बहुत देखा।

यहाँ छवि विवरण दर्ज करें


यह एक मामूली बात है, लेकिन यह समझना कि स्कोर की गणना कैसे की जाती है, अच्छे उत्तर देने में मददगार हो सकती है। क्या आप हमें उस बारे में सूचित करने के लिए अपना प्रश्न संपादित कर सकते हैं?
whuber

मैं अपनी पोस्ट संपादित करता हूं। मेरा सांख्यिकीय ज्ञान अच्छा नहीं है। अगर आप मदद करेंगे तो मैं बहुत शुक्रगुज़ार हूँ।
PSS

1
निरंतर आश्रित चर पर लॉजिस्टिक प्रतिगमन चलाने के बारे में कोई विचार नहीं है ???
PSS

1
क्या स्कोर कुछ ऐसा है जो 0 और 100 के बीच होना चाहिए? उस स्थिति में आप 100 से भाग कर सकते हैं और परिणामी चर पर एक लॉजिस्टिक रिग्रेशन कर सकते हैं, जो हमेशा 0 और 1 के बीच रहेगा ... इस तरह से कुछ अजीब सा काम करने लगता है, और मुझे यकीन नहीं है कि यह कितना समझदार है, लेकिन हो सकता है कि समीक्षक क्या सुझाव दे रहा है?
सैम लिविंगस्टोन

2
नहीं, 0-1 से स्केलिंग या मूल्यवान जानकारी को छोड़ना वाई स्कोर को वर्गीकृत करना बिल्कुल भी अच्छा समाधान नहीं है।
फ्रैंक हार्डेल

जवाबों:


7

आनुपातिक बाधाओं को इस समस्या के लिए सामान्य लॉजिस्टिक रिग्रेशन मॉडल को ठीक करना चाहिए। एक कुशल कार्यान्वयन के लिए जो हजारों अद्वितीय मानों को आर पैकेज में फ़ंक्शन को देखने की अनुमति दे सकता है ।Yormrms


मैंने आर और सभी आवश्यक पैकेज स्थापित किए। क्या आप कृपया orm फ़ंक्शन के लिए कुछ उदाहरण प्रदान करेंगे? मुझे खोज कर नहीं मिला। मेरे प्रतिगमन मॉडल के लिए, कोड क्या होना चाहिए?
PSS

1
यह दस्तावेज़ीकरण का अध्ययन करने के लिए समय बिताने के लायक है। कोड के साथ एक विस्तृत मामले के अध्ययन के लिए बायोस्टैट.mc.vanderbilt.edu/CourseBios330 के तहत हैंडआउट देखें - निरंतर लिए प्रतिगमन मॉडल पर अध्याय । Y
फ्रैंक हरेल

1

आप क्रमशः 1, 2,3 और 4 के प्रतिशत में 1, 2,3, और 4 के मानों को निर्दिष्ट करके प्रोबेट / लॉजीट मॉडल का प्रयास कर सकते हैं।


आप किस चर को सबसे कम चार प्रतिशत (100 में से) कम करने का प्रस्ताव दे रहे हैं? यह क्या पूरा करेगा और क्यों?
whuber

-1

आप स्कोर को द्विआधारी (द्विआधारी चर में परिवर्तित) कर सकते हैं। यदि स्कोर 0 से 100 तक है, तो आप 0 को 50 और 1 से कम किसी भी अंक को दे सकते हैं। मैंने पहले कभी नहीं सुना है कि यह आउटलेर से निपटने का एक अच्छा तरीका है। यह सिर्फ बाहरी लोगों को छिपा सकता है क्योंकि यह बहुत उच्च या निम्न स्कोर को भेदना असंभव होगा। यह मेरे लिए बहुत मायने नहीं रखता है लेकिन आप इसे आज़मा सकते हैं।

इससे भी महत्वपूर्ण बात यह है कि आप अपने सभी कोवरिएट्स और अपनी प्रतिक्रिया चर को क्यों बदल रहे हैं? यह आपके अनुमानों और आपके (मुझे लगता है) को प्रभावित करने वाला है ।βR2

इसके अलावा समीक्षक कहते हैं कि एक छोटा ओवरफिटिंग का सुझाव देता है? मैंने सोचा था कि जब आपका अधिक होता है, लेकिन आपका मॉडल नए डेटा पर खराब प्रदर्शन करता है (यानी यह आपके डेटा को ओवरफिट करता है लेकिन नए डेटा को सामान्य नहीं करता है)। ओवरफिटिंग तब होता है जब आपके पास कुछ अवलोकन होते हैं जो आप बड़ी संख्या में मापदंडों के साथ भविष्यवाणी करने की कोशिश कर रहे हैं। यह आप अपने मॉडल 2 में कर रहे हैं क्योंकि आपके पास 8 अवलोकन हैं जिन्हें आप 7 मापदंडों के साथ समझाने की कोशिश कर रहे हैं।R2R2

मैं बहाना नहीं करने वाला हूं, मैं आंकड़ों के बारे में बहुत कुछ जानता हूं, लेकिन यह मुझे लगता है, उनकी टिप्पणियों के आधार पर, कि यह समीक्षक शायद बहुत कम जानता हो।


उत्तर के लिए आपका बहुत - बहुत धन्यवाद। क्योंकि सभी चर तिरछे हैं, इसलिए मैंने उन्हें प्राकृतिक लॉग-ट्रांसफ़ॉर्म किया है। क्या मैं सही हू? स्पष्ट करने के लिए धन्यवाद कि "ओवरफिटिंग" का क्या मतलब है! असल में, मुझे नहीं पता था कि ओवरफिटिंग का क्या मतलब है। अब, मैं समीक्षक और संपादक को जवाब दे सकता हूं। वैसे, मेरे मूल्यांकन को अधिक ठोस बनाने के लिए आपके लिए मेरी क्या सिफारिश है? क्या आपको लगता है कि प्रतिगमन विधि बेहतर है?
PSS

6
किसी भी कारण से को न देखें । Y
फ्रैंक हरेल

मैं @FrankHarrell से सहमत हूं कि आपके डेटा को डाइचोटाइज़ करने के लिए एक मनमाना दहलीज चुनना कोई मतलब नहीं रखता है। क्या यह आपका संपूर्ण डेटासेट है? यदि आपके पास बहुत कम अवलोकन हैं तो आपका डेटा कभी भी सामान्य रूप से वितरित नहीं दिखता है! इसके अलावा, आपको उस डेटा के प्रकार को भी समझना होगा जो आपके साथ काम कर रहा है। वे किस सीमा तक मूल्य ले सकते हैं, क्या यह समझ में आता है कि उन्हें सामान्य रूप से वितरित किया जाना चाहिए? मैं क्रमिक उपस्कर प्रतिगमन का उपयोग करने के फ्रैंक के सुझाव पर ध्यान देने जा रहा हूं, लेकिन मेरा अनुमान है कि यह प्रतिगमन में उनके मूल्य के बजाय स्कोर के क्रम का उपयोग करता है।
पोन्टिकोस

@PotentialScientist, इससे कोई फर्क नहीं पड़ता कि आपके वितरण तिरछे हैं। ओएलएस (ठेठ) प्रतिगमन में, केवल अवशिष्ट मामलों का वितरण, यहां देखें: क्या-अगर-अवशिष्ट-सामान्य रूप से वितरित-लेकिन-वाई-नहीं है । आप यह भी पढ़ना चाहते हैं: व्याख्या-की-लॉग-रूपांतरित-पूर्वसूचक , यह समझने के लिए कि आपके मॉडल में आपके भविष्यवक्ताओं को बदलने के परिणामस्वरूप क्या हुआ है।
गंग -

@PotentialScientist आप कैसे हो रहे हैं? यदि आप CSV प्रारूप में डेटा प्रदान करने के लिए अपने प्रश्न को संपादित करते हैं तो मैं प्रो हार्रेल द्वारा सुझाए गए orm फ़ंक्शन को चलाने का प्रयास कर सकता हूं और हम आउटपुट का विश्लेषण कर सकते हैं। यह लायक है कि आप R की मूल बातें सीखें (एक फाइल में कैसे पढ़ें और रिग्रेशन कैसे चलाएं)।
पोंटिकोस १६'१३ को

-1

एक तार्किक निर्भर चर पर भी लॉजिस्टिक प्रतिगमन लागू करना संभव है। यह समझ में आता है, अगर आप यह सुनिश्चित करना चाहते हैं कि पूर्वानुमान scoreहमेशा के लिए है [0, 100](मैं आपके स्क्रीनशॉट से अनुमान लगाता हूं कि यह 100-पॉइंट पैमाने पर है)।

इसे पूरा करने के लिए, बस अपने स्कोर को 100 से विभाजित करें, और इस प्रश्न के[0,1] आधार पर लॉजिस्टिक रिग्रेशन को इस तरह से चलाएं - जैसे कि आप यह कर सकते हैं, उदाहरण के लिए R, का उपयोग करके

glm(y~x, family="binomial", data=your.dataframe)

मुझे नहीं पता कि यह दृष्टिकोण आउटलेर्स के साथ मदद करता है - यह उस आउटलेर के प्रकार पर निर्भर करता है जिसकी आप अपेक्षा कर रहे हैं। लेकिन कभी-कभी यह फिट की भलाई में सुधार करता है (यहां तक ​​कि , अगर आपके आश्रित चर में प्राकृतिक निचले और ऊपरी सीमाएं हैं।R2

दूसरे प्रश्न के रूप में, सबसे अच्छा हो सकता है जो आप अपने डेटा से बाहर निकाल सकते हैं, बिना ओवरफिट किए। यदि आप अनुमान के उद्देश्य से अपने मॉडल का निर्माण करते हैं, तो कम पूरी तरह से ठीक है, जब तक कि आपके लिए महत्वपूर्ण गुणांक महत्वपूर्ण है। यदि आप यह जांचना चाहते हैं कि क्या मॉडल ओवरफिटेड है, तो आप परीक्षण सेट पर इसके जांच कर सकते हैं , या क्रॉस-सत्यापन भी कर सकते हैं।R20.3R2R2

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.