मेरा सुझाव है कि आप ऑर्डर किए गए लॉजिस्टिक रिग्रेशन की बेहतर व्याख्या और समझ के लिए श्रेणीबद्ध डेटा विश्लेषण (cf. एलन एगेस्टी के श्रेणीबद्ध डेटा विश्लेषण, 2002) पर पुस्तकों को देखें । आपके द्वारा पूछे गए सभी प्रश्न मूल रूप से ऐसी पुस्तकों में कुछ अध्यायों द्वारा उत्तर दिए गए हैं। आप केवल में रुचि रखते हैं R
संबंधित उदाहरण, आर में रैखिक मॉडल का विस्तार से जूलियन फारअवे (सीआरसी प्रेस, 2008) के लिए एक महान संदर्भ है।
इससे पहले कि मैं आपके सवालों का जवाब दूं, लॉजिस्टिक रिग्रेशन मल्टीनोमियल लॉजिट मॉडल का मामला है जिसमें श्रेणियों का आदेश दिया जाता है। मान लीजिए हम श्रेणियों का आदेश दिया और व्यक्ति के लिए है कि मैं , क्रमसूचक प्रतिक्रिया के साथ वाई मैं ,
पी मैं j = पी ( Y मैं = j ) के लिए j = 1 , । । । , जे । एक आदेश दिया प्रतिक्रिया के साथ, यह अक्सर संचयी संभावनाओं के साथ काम करने के लिए आसान है, γ मैं j = पीजम्मूमैंYमैंपीमैं जे= पी( यi = j )j = 1 , । । । , जे । संचयी संभावनाएं बढ़ती जा रही हैं और आसन्न श्रेणियों के संयोजन के लिए अपरिवर्तनीय हैं। इसके अलावा, γ मैं जम्मू = 1 , इसलिए हम केवल मॉडल की जरूरतसंभावनाओं।γमैं जे= पी( यमैं≤ जे )γमैं जे= 1जम्मू- 1
अब हम को लिंक करना चाहते हैं । आपके मामले में, 3 आदेश दिया स्तर हैं: , , । यह उन्हें असंयमित के बजाय आदेश के रूप में व्यवहार करने के लिए अधिक समझ में आता है। शेष चर आपके सहसंयोजक हैं। आप जिस विशिष्ट मॉडल पर विचार कर रहे हैं वह आनुपातिक बाधाओं का मॉडल है और गणितीय रूप से इसके समकक्ष है: एक्सγमैं जेएक्सSat
low
medium
high
जहां γ j ( एक्स मैं ) = पी ( Y मैं ≤ जे | एक्स मैं )
logit γj( x)मैं) = θj- βटीएक्समैं, j = 1 … J- 1
कहाँ γj( x)मैं) = पी( यमैं≤ जे | एक्समैं)
इसे इसलिए कहा जाता है क्योंकि और तुलना में के सापेक्ष हैं:एक्स 1 एक्स 2Y≤ जेएक्स1एक्स2
( γj( x)1)1 - γj( x)1)) / ( γj( x)2)1 - γj( x)2)) =एक्सप( - βटी( x)1- एक्स2) )
ध्यान दें, उपरोक्त अभिव्यक्ति पर निर्भर नहीं है । बेशक, आनुपातिक बाधाओं की धारणा को किसी दिए गए डेटासेट के लिए जाँचने की आवश्यकता नहीं है।j
अब, मैं कुछ (1, 2, 4) सवालों के जवाब दूंगा।
अगर मॉडल ने अच्छा फिट दिया तो कोई कैसे समझ सकता है? सारांश (house.plr) 3495.149 का अवशिष्ट डीविंस 3479.149 और एआईसी (एकेइक सूचना मानदंड) दिखाता है। क्या वह अच्छा है? उस मामले में जो केवल सापेक्ष उपायों के रूप में उपयोगी होते हैं (यानी किसी अन्य मॉडल की तुलना करने के लिए), एक अच्छा निरपेक्ष उपाय क्या है? क्या अवशिष्ट विचलन लगभग ची-वर्ग वितरित किया जाता है? क्या कोई मूल डेटा या कुछ क्रॉस-वैलिडेशन पर "सही ढंग से भविष्यवाणी की गई" का उपयोग कर सकता है? ऐसा करने का सबसे आसान तरीका क्या है?
द्वारा फिट किया गया एक मॉडल polr
एक विशेष है glm
, इसलिए सभी मान्यताओं जो glm
यहां एक पारंपरिक पकड़ के लिए रखती हैं। यदि आप मापदंडों का ठीक से ध्यान रखते हैं, तो आप वितरण का पता लगा सकते हैं। विशेष रूप से, यह जांचने के लिए कि क्या मॉडल अच्छा है या नहीं, आप फिट टेस्ट की अच्छाई करना चाहते हैं , जो निम्न नल का परीक्षण करें (ध्यान दें कि यह सूक्ष्म है, ज्यादातर आप अशक्त को अस्वीकार करना चाहते हैं, लेकिन यहां आप नहीं करना चाहते हैं एक अच्छा फिट पाने के लिए इसे अस्वीकार करें):
एचओ: वर्तमान मॉडल काफी अच्छा है
आप इसके लिए ची-स्क्वायर टेस्ट का उपयोग करेंगे । P- मान इस प्रकार प्राप्त होता है:
1-pchisq(deviance(house.plr),df.residual(house.plr))
अधिकांश समय आप 0.05 से अधिक पी-मान प्राप्त करने की उम्मीद करेंगे ताकि आप इस निष्कर्ष को खारिज न करें कि मॉडल अच्छा है (यहां दार्शनिक शुद्धता को अनदेखा किया गया है)।
एआईसी एक अच्छा फिट के लिए उच्च होना चाहिए उसी समय आप बड़ी संख्या में पैरामीटर नहीं चाहते हैं। stepAIC
यह जाँचने का एक अच्छा तरीका है।
हां, आप निश्चित रूप से यह देखने के लिए क्रॉस सत्यापन का उपयोग कर सकते हैं कि क्या पूर्वानुमान है। देखें predict
: समारोह (विकल्प type = "probs"
में) ?polr
। आप सभी को ध्यान रखने की जरूरत है कि कोवरिएट्स हैं।
जनसंपर्क में क्या जानकारी होती है? प्रोफ़ाइल पर सहायता पृष्ठ सामान्य है, और पोलर के लिए कोई मार्गदर्शन नहीं देता है
जैसा कि @chl और अन्य लोगों द्वारा बताया गया है, pr
इसमें CI प्राप्त करने के लिए आवश्यक सभी जानकारी और अन्य संभावना संबंधित जानकारी शामिल है polr fit
। glm
लॉग एस के लिए सभी s iteratively भारित कम से कम वर्ग अनुमान विधि का उपयोग करके फिट हैं। इस अनुकूलन में आपको बहुत सी जानकारी मिलती है (कृपया संदर्भ देखें) जो कि वैरिएनस कोवरियन मैट्रिक्स, सीआई, टी-वैल्यू आदि की गणना के लिए आवश्यक होगी। इसमें सभी शामिल हैं।
प्रत्येक गुणांक के लिए टी मानों की व्याख्या कैसे की जाती है? कुछ मॉडल> फिट के विपरीत, यहां कोई पी मान नहीं हैं।
सामान्य लीनियर मॉडल (विशेष glm
) के विपरीत अन्य glm
एस में प्रतिगमन गुणांक के लिए अच्छा टी-वितरण नहीं है। इसलिए आप सभी प्राप्त कर सकते हैं अधिकतम अनुमान सिद्धांत का उपयोग कर पैरामीटर अनुमान और उनके स्पर्शोन्मुख विचरण सहसंयोजक मैट्रिक्स है। इसलिए:
भिन्न ( β)^) = ( एक्स )टीडब्ल्यूएक्स)- 1φ^
अपनी मानक त्रुटि से विभाजित अनुमान है कि बीडीआर और डब्ल्यूवी कॉल टी-मूल्य (मैं MASS
यहां सम्मेलन मान रहा हूं )। यह सामान्य रैखिक प्रतिगमन से टी-मूल्य के बराबर है लेकिन एक टी-वितरण का पालन नहीं करता है। सीएलटी का उपयोग करना, यह सामान्य रूप से वितरित किया गया है। लेकिन वे इस लगभग (मुझे लगता है) का उपयोग नहीं करना पसंद करते हैं, इसलिए कोई भी पी-मान नहीं है। (मुझे आशा है कि मैं गलत नहीं हूं, और अगर मैं हूं, तो मुझे आशा है कि बीडीआर इस मंच पर नहीं है। मुझे आशा है कि अगर मैं गलत हूं तो कोई मुझे सुधार लेगा।)
methods("profile")
आपको Rprofile
ऑब्जेक्ट से संबंधित विधियाँ (इस मामले में S3) देगा, तब आप देखेंगेpolr
कि परिणामों के लिए एक समर्पित तरीका है , जिसे आप ब्राउज़ कर सकते हैंgetAnywhere("profile.polr")
R प्रॉम्प्ट पर टाइप करके ऑन-लाइन ।