ऑर्डिनरी लिस्ट स्क्वायर क्यों पोइसन रिग्रेशन से बेहतर प्रदर्शन कर रहा है?


18

मैं एक शहर के प्रत्येक जिले में समलैंगिकों की संख्या को समझाने के लिए एक प्रतिगमन फिट करने की कोशिश कर रहा हूं। हालांकि मुझे पता है कि मेरा डेटा एक पॉइसन वितरण के बाद है, मैंने इस तरह एक ओएलएस फिट करने की कोशिश की:

log(y+1)=α+βX+ϵ

फिर, मैंने भी (निश्चित रूप से!) एक पॉइसन प्रतिगमन की कोशिश की। समस्या यह है कि मेरे पास ओएलएस प्रतिगमन में बेहतर परिणाम हैं: छद्म- R2 अधिक है (0.71 बनाम 0.57) और आरएमएसई भी (3.8 बनाम 8.88। एक ही इकाई के लिए मानकीकृत)।

क्यों? क्या यह सामान्य है? ओएलएस का उपयोग करने में कोई गड़बड़ी नहीं है चाहे डेटा का वितरण क्या हो?

संपादित करें kjetil b halvorsen और अन्य के सुझावों के बाद, मैंने दो मॉडल के माध्यम से डेटा फिट किया: OLS और नकारात्मक द्विपद GLM (NB)। मैंने उन सभी विशेषताओं के साथ शुरुआत की जो मेरे पास हैं, फिर मैंने एक-एक करके उन विशेषताओं को हटा दिया, जो महत्वपूर्ण नहीं थीं। OLS है

crimearea=α+βX+ϵ

भार के साथ = area

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

एनबी जिले के क्षेत्र को ऑफसेट के रूप में अपराध की संख्या की भविष्यवाणी करता है।

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

पुराने अवशेष:

enter image description here

एनबी अवशिष्ट

enter image description here

तो आरएमएसई ओएलएस में कम है लेकिन ऐसा लगता है कि अवशेष सामान्य नहीं हैं ...।


क्या आप कुछ और विवरण पोस्ट कर सकते हैं? डेटा की प्रकृति क्या है? वह है, प्रतिक्रिया चर गिनती क्या है? व्याख्यात्मक चर क्या है?
kjetil b halvorsen

@kjetilbhalvorsen आश्रित चर प्रति जिले (११२ जिलों) के गृहिणियों की संख्या है।
इनडिपेंडेंट

2
अगर मैं इस मॉडल को एक पोइसन रिग्रेशन का उपयोग करते हुए फिट कर रहा था तो मैं लॉग (जिलों को) में शामिल करूंगा, ताकि सभी जिलों में एम आकार का न हो। जब तक वे नहीं हैं।
mdewey

1
सोच के पीछे अपने तर्क क्या है कि OLS की तुलना के साथ पी एस यू डी - आर 2 एक एमएल आकलन (और से आर एम एस ), तो आप कितना अच्छा एक निश्चित मॉडल है के लिए एक संकेत देता है? ओएलएस, निर्माण द्वारा, आर 2 को अधिकतम करता है । क्या ज़हर प्रतिगमन का निर्माण किया गया है ताकि p s e u d o - R 2 को अधिकतम किया जा सकेR2pseudoR2RMSER2pseudoR2 ? मुझे ऐसा नहीं लगता, और मुझे नहीं लगता कि यह तुलना उपयोगी है।
14 फरवरी को कॉफिनजेंकी

1
R2z=log(y+1)R2y

जवाबों:


16

मुझे संदेह है कि समस्या का हिस्सा प्रदर्शन मीट्रिक के आपकी पसंद में झूठ हो सकता है। यदि आप आरएमएसई का उपयोग करके परीक्षण के प्रदर्शन को मापते हैं तो एमएसई को कम करने के लिए मॉडल का प्रशिक्षण परीक्षण की कसौटी से मेल खाता है, जो महत्वपूर्ण माना जाता है। आप पा सकते हैं कि यदि आप एक पॉइसन संभावना का उपयोग करके परीक्षण सेट के नकारात्मक लॉग-लाइक का उपयोग करके परीक्षण प्रदर्शन को मापते हैं तो पॉसन मॉडल बेहतर काम करता है (जैसा कि उम्मीद की जा सकती है)। यह उठाए गए अन्य मुद्दों की तुलना में एक मामूली मुद्दा हो सकता है, लेकिन यह एक उपयोगी पवित्रता जांच हो सकता है।


1
+1। यदि ओपी का उद्देश्य पूर्वनिर्धारित था, तो वास्तव में इसके बजाय ओएलएस मॉडल का उपयोग करने के लिए तर्क हो सकता है! फिर भी, OLS से उत्पन्न होने वाली शास्त्रीय त्रुटि-आधारित निष्कर्ष GLMs में लागू नहीं किए जा सकते / नहीं किए जाने चाहिए। एक छात्र के अवशेषों का निरीक्षण कर सकता है, या एक बेहतर विकल्प एआईसी के साथ मॉडल की तुलना करेगा।
एडम जूल 19'16

11

सबसे पहले, इस तरह के डेटा के साथ मैं ओवरडिप्रसेशन की उम्मीद करूँगा (यदि आपको नहीं पता कि वह क्या है, तो /stats//search?q=what+is+overdispersion%3F देखें )।

log(DistrictSize)Nr. homicidesDistrict Size

एक अन्य समस्या यह है कि आपके द्वारा रेखीय प्रतिगमन के साथ उपयोग किया जाने वाला परिवर्तन। गणना डेटा के साथ उपयोग किए जाने वाले सामान्य विचरण स्थिरीकरण परिवर्तन वर्गमूल है, लघुगणक नहीं।

Yi/xiYiPoisson(λxi)

EYixiλVYixixi1
xiYi/xilog(Yi/xi+1)
    EDIT

पोस्ट में आपके अतिरिक्त विश्लेषण के लिए, ध्यान दें कि rmse की तुलना सीधे दो मॉडलों के बीच नहीं की जा सकती, क्योंकि विभिन्न प्रतिक्रियाओं का उपयोग किया जाता है! प्रत्यक्ष तुलना करने के लिए, आपको पूर्वानुमानित मूल्यों को मूल पैमाने पर वापस करने की आवश्यकता होगी। फिर आप अपने आप को rmse की गणना कर सकते हैं, और देख सकते हैं। लेकिन ध्यान दें कि backtransformation के बाद प्राप्त की गई भविष्यवाणियां पक्षपाती हो सकती हैं, क्योंकि गैरकानूनीताएं। इसलिए बैकट्रांसफॉर्म की गई भविष्यवाणियों के लिए कुछ समायोजन उन्हें अधिक उपयोगी बना सकते हैं। कुछ मामलों में, इस तरह के सैद्धांतिक रूप से गणना की जा सकती है, ओटी आप सिर्फ एक बूटस्ट्रैप का उपयोग कर सकते हैं।


जैसा कि आपने सुझाव दिया था, मैंने मॉडल फिट किए, हालांकि मैं वास्तव में भारित ओएलएस के पीछे के गूंज को नहीं समझ पाया। तुम क्या सोचते हो?
मार्कोडेना


2

यह सच है कि आपका डेटा सामान्य रूप से वितरित नहीं किया गया है (जो मुझे लगता है यही कारण है कि आपने एक पॉइसन रिग्रेशन भी चलाया है) लेकिन आपके डेटा की संभावना पॉइज़न वितरण भी नहीं है। पोइसन वितरण मानता है कि माध्य और विचरण समान हैं, जो कि संभवतया ऐसा नहीं है (जैसा कि अन्य उत्तरों में उल्लेख किया गया है - आप इस विसंगति को पकड़ सकते हैं और इसे मॉडल में शामिल कर सकते हैं)। चूंकि आपका डेटा वास्तव में किसी भी मॉडल के लिए बिल्कुल उपयुक्त नहीं है, इसलिए यह समझ में आता है कि OLS बेहतर प्रदर्शन कर सकता है।

एक और ध्यान देने वाली बात यह है कि सामान्य से कम वर्ग के अनुमान गैर-सामान्यता से अधिक मजबूत होते हैं, यही वजह है कि आपको एक उचित मॉडल मिल रहा है। गॉस-मार्कोव प्रमेय हमें बताता है कि ओएलएस गुणांक अनुमान निम्नलिखित अनुमानों के तहत सबसे अच्छा (मतलब चुकता त्रुटि के मामले में) रैखिक निष्पक्ष अनुमानक (BLUE) हैं,

  • त्रुटियों का मतलब शून्य है
  • प्रेक्षण असम्बद्ध हैं
  • त्रुटियों में निरंतर परिवर्तन होता है

यहाँ पर Normality की कोई धारणा नहीं है, इसलिए आपका डेटा इस मॉडल के लिए बहुत अच्छा हो सकता है! इसके साथ ही कहा जा रहा है, मैं एक पिसन मॉडल पर ध्यान केंद्रित करूंगा जिसमें एक फैलाव पैरामीटर होगा, जो वहां बेक किया जाएगा और आपको बेहतर परिणाम प्राप्त करने चाहिए।


@TynnaDoStat धन्यवाद! मैंने अब दो मॉडल फिट किए हैं, एक फैलाव पैरामीटर के साथ। तुम क्या सोचते हो?
मार्कोडेना

2
वरियान = एक पोइसन वितरण के लिए अक्सर पॉइसन प्रतिगमन के लिए एक समस्याग्रस्त धारणा के रूप में लिया जाता है, लेकिन यह बिंदु उतना मुश्किल नहीं है जितना कि यहां निहित है। अपने नाम के बावजूद पॉइसन प्रतिगमन का मुख्य विचार एक लॉग लिंक फ़ंक्शन का है; सशर्त वितरण के बारे में धारणाएं इतनी महत्वपूर्ण नहीं हैं। क्या होगा अगर धारणाएं सभी पकड़ में नहीं हैं मुख्य रूप से यह है कि मानक त्रुटियां बंद हो जाती हैं जब तक कि आप समायोजित नहीं करते हैं, लेकिन फिट अक्सर समझ में आएगा।
निक कॉक्स

2
वास्तव में पॉइसन प्रतिगमन गैर-नकारात्मक मापा प्रतिक्रियाओं के लिए समझ में आ सकता है जहां विचरण और माध्य के समान आयाम नहीं हैं। उदाहरण देखें blog.stata.com/2011/08/22/…
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.