मैं एक शहर के प्रत्येक जिले में समलैंगिकों की संख्या को समझाने के लिए एक प्रतिगमन फिट करने की कोशिश कर रहा हूं। हालांकि मुझे पता है कि मेरा डेटा एक पॉइसन वितरण के बाद है, मैंने इस तरह एक ओएलएस फिट करने की कोशिश की:
फिर, मैंने भी (निश्चित रूप से!) एक पॉइसन प्रतिगमन की कोशिश की। समस्या यह है कि मेरे पास ओएलएस प्रतिगमन में बेहतर परिणाम हैं: छद्म- अधिक है (0.71 बनाम 0.57) और आरएमएसई भी (3.8 बनाम 8.88। एक ही इकाई के लिए मानकीकृत)।
क्यों? क्या यह सामान्य है? ओएलएस का उपयोग करने में कोई गड़बड़ी नहीं है चाहे डेटा का वितरण क्या हो?
संपादित करें kjetil b halvorsen और अन्य के सुझावों के बाद, मैंने दो मॉडल के माध्यम से डेटा फिट किया: OLS और नकारात्मक द्विपद GLM (NB)। मैंने उन सभी विशेषताओं के साथ शुरुआत की जो मेरे पास हैं, फिर मैंने एक-एक करके उन विशेषताओं को हटा दिया, जो महत्वपूर्ण नहीं थीं। OLS है
भार के साथ = ।
summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))
error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area
rmse(error2)
[1] 80.64783
एनबी जिले के क्षेत्र को ऑफसेट के रूप में अपराध की संख्या की भविष्यवाणी करता है।
summary(m3 <- glm.nb(num ~ LUM5_single + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places + employed + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))
error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")
rmse(error)
[1] 121.8714
पुराने अवशेष:
एनबी अवशिष्ट
तो आरएमएसई ओएलएस में कम है लेकिन ऐसा लगता है कि अवशेष सामान्य नहीं हैं ...।