आपके विशेष मामले में कुछ विशेष नहीं मानते हुए, मुझे लगता है कि डिफ़ॉल्ट (मीन स्क्वायर त्रुटि) का उपयोग करने के लिए या तर्क की त्रुटि का उपयोग करने के लिए एक अच्छा तर्क है, या यहां तक कि ची-चुकता त्रुटि भी है।
लागत समारोह का उद्देश्य यह व्यक्त करना है कि आप "भविष्यवाणियां" कैसे गलत पूर्वानुमानों के साथ हैं, विशेष रूप से "गलतता" आपको सबसे अधिक परेशान करती है। यह बाइनरी प्रतिक्रियाओं के लिए विशेष रूप से महत्वपूर्ण है, लेकिन किसी भी स्थिति में मायने रख सकता है।
मीन स्क्वायर त्रुटि (प्रतिक्रियाओं में)
सी=1nΣमैं(यमैं-वाई^मैं)2
MSE का उपयोग करना आप ऊपर और नीचे की त्रुटियों के लिए समान रूप से संवेदनशील हैं और बड़ी और छोटी भविष्यवाणियों के लिए समान रूप से संवेदनशील हैं। यह करने के लिए एक सुंदर मानक बात है, और इसलिए मुझे नहीं लगता कि ज्यादातर स्थितियों में डूब जाएगा।
मीन स्क्वायर त्रुटि (लॉग प्रतिक्रियाओं का)
सी= 1nΣमैं( ln)Yमैं- एल.एन.Y^मैं)2
क्योंकि आप गणना डेटा के साथ काम कर रहे हैं, यह तर्क दिया जा सकता है कि आप सममित नहीं हैं और न ही आकार उदासीन हैं। 10 की भविष्यवाणी के लिए 10 काउंट से बाहर होना 1000 की भविष्यवाणी से बहुत अलग है। यह कुछ हद तक "विहित" लागत फ़ंक्शन है, क्योंकि आपने लिंक फ़ंक्शन तक की लागतों का मिलान किया है। यह सुनिश्चित करता है कि लागत मॉडल में ग्रहण किए जा रहे विचरण वितरण से मेल खाती है।
ची-चुकता त्रुटि
सी=1nΣमैं( यमैं- वाई^मैं)2Y^मैं
एक तीसरा तरीका ची-चुकता त्रुटि का उपयोग करना होगा। यह विशेष रूप से आकर्षक हो सकता है यदि आप अपने GLM को अन्य गणना आधारित मॉडल से तुलना कर रहे हैं - खासकर अगर आपके GLM में कारक हैं। त्रुटि लॉग प्रतिक्रियाओं के समान, यह आकार के साथ पैमाने पर होगा, लेकिन यह अनुमानित गणना के आसपास सममित है। अब आप प्रतिशत त्रुटि के आधार पर फिट की अच्छाई का मूल्यांकन कर रहे हैं।
वंचना पर
प्रश्न प्रलेखन उदाहरण का हवाला देता है जहां उनके पास एक द्विआधारी प्रतिक्रिया चर है, इसलिए एक अलग लागत फ़ंक्शन का उपयोग करें। एक द्विआधारी प्रतिक्रिया के लिए मुद्दा यह है कि जीएलएम 0 और 1 के बीच एक वास्तविक संख्या का अनुमान लगाएगा, भले ही प्रतिक्रिया हमेशा 0 या 1 हो। यह कहना पूरी तरह से वैध है कि सही संख्या के करीब वह बेहतर प्रतिक्रिया है। पूर्वानुमान, लेकिन अक्सर लोग यह नहीं चाहते हैं। तर्क दिया जा रहा है कि किसी को अक्सर 0 या 1 के रूप में कार्य करना चाहिए, और इसलिए 0. के लिए पूर्वानुमान के रूप में 0.5 से कम कुछ भी ले जाएगा। उस स्थिति में, यह केवल "गलत" पूर्वानुमानों की संख्या की गणना करने के लिए समझ में आता है। यहाँ तर्क यह है कि एक सच्चे / झूठे प्रश्न के लिए आप केवल कभी सही या गलत हो सकते हैं - गलत का कोई वर्गीकरण नहीं है।
आपके मामले में आपके पास गणना डेटा है। यहां भविष्यवाणियों को स्वीकार करना कहीं अधिक आम है जो प्रतिक्रिया के समान समर्थन पर नहीं हैं। उदाहरण के लिए प्रति परिवार 2.4 बच्चों की भविष्यवाणी, या प्रति वर्ष 9.7 मौतें। आमतौर पर कोई भी इस बारे में कुछ भी करने की कोशिश नहीं करेगा क्योंकि यह "सही" या "गलत" होने के बारे में नहीं है, जैसा कि आप प्राप्त कर सकते हैं। यदि आपके पास वास्तव में एक पूर्वानुमान होना चाहिए जो एक पूर्णांक है, तो शायद इसलिए कि आपके पास बहुत कम गणना दर है, तो कोई कारण नहीं है कि आप पहले भविष्यवाणी को गोल नहीं कर सकते हैं और "संपूर्ण संख्या" या त्रुटि की गणना कर सकते हैं। इस स्थिति में, ऊपर दिए गए तीनों भाव अभी भी लागू होते हैं, लेकिन आपको पहले को गोल करना होगा ।Y^
cv.glmnet
पैकेज में फ़ंक्शन पॉसों परिवार के लिएglmnet
उपयोग करताtype.measure="deviance"
है।