EDIT: इस पोस्ट को बनाने के बाद से, मैंने यहाँ एक अतिरिक्त पोस्ट के साथ काम किया है ।
नीचे दिए गए पाठ का सारांश: मैं एक मॉडल पर काम कर रहा हूं और रैखिक प्रतिगमन, बॉक्स कॉक्स परिवर्तन और GAM की कोशिश की है, लेकिन बहुत प्रगति नहीं की है
का उपयोग करते हुए R
, मैं वर्तमान में प्रमुख लीग (एमएलबी) स्तर पर मामूली लीग बेसबॉल खिलाड़ियों की सफलता की भविष्यवाणी करने के लिए एक मॉडल पर काम कर रहा हूं। प्रतिस्थापन (ओडब्ल्यूएआर) से ऊपर निर्भर चर, आक्रामक कैरियर जीतता है, एमएलबी स्तर पर सफलता के लिए एक प्रॉक्सी है और इसे हर उस खिलाड़ी के लिए आक्रामक योगदान के योग के रूप में मापा जाता है जो खिलाड़ी अपने करियर के दौरान शामिल होता है (विवरण यहां - http : //www.fangraphs.com/library/misc/war/)। स्वतंत्र चर उन आंकड़ों के लिए जेड-स्कोर किए गए मामूली लीग ऑफेंसिव वैरिएबल हैं, जो प्रमुख लीग स्तर पर सफलता के महत्वपूर्ण पूर्वानुमानकर्ता माने जाते हैं, जिसमें उम्र भी शामिल है (कम उम्र में अधिक सफलता वाले खिलाड़ी बेहतर संभावनाएं रखते हैं), स्ट्राइक आउट रेट [सटीक] ], वॉक रेट [BBrate] और समायोजित उत्पादन (आक्रामक उत्पादन का एक वैश्विक उपाय)। इसके अतिरिक्त, चूंकि मामूली लीग के कई स्तर हैं, इसलिए मैंने खेलने के मामूली लीग स्तर (डबल ए, हाई ए, लो ए, रूकी और ट्रिपल सी के साथ लघु सीज़न के लिए डमी वैरिएबल को शामिल किया है [प्रमुख लीग से पहले का उच्चतम स्तर] संदर्भ चर के रूप में])। नोट: मेरे पास WAR को एक वैरिएबल के लिए फिर से स्केल किया गया है जो 0 से 1 तक जाता है।
चर प्रकीर्णन इस प्रकार है:
संदर्भ के लिए, आश्रित चर, oWAR, में निम्नलिखित कथानक हैं:
मैंने एक रेखीय प्रतिगमन के साथ शुरुआत की oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
और निम्नलिखित निदान भूखंड प्राप्त किए:
अवशिष्टों की निष्पक्षता की कमी और यादृच्छिक भिन्नता की कमी के साथ स्पष्ट समस्याएं हैं। इसके अतिरिक्त, अवशिष्ट सामान्य नहीं हैं। प्रतिगमन के परिणाम नीचे दिखाए गए हैं:
पिछले धागे में सलाह के बाद , मैंने बिना किसी सफलता के साथ बॉक्स-कॉक्स परिवर्तन की कोशिश की। इसके बाद, मैंने एक लॉग लिंक के साथ एक GAM की कोशिश की और इन भूखंडों को प्राप्त किया:
मूल
न्यू डायग्नोस्टिक प्लॉट
ऐसा लगता है कि छींटे डेटा को फिट करने में मदद करते हैं लेकिन नैदानिक भूखंड अभी भी एक खराब फिट दिखाते हैं। संपादित करें: मैंने सोचा था कि मैं मूल रूप से फिट किए गए मूल्यों बनाम अवशेषों को देख रहा था लेकिन मैं गलत था। मूल रूप से दिखाए गए प्लॉट को मूल (ऊपर) के रूप में चिह्नित किया गया है और मैंने बाद में जिस प्लॉट को अपलोड किया है उसे न्यू डायग्नोस्टिक प्लॉट (ऊपर भी) के रूप में चिह्नित किया गया है।
मॉडल की वृद्धि हुई है
लेकिन आदेश द्वारा उत्पादित परिणाम gam.check(myregression, k.rep = 1000)
होनहार नहीं हैं।
क्या कोई इस मॉडल के लिए अगला कदम सुझा सकता है? मुझे लगता है कि आपके द्वारा अब तक की गई प्रगति को समझने के लिए उपयोगी कोई अन्य जानकारी प्रदान करने में खुशी हो सकती है। आप जो भी मदद दे सकें मैं उसका आभारी होऊंगा।