प्रतिगमन चौरसाई चिंगारी में कश्मीर समुद्री मील का चयन कश्मीर श्रेणियों के बराबर है?


9

मैं एक प्रेडिक्टिव कॉस्ट मॉडल पर काम कर रहा हूं जहां मरीज की उम्र (वर्षों में मापी गई एक पूर्णांक मात्रा) भविष्यवक्ता चरों में से एक है। अस्पताल में रहने के जोखिम और उम्र के बीच एक मजबूत संबंध न होना स्पष्ट है:

यहाँ छवि विवरण दर्ज करें

मैं रोगी उम्र के लिए दंडित प्रतिगमन चौरसाई पर विचार कर रहा हूं। के अनुसार सांख्यिकीय लर्निंग के तत्वों (Hastie एट अल, 2009, p.151), इष्टतम गाँठ नियुक्ति सदस्य उम्र के अनूठा मूल्य प्रति एक गाँठ है।

यह देखते हुए कि मैं एक पूर्णांक के रूप में उम्र को बरकरार रख रहा हूं, दण्डित चौरसाई चौरस एक रिज रिग्रेशन या लसो को 101 अलग-अलग आयु सूचक चर के साथ चलाने के बराबर है, जो कि डेटासेट में पाया गया प्रति आयु मान (संदर्भ के लिए शून्य से एक) है? इसके बाद पैरामीरीज़ेशन से बचा जाता है क्योंकि प्रत्येक आयु सूचक पर गुणांक शून्य की ओर सिकुड़ जाता है।


आयु-संकेतक + सिकुड़न का आपका प्रस्ताव अनिवार्य रूप से आदेश 0. की चौरसाई के समान है।
Glen_b -Reinstate Monica

यह उपयोगी होगा यदि आप निर्दिष्ट करते हैं कि अन्य अनुमानित चर क्या हैं, जैसा कि सुझाए गए उत्तर में से एक है, यदि आप प्रवेश के कारण को नियंत्रित करते हैं तो आपके पास बहुत अलग ग्राफ हो सकता है।
seanv507

जवाबों:


11

बड़ा सवाल है। मेरा मानना ​​है कि आपके द्वारा पूछे गए प्रश्न का उत्तर - "द रिग्मेंट स्मूथिंग स्पलाइन एक रिज रिग्रेशन या लासो चलाने के बराबर है" - हाँ है। वहाँ कई स्रोत हैं जो टिप्पणी और परिप्रेक्ष्य प्रदान कर सकते हैं। एक जगह जिसे आप शुरू करना चाहते हैं वह है पीडीएफ लिंक । जैसा कि नोटों में लिखा है:

"प्राकृतिक छींटों के लिए एक आधार में रिज प्रतिगमन के एक प्रकार का प्रदर्शन करने के लिए एक चौरसाई तख़्ता मॉडल मात्रा में फिटिंग।"

यदि आप कुछ सामान्य पढ़ने की तलाश कर रहे हैं, तो आप दंडित प्रतिगमन पर इस उत्कृष्ट पेपर की जाँच करने का आनंद ले सकते हैं : द ब्रिज वर्सेस द लास्सो । यह इस सवाल का जवाब देने में मदद कर सकता है कि दंडित चौरसाई तख़्ता बिल्कुल बराबर है - हालांकि यह अधिक सामान्य दृष्टिकोण प्रदान करता है। मुझे यह दिलचस्प लगता है क्योंकि उन्होंने एक-दूसरे से अलग-अलग तकनीकों की तुलना की, विशेष रूप से LASSO के साथ एक नए पुल प्रतिगमन मॉडल के साथ-साथ रिज प्रतिगमन।

जांच करने के लिए एक और अधिक सामरिक स्थान आर। में smooth.spline पैकेज के लिए पैकेज नोट्स हो सकते हैं । ध्यान दें कि वे यहां संबंधों पर संकेत देते हैं, यह देखते हुए कि: "इन परिभाषाओं के साथ, जहां बी-स्पलाइन आधार प्रतिनिधित्व को एफ कहा जा सकता है। = एक्स सी (यानी, सी, स्पाइन गुणांक का वेक्टर है), दंडित लॉग संभावना हैL=(yf)TW(yf)+λcTΣc, और इसलिए c (रिज प्रतिगमन) का समाधान है (XTWX+λΣ)c=XTWy। "


कोई चिंता नहीं @RobertF। आपका दोपहर अच्छा बीते।
नथानिएल पायने

1
पैरा 1 में लिंक पीडीएफ का लिंक टूटा हुआ है।
जोथ्रप

3

मुझे यकीन नहीं है कि आप वास्तव में बहुत सारे समुद्री मील चाहते हैं, साजिश को देखते हुए।

ऐसा लगता है कि आपके पास विशेष उम्र में कुछ छोटे नमूने हो सकते हैं; 74 पर शिखर और 0 और निम्न और उच्च अंत में 0 मानों का कोई मतलब नहीं है।

स्रोत साइट के अधिकार को देखते हुए, शायद आप बहुत कम संख्या में समुद्री मील के बजाय प्रतिबंधित क्यूबिक स्प्लीन चाहते हैं?


1
धन्यवाद पीटर - हाँ # अवलोकन बहुत युवा और पुराने के लिए विरल हैं। इतने सारे गांठों का उपयोग करना उल्टा लगता है, मैंने ESL में पहली बार पढ़ने पर एक मानसिक दोहराव लिया कि हर अवलोकन पर गाँठ रखने से वर्गों के दंडात्मक अवशिष्ट योग कम से कम हो जाते हैं। मुझे लगता है कि सबूत पुडिंग में है कि क्या एक प्रतिबंधित क्यूबिक स्लाइन या दंडित स्मूथिंग स्पलाइन टेस्ट डेटासेट में मेरे प्रतिक्रिया चर की भविष्यवाणी करने में बेहतर काम करता है।
रॉबर्ट 55

0

मुझे इस चर्चा में देर हो रही है, लेकिन डेटा के चार्ट को देखें ... 70 वर्ष से अधिक आयु के डेटा में स्पष्ट रूप से स्पष्टता उम्र-संबंधित जोखिम का सही प्रतिबिंब नहीं है, यह विरल डेटा का लक्षण और कुछ यादृच्छिकता है।

आप प्रति वर्ष एक-नॉट-प्रति-वर्ष का उपयोग करना चाहते हैं, जो निश्चित रूप से शोर को कम करने के लिए नेतृत्व करेंगे।

इसके अलावा, यदि आप महिला बनाम पुरुष को देखें तो एक बहुत ही अलग पैटर्न खोजने जा रहे हैं। 15-30 की उम्र के अधिकांश शिखर ऑब्स्टेट्रिक्स होने वाले हैं।


डौग - ठीक है, वहाँ निश्चित रूप से 70 वर्ष से अधिक उम्र के कम अवलोकन हैं। प्रति वर्ष एक दंडित प्रति पंक्ति मॉडल प्रति 70+ गुणांक को शून्य तक गिरा देगा। यहाँ लक्ष्य एक स्वचालित प्रक्रिया के साथ गाँठ की नियुक्ति के मैनुअल चयन को बदलना होगा जो उम्र और आईपी के बीच के गैर-संबंध को सबसे अच्छी तरह से फिट करता है, विशेष रूप से एक पूर्वानुमान मॉडल में उपयोगी है।
रॉबर्टएफ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.