मैं आर में LOESS प्रतिगमन मॉडल चला रहा हूं, और मैं अलग-अलग नमूना आकारों के साथ 12 विभिन्न मॉडलों के आउटपुट की तुलना करना चाहता हूं। मैं वास्तविक विवरणों को अधिक विवरणों में वर्णित कर सकता हूं यदि यह प्रश्न का उत्तर देने में मदद करता है।
यहाँ नमूना आकार हैं:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
LOESS रिग्रेशन मॉडल एक सतह फिट है, जहां प्रत्येक बेसबॉल पिच के X स्थान और Y स्थान का उपयोग स्वाइप करने के लिए किया जाता है, स्ट्राइक स्ट्राइब की संभावना। हालाँकि, मैं इन सभी 12 मॉडलों के बीच तुलना करना चाहूंगा, लेकिन एक ही स्पैन (यानी स्पैन = 0.5) सेट करने से अलग-अलग परिणाम मिलेंगे, क्योंकि इस तरह के नमूने की एक विस्तृत श्रृंखला है।
मेरा मूल प्रश्न यह है कि आप अपने मॉडल की अवधि कैसे निर्धारित करते हैं? एक उच्च स्पैन फिट को अधिक चिकना करता है, जबकि एक कम स्पैन अधिक रुझानों को पकड़ता है लेकिन बहुत कम डेटा होने पर सांख्यिकीय शोर का परिचय देता है। मैं छोटे नमूना आकार के लिए उच्च अवधि और बड़े नमूना आकार के लिए कम अवधि का उपयोग करता हूं।
मुझे क्या करना चाहिए? R में LOESS रिग्रेशन मॉडल के लिए स्पैन सेट करते समय अंगूठे का एक अच्छा नियम क्या है? अग्रिम में धन्यवाद!