(रेखीय प्रतिगमन) पूर्वानुमान के लिए समायोजन

पूर्ण प्रकटीकरण: मैं एक सांख्यिकीविद् नहीं हूं, और न ही मैं एक होने का दावा करता हूं। मैं एक नीच आईटी प्रशासक हूं। कृपया मेरे साथ सौम्य खेलें। :)

मैं हमारे उद्यम के लिए डिस्क भंडारण उपयोग को इकट्ठा करने और पूर्वानुमान के लिए जिम्मेदार हूं। हम अपने संग्रहण उपयोग को मासिक रूप से एकत्र करते हैं और पूर्वानुमान के लिए एक साधारण रोलिंग बारह महीने के रैखिक प्रतिगमन का उपयोग करते हैं (दूसरे शब्दों में, प्रक्षेपण बनाते समय केवल पिछले बारह महीनों के डेटा पर विचार किया जाता है)। हम आवंटन और पूंजीगत व्यय नियोजन के लिए इस जानकारी का उपयोग करते हैं, उदाहरण के लिए "इस मॉडल के आधार पर, यदि हमारी आवश्यकताओं को पूरा करने के लिए y महीनों में भंडारण किया जाए तो हमें x राशि खरीदनी होगी।" यह सब हमारी आवश्यकताओं के अनुरूप पर्याप्त काम करता है।

समय-समय पर, हमारे पास हमारी संख्या में बड़े एक-समय के आंदोलन होते हैं जो पूर्वानुमान को बंद कर देते हैं। उदाहरण के लिए, किसी को 500GB पुराने बैकअप मिलते हैं जिनकी अब आवश्यकता नहीं है और उन्हें हटा देता है। अंतरिक्ष को पुनः प्राप्त करने के लिए उनके लिए अच्छा है! हालांकि हमारे पूर्वानुमान अब एक महीने में इस बड़ी गिरावट से दूर हैं। हमने हमेशा स्वीकार किया है कि इस तरह की एक बूंद को मॉडल से बाहर निकलने के लिए 9-10 महीने लगते हैं, लेकिन अगर हम पूंजीगत व्यय योजना के मौसम में प्रवेश कर रहे हैं तो यह वास्तव में लंबा समय हो सकता है।

मैं सोच रहा था कि क्या इन एक-समय के भिन्नताओं को संभालने का एक तरीका है जैसे कि पूर्वानुमानित मानों पर उतना प्रभाव नहीं पड़ता है (जैसे कि रेखा का ढलान नाटकीय रूप से नहीं बदलता है), लेकिन उन्हें ध्यान में रखा जाता है (जैसे एक समय में एक विशेष बिंदु के साथ जुड़े y- मूल्य में एक बार बदलाव)। इससे निपटने के हमारे पहले प्रयासों में कुछ बदसूरत परिणाम (जैसे घातीय वृद्धि घटता) निकले हैं। हम SQL सर्वर में अपने प्रसंस्करण के सभी अगर यह मायने रखता है।

regression forecasting adjustment

— sbrown
स्रोत

बहुत बढ़िया सवाल। बस एक त्वरित स्पष्टीकरण। क्या आप इन घटनाओं की भविष्यवाणी करना चाहेंगे, या, एक बार ऐसा होने के बाद, अपनी नई जानकारी को दिए गए मॉडल की भविष्यवाणियों को समायोजित करें?

— मैथ्यू ड्र्यू

ठीक है, यह स्पष्ट नहीं है कि आप 500GB उदाहरण जैसी इन दुर्लभ घटनाओं को "सुचारू" करने की कोशिश कर रहे हैं ताकि वे आपके परिणामों को उतना प्रभावित न करें या यदि आप कुतिया समायोजन को स्टोर करने के लिए जब आप कब्जा करना चाहते हैं तो आप उन्हें अधिक खाते में लाने की कोशिश कर रहे हैं। बना रहे हैं? अंतर सूक्ष्म है: पहले में, आप नए बिंदु (दुर्लभ घटना) को लगभग अनदेखा करना चाहते हैं, लेकिन int दूसरा, आप बिंदु (दुर्लभ घटना) पर जोर देना चाहते हैं। यदि यह पूर्व है, तो मजबूत प्रतिगमन शायद आपके लिए एक सरल विधि है क्योंकि आप पहले से ही रैखिक प्रतिगमन का उपयोग कर रहे हैं। यहां देखें: ats.ucla.edu/stat/r/dae/rreg.htm

— StatsStudent

इसके अलावा, क्या आप अपनी भविष्यवाणियों को बनाने के लिए किसी सॉफ़्टवेयर का उपयोग करते हैं और क्या आप विश्वास अंतराल का उपयोग करते हैं?

— स्टैट्स स्टूडेंट

मैं तथ्य के बाद एक समायोजन जोड़ सकता हूं। वास्तव में, अधिकांश समय मैं एक प्रमुख विचलन के बारे में नहीं जानूंगा जब तक कि मैं अगले महीने की संख्याओं को नहीं देखता हूं और एक बड़ा परिवर्तन देखता हूं। मैं भविष्यवाणियों को बनाने के लिए किसी भी सॉफ्टवेयर का उपयोग नहीं कर रहा हूं; मेरे प्रतिगमन मूल्यों की गणना करने के लिए SQL सर्वर में सिर्फ एक संग्रहीत कार्यविधि।

— sbrown

त्वरित प्रतिक्रियाएं: (ए) लॉग डिस्क के उपयोग में बदलाव के लिए मैं शायद सबसे बुनियादी एआर (1) फिट करूंगा? आप मूल रूप से डिस्क उपयोग में कुछ दीर्घकालिक विकास दर का अनुमान लगा रहे होंगे, और डिस्क उपयोग में विकास दर कितनी जल्दी एक झटके के बाद उस प्रवृत्ति में वापस आ जाएगी। (आ) आप अन्य डेटा का भी उपयोग कर सकते हैं और एक VAR (वेक्टर ऑटोरेर्गन) फिट कर सकते हैं। (बी) सभी डेटा बाहर फेंकने> १२ महीने बनाने के लिए इष्टतम चीज नहीं हो सकता है। (c) नियमित OLS वर्गों का योग कम करता है। आप एक अलग दंड समारोह (जैसे। ह्यूबर) का उपयोग कर सकते हैं जो आउटलेर्स के लिए अधिक मजबूत है।

— मैथ्यू गन

यहाँ एक सरल सुझाव है। मुझे नहीं पता कि यह आपके लिए काम करता है या शायद मुझे इसे एक टिप्पणी के रूप में बनाना चाहिए था, लेकिन ऐसा लगता है कि आपको एक टिप्पणी करने की तुलना में टिप्पणी करने के लिए अधिक विशेषाधिकारों की आवश्यकता है।

अगर मैं सही तरीके से समझूं, तो जो आंकड़े आप इस्तेमाल कर रहे हैं, वे स्टोरेज की मात्रा है जो आप हर महीने इस्तेमाल कर रहे हैं। संभवतः ये सामान्य रूप से बढ़ते हैं, और आप भविष्यवाणी करना चाहते हैं कि भविष्य में कुछ समय के लिए राशि क्या रहेगी अगर रुझान जारी रहता है। एक बार जब आपको पता चलता है कि आपका बड़ा परिवर्तन हो गया है (जैसे कि 500 जीबी जारी किया गया है) तो क्या आप पिछले महीनों के आंकड़ों को बदल सकते हैं (उदाहरण के लिए उन सभी में से 500 जीबी हटा सकते हैं)? मूल रूप से आप जो कर रहे हैं वह पिछले महीनों के आंकड़ों को समायोजित करने के लिए है कि उन्हें क्या होना चाहिए था, यदि आप जानते थे तो अब आप क्या जानते हैं।

जब तक आप यह सुनिश्चित नहीं करते कि आप पुराने आंकड़ों पर वापस जा सकते हैं, तब तक मैं इसकी अनुशंसा नहीं करता। लेकिन आप जो पूर्वानुमान लगाना चाहते हैं वह लगता है जैसे एक्सेल में भी किया जा सकता है, उस स्थिति में आपके पास जितने चाहें उतने संस्करण हो सकते हैं।

— MikeG
स्रोत