पूर्ण प्रकटीकरण: मैं एक सांख्यिकीविद् नहीं हूं, और न ही मैं एक होने का दावा करता हूं। मैं एक नीच आईटी प्रशासक हूं। कृपया मेरे साथ सौम्य खेलें। :)
मैं हमारे उद्यम के लिए डिस्क भंडारण उपयोग को इकट्ठा करने और पूर्वानुमान के लिए जिम्मेदार हूं। हम अपने संग्रहण उपयोग को मासिक रूप से एकत्र करते हैं और पूर्वानुमान के लिए एक साधारण रोलिंग बारह महीने के रैखिक प्रतिगमन का उपयोग करते हैं (दूसरे शब्दों में, प्रक्षेपण बनाते समय केवल पिछले बारह महीनों के डेटा पर विचार किया जाता है)। हम आवंटन और पूंजीगत व्यय नियोजन के लिए इस जानकारी का उपयोग करते हैं, उदाहरण के लिए "इस मॉडल के आधार पर, यदि हमारी आवश्यकताओं को पूरा करने के लिए y महीनों में भंडारण किया जाए तो हमें x राशि खरीदनी होगी।" यह सब हमारी आवश्यकताओं के अनुरूप पर्याप्त काम करता है।
समय-समय पर, हमारे पास हमारी संख्या में बड़े एक-समय के आंदोलन होते हैं जो पूर्वानुमान को बंद कर देते हैं। उदाहरण के लिए, किसी को 500GB पुराने बैकअप मिलते हैं जिनकी अब आवश्यकता नहीं है और उन्हें हटा देता है। अंतरिक्ष को पुनः प्राप्त करने के लिए उनके लिए अच्छा है! हालांकि हमारे पूर्वानुमान अब एक महीने में इस बड़ी गिरावट से दूर हैं। हमने हमेशा स्वीकार किया है कि इस तरह की एक बूंद को मॉडल से बाहर निकलने के लिए 9-10 महीने लगते हैं, लेकिन अगर हम पूंजीगत व्यय योजना के मौसम में प्रवेश कर रहे हैं तो यह वास्तव में लंबा समय हो सकता है।
मैं सोच रहा था कि क्या इन एक-समय के भिन्नताओं को संभालने का एक तरीका है जैसे कि पूर्वानुमानित मानों पर उतना प्रभाव नहीं पड़ता है (जैसे कि रेखा का ढलान नाटकीय रूप से नहीं बदलता है), लेकिन उन्हें ध्यान में रखा जाता है (जैसे एक समय में एक विशेष बिंदु के साथ जुड़े y- मूल्य में एक बार बदलाव)। इससे निपटने के हमारे पहले प्रयासों में कुछ बदसूरत परिणाम (जैसे घातीय वृद्धि घटता) निकले हैं। हम SQL सर्वर में अपने प्रसंस्करण के सभी अगर यह मायने रखता है।