यह एक विस्तृत विषय है, और आप कई कारणों का सामना करेंगे कि डेटा क्यों होना चाहिए, या पहले से ही बकेटाइज्ड है। उनमें से सभी भविष्यवाणी की सटीकता से संबंधित नहीं हैं।
सबसे पहले, यहां एक उदाहरण है जहां एक मॉडल बकेटेट करना चाह सकता है। मान लीजिए मैं एक क्रेडिट स्कोरिंग मॉडल का निर्माण कर रहा हूं: मैं एक ऋण पर डिफ़ॉल्ट रूप से लोगों की प्रवृत्ति जानना चाहता हूं। मेरे डेटा में, मेरे पास क्रेडिट रिपोर्ट की स्थिति को इंगित करने वाला एक कॉलम है। यही है, मैंने एक रेटिंग एजेंसी से रिपोर्ट का आदेश दिया, और एजेंसी ने कहा, उनका मालिकाना स्कोर, साथ ही एक स्पष्ट चर इस स्कोर की विश्वसनीयता का संकेत देता है। यह संकेतक मेरे उद्देश्यों की तुलना में बहुत अधिक जुर्माना हो सकता है। उदाहरण के लिए, "विश्वसनीय स्कोर के लिए कोई पर्याप्त जानकारी नहीं" को कई वर्गों में विभाजित किया जा सकता है जैसे "20 वर्ष से कम आयु", "हाल ही में देश में स्थानांतरित", "कोई पूर्व क्रेडिट इतिहास नहीं", आदि इनमें से कई वर्ग। शायद ही कभी आबादी हो, और इसलिए प्रतिगमन या अन्य मॉडल में बेकार हो। इससे निपटने के लिए, मैं एक "प्रतिनिधि" वर्ग में सांख्यिकीय शक्ति को मजबूत करने के लिए एक साथ कक्षाओं की तरह पूल करना चाह सकता हूं। उदाहरण के लिए, मेरे लिए केवल एक द्विआधारी संकेतक "अच्छी जानकारी लौटाया" बनाम "कोई जानकारी नहीं लौटा" का उपयोग करना उचित हो सकता है। मेरे अनुभव में, बाल्टीकरण के कई अनुप्रयोग इस सामान्य में आते हैंबहुत कम आबादी वाली श्रेणियों के प्रकार का पतन ।
कुछ एल्गोरिदम बकेटिज़ेशन का आंतरिक रूप से उपयोग करते हैं। उदाहरण के लिए, पेड़ों को बढ़ाने वाले एल्गोरिदम के अंदर फिट होने वाले पेड़ अक्सर एक संक्षेप चरण में अपना अधिकांश समय बिताते हैं, जहां प्रत्येक नोड में निरंतर डेटा विवेकाधीन होता है और प्रत्येक बाल्टी में प्रतिक्रिया के औसत मूल्य की गणना की जाती है। यह एक उपयुक्त विभाजन को खोजने की कम्प्यूटेशनल जटिलता को काफी कम कर देता है, बगैर सटीकता के बहुत अधिक त्याग के कारण।
आप बस पूर्व-बकेटिज्ड डेटा भी प्राप्त कर सकते हैं । असतत डेटा को संपीड़ित और स्टोर करना आसान है - फ्लोटिंग पॉइंट नंबरों की एक लंबी सरणी अचूक है, लेकिन जब "उच्च", "मध्यम" और "कम" में विवेक किया जाता है, तो आप अपने डेटाबेस में बहुत सारे स्थान बचा सकते हैं। आपका डेटा गैर-मॉडलिंग एप्लिकेशन पर लक्षित स्रोत से भी हो सकता है। यह तब होता है जब मैं उन संगठनों से डेटा प्राप्त करता हूं जो कम विश्लेषणात्मक काम करते हैं। उनका डेटा अक्सर रिपोर्टिंग के लिए उपयोग किया जाता है, और आम लोगों को रिपोर्ट की व्याख्या के साथ मदद करने के लिए एक उच्च स्तर पर संक्षेपित किया जाता है। यह डेटा अभी भी उपयोगी हो सकता है, लेकिन अक्सर कुछ शक्ति खो जाती है।
क्या मैं कम मूल्य देखता हूं, हालांकि इसके संभव होने पर मुझे सही किया जा सकता है, मॉडलिंग उद्देश्यों के लिए निरंतर माप का पूर्व-बकेटाइजेशन है। निरंतर भविष्यवक्ताओं के लिए गैर-रेखीय प्रभावों को फिट करने के लिए बहुत शक्तिशाली तरीके हैं, और हिरनीकरण इनका उपयोग करने की आपकी क्षमता को हटा देता है। मैं इसे एक बुरे अभ्यास के रूप में देखता हूं।