बाल्टीकरण क्या है?


10

मैं मशीन लर्निंग में "बकेटाइजेशन" का स्पष्ट विवरण खोजने के लिए चारों ओर जा रहा हूं। मैं अब तक जो समझ रहा हूं वह यह है कि बकेटिटेज डिजिटल सिग्नल प्रोसेसिंग में क्वांटिज़ेशन के समान है जहां निरंतर मूल्यों की एक श्रृंखला को एक अलग मूल्य के साथ बदल दिया जाता है। क्या ये सही है?

बाल्टी लगाने के लिए पेशेवरों और विपक्ष (जानकारी खोने के स्पष्ट प्रभाव के अलावा) क्या हैं? क्या बाल्टी लगाने के तरीके पर अंगूठे के कोई नियम हैं? मशीन लर्निंग लागू करने से पहले बकेट लगाने के लिए क्या कोई दिशा-निर्देश / एल्गोरिदम हैं?


मेरे पास सही उत्तर नहीं हो सकता है, लेकिन मोटे-वर्गीकरण और ललित-वर्गीकरण [WoE और IV] बाल्टी में मदद करता है। मुझे क्षमा करें यदि यह वह नहीं है जो आपने उम्मीद की थी।
श्रीकांत गुहान

जवाबों:


4

यह एक विस्तृत विषय है, और आप कई कारणों का सामना करेंगे कि डेटा क्यों होना चाहिए, या पहले से ही बकेटाइज्ड है। उनमें से सभी भविष्यवाणी की सटीकता से संबंधित नहीं हैं।

सबसे पहले, यहां एक उदाहरण है जहां एक मॉडल बकेटेट करना चाह सकता है। मान लीजिए मैं एक क्रेडिट स्कोरिंग मॉडल का निर्माण कर रहा हूं: मैं एक ऋण पर डिफ़ॉल्ट रूप से लोगों की प्रवृत्ति जानना चाहता हूं। मेरे डेटा में, मेरे पास क्रेडिट रिपोर्ट की स्थिति को इंगित करने वाला एक कॉलम है। यही है, मैंने एक रेटिंग एजेंसी से रिपोर्ट का आदेश दिया, और एजेंसी ने कहा, उनका मालिकाना स्कोर, साथ ही एक स्पष्ट चर इस स्कोर की विश्वसनीयता का संकेत देता है। यह संकेतक मेरे उद्देश्यों की तुलना में बहुत अधिक जुर्माना हो सकता है। उदाहरण के लिए, "विश्वसनीय स्कोर के लिए कोई पर्याप्त जानकारी नहीं" को कई वर्गों में विभाजित किया जा सकता है जैसे "20 वर्ष से कम आयु", "हाल ही में देश में स्थानांतरित", "कोई पूर्व क्रेडिट इतिहास नहीं", आदि इनमें से कई वर्ग। शायद ही कभी आबादी हो, और इसलिए प्रतिगमन या अन्य मॉडल में बेकार हो। इससे निपटने के लिए, मैं एक "प्रतिनिधि" वर्ग में सांख्यिकीय शक्ति को मजबूत करने के लिए एक साथ कक्षाओं की तरह पूल करना चाह सकता हूं। उदाहरण के लिए, मेरे लिए केवल एक द्विआधारी संकेतक "अच्छी जानकारी लौटाया" बनाम "कोई जानकारी नहीं लौटा" का उपयोग करना उचित हो सकता है। मेरे अनुभव में, बाल्टीकरण के कई अनुप्रयोग इस सामान्य में आते हैंबहुत कम आबादी वाली श्रेणियों के प्रकार का पतन

कुछ एल्गोरिदम बकेटिज़ेशन का आंतरिक रूप से उपयोग करते हैं। उदाहरण के लिए, पेड़ों को बढ़ाने वाले एल्गोरिदम के अंदर फिट होने वाले पेड़ अक्सर एक संक्षेप चरण में अपना अधिकांश समय बिताते हैं, जहां प्रत्येक नोड में निरंतर डेटा विवेकाधीन होता है और प्रत्येक बाल्टी में प्रतिक्रिया के औसत मूल्य की गणना की जाती है। यह एक उपयुक्त विभाजन को खोजने की कम्प्यूटेशनल जटिलता को काफी कम कर देता है, बगैर सटीकता के बहुत अधिक त्याग के कारण।

आप बस पूर्व-बकेटिज्ड डेटा भी प्राप्त कर सकते हैं । असतत डेटा को संपीड़ित और स्टोर करना आसान है - फ्लोटिंग पॉइंट नंबरों की एक लंबी सरणी अचूक है, लेकिन जब "उच्च", "मध्यम" और "कम" में विवेक किया जाता है, तो आप अपने डेटाबेस में बहुत सारे स्थान बचा सकते हैं। आपका डेटा गैर-मॉडलिंग एप्लिकेशन पर लक्षित स्रोत से भी हो सकता है। यह तब होता है जब मैं उन संगठनों से डेटा प्राप्त करता हूं जो कम विश्लेषणात्मक काम करते हैं। उनका डेटा अक्सर रिपोर्टिंग के लिए उपयोग किया जाता है, और आम लोगों को रिपोर्ट की व्याख्या के साथ मदद करने के लिए एक उच्च स्तर पर संक्षेपित किया जाता है। यह डेटा अभी भी उपयोगी हो सकता है, लेकिन अक्सर कुछ शक्ति खो जाती है।

क्या मैं कम मूल्य देखता हूं, हालांकि इसके संभव होने पर मुझे सही किया जा सकता है, मॉडलिंग उद्देश्यों के लिए निरंतर माप का पूर्व-बकेटाइजेशन है। निरंतर भविष्यवक्ताओं के लिए गैर-रेखीय प्रभावों को फिट करने के लिए बहुत शक्तिशाली तरीके हैं, और हिरनीकरण इनका उपयोग करने की आपकी क्षमता को हटा देता है। मैं इसे एक बुरे अभ्यास के रूप में देखता हूं।


4

"हाई लेवल वर्सेज लो लेवल डेटा साइंस" बकेटाइजेशन के लेख के अनुसार है

बकेटेटाइजेशन स्टेप (जिसे कभी-कभी मल्टीवीरेट बिनिंग कहा जाता है) में उच्च भविष्यवाणी की शक्ति के साथ मेट्रिक्स (और 2-3 मेट्रिक्स के संयोजन) की पहचान होती है, जो उन्हें उचित रूप से संयोजित करते हैं और बकेट को बड़ा करते हुए इंट्रा-बकेट विचरण को कम करते हैं।

तो मेरी समझ यह है कि आप सबसे अधिक अनुमानित विशेषताओं के अनुसार डेटा का लालच करते हैं, फिर उपसमूहों का विश्लेषण करते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.