बिनिंग को हर कीमत पर क्यों टाला जाना चाहिए?


10

इसलिए मैंने कुछ पोस्ट पढ़ी हैं कि क्यों बिनिंग से हमेशा बचा जाना चाहिए। इस दावे के लिए एक लोकप्रिय संदर्भ यह लिंक है

मुख्य पलायन यह है कि बिनिंग पॉइंट्स (या कटपॉइंट्स) बल्कि मनमाने ढंग से और साथ ही सूचना के नुकसान के कारण होते हैं, और यह कि स्प्लिन को प्राथमिकता दी जानी चाहिए।

हालांकि, मैं वर्तमान में Spotify API के साथ काम कर रहा हूं, जिसमें उनकी कई विशेषताओं के लिए निरंतर आत्मविश्वास उपायों का एक गुच्छा है।

एक फीचर, "इंस्ट्रूमेंटलनेस" को देखते हुए, संदर्भ राज्य:

भविष्यवाणी करता है कि क्या ट्रैक में कोई स्वर नहीं है। "ऊह" और "आह" ध्वनियों को इस संदर्भ में महत्वपूर्ण माना जाता है। रैप या बोले गए शब्द ट्रैक स्पष्ट रूप से "मुखर" हैं। करीब वाद्य यंत्र का मान 1.0 है, अधिक संभावना ट्रैक में कोई मुखर सामग्री नहीं है। 0.5 से ऊपर के मूल्यों का उद्देश्य वाद्य पटरियों का प्रतिनिधित्व करना है , लेकिन मूल्य 1.0 के दृष्टिकोण के अनुसार आत्मविश्वास अधिक है।

मेरे डेटा के बहुत बाएं-तिरछे वितरण को देखते हुए (लगभग 90% नमूने बमुश्किल 0 से ऊपर हैं, मैंने इस सुविधा को दो श्रेणीगत विशेषताओं में बदलने के लिए समझदार पाया: "वाद्य" (0.5 से ऊपर के मूल्य वाले सभी नमूने) और "non_instrumental" "(0.5 से नीचे के मूल्य वाले सभी नमूनों के लिए)।

क्या यह गलत है? और क्या विकल्प होता, जब मेरा (महाद्वीप) लगभग सभी डेटा एक ही मूल्य के आसपास घूम रहा होता है? स्प्लिन के बारे में जो कुछ मैं समझता हूं, वे वर्गीकरण की समस्याओं (जो मैं कर रहा हूं) के साथ काम नहीं करेगा।


10
आपके द्वारा वर्णित सेटअप का अर्थ यह नहीं लगता है कि बिनिंग एक अच्छा विचार है। आपने इसे स्वयं कहा था कि 1.0 मान के करीब कैसे है, इसकी जानकारी है। IMHO आप अच्छी तरह से एक निरंतर सुविधा है कि साधन होने की संभावना से संबंधित है करना होगा। शायद आप अपने प्रश्न पर विस्तार कर सकते हैं।
फ्रैंक हरेल

मेरा प्रश्न मूल रूप से है जब यह बिल्कुल ठीक है, तो बाइनिंग का उपयोग करें। मेरे मामले में, मैंने इसे डोमेन (इंस्ट्रुमेंटल / नॉट इंस्ट्रुमेंटल) के आधार पर उपयोग किया, क्योंकि मेरा मानना ​​है कि यह कहने से ज्यादा कठिन है कि किसी ट्रैक का इंस्ट्रुमेंटल कितना नजदीक है (चूंकि ट्रैक या तो है या इंस्ट्रुमेंटल नहीं है)। आपने इस तर्क के खिलाफ अपनी पोस्ट के बिंदु 8 में तर्क दिया। मैं, नौसिखिए के रूप में, बस एक कठिन समय वास्तव में समझने के लिए है कि ऐसा क्यों होना चाहिए।
रीडर

1
मैंने इस बारे में एक लंबी पोस्ट प्रेडिक्टिव मॉडलिंग के संदर्भ में लिखी थी
मैथ्यू ड्र्यू

बहुत जानकारीपूर्ण और पूरी तरह से, धन्यवाद। हालाँकि, मैं अपने प्रश्न से संबंध नहीं देखता (हालाँकि मुझे अभी भी कुछ नई अंतर्दृष्टि प्राप्त हुई हैं, इसलिए सब ठीक है!)। आपका लेख प्रतिगमन समस्याओं में पूर्वसूचक चर को दूर करने के बारे में बात कर रहा है और यह एक बुरा विचार क्यों है (जो कि आपके लेख के खिलाफ बहुत तर्क दिया गया था) और स्प्लिन का उपयोग करने से मॉडलिंग प्रतिगमन के लिए मदद मिलती है। मैं इस बारे में पूछ रहा था कि एक वर्गीकरण समस्या में एक निरंतर सुविधा (एक इनपुट) के मूल्यों (जिसका भविष्यवक्ता चर "स्वाभाविक रूप से" डिब्बे ", अर्थात कक्षाएं) को समझाना बुरा है।
पाठक

2
यदि आपकी लगभग सभी सुविधा एक बिंदु पर है, तो यह आपके मॉडल के अनहेल्दी होने की संभावना है, चाहे आप जो भी करें।
संचय

जवाबों:


15

यह कहना थोड़ा अतिशयोक्ति है कि बिनिंग को हर कीमत पर टाला जाना चाहिए , लेकिन यह निश्चित रूप से मामला है कि बिनिंग बिन विकल्पों का परिचय देता है जो विश्लेषण के लिए कुछ मनमानी का परिचय देते हैं। आधुनिक सांख्यिकीय विधियों के साथ आमतौर पर बिनिंग में संलग्न होने के लिए आवश्यक नहीं है, क्योंकि कुछ भी जो कि "बायनेड" डेटा पर किया जा सकता है, आमतौर पर अंतर्निहित निरंतर मूल्यों पर किया जा सकता है।

आंकड़ों में "बिनिंग" का सबसे आम उपयोग हिस्टोग्राम के निर्माण में है। हिस्टोग्राम्स कर्नेल घनत्व अनुमानक (केडीई) के सामान्य वर्ग के समान हैं, इनफॉफ़र क्योंकि वे चुने हुए डिब्बे पर चरण कार्यों के एकत्रीकरण को शामिल करते हैं, जबकि केडीई में चिकनी गुठली का एकत्रीकरण होता है। हिस्टोग्राम में उपयोग किया जाने वाला कदम फ़ंक्शन एक सुचारू फ़ंक्शन नहीं है, और यह आमतौर पर ऐसा मामला है कि केडीई विधि के तहत बेहतर कर्नेल फ़ंक्शंस चुने जा सकते हैं, जो कम मनमानी हैं, जो डेटा के अंतर्निहित घनत्व के बेहतर अनुमान भी देते हैं। मैं अक्सर छात्रों को बताता हूं कि एक हिस्टोग्राम सिर्फ एक "गरीब आदमी का केडीई" है। व्यक्तिगत रूप से, मैं कभी भी एक का उपयोग नहीं करूंगा, क्योंकि डेटा को कम किए बिना एक केडीई प्राप्त करना इतना आसान है, और यह बिना किसी मनमाने ढंग से चयन के बिना बेहतर परिणाम देता है।

"बायनिंग" का एक और सामान्य उपयोग तब होता है जब एक विश्लेषक विश्लेषणात्मक तकनीकों का उपयोग करने के लिए डिब्बे में निरंतर डेटा को विवेकाधीन करना चाहता है जो असतत मूल्यों का उपयोग करता है। यह प्रतीत होता है कि मुखर ध्वनियों की भविष्यवाणी के बारे में आपके द्वारा उद्धृत अनुभाग में क्या सुझाया जा रहा है। ऐसे मामलों में बिनिंग द्वारा शुरू की गई कुछ मनमानी है और जानकारी का नुकसान भी है। यदि संभव हो तो इसे टालना सबसे अच्छा है यदि संभव हो तो, अंतर्निहित "मूल्यों" पर एक मॉडल बनाने के बजाय, अंतर्निहित निरंतर मूल्यों पर सीधे मॉडल बनाने की कोशिश करें।

एक सामान्य नियम के रूप में, सांख्यिकीविदों के लिए विश्लेषणात्मक तकनीकों से बचना वांछनीय है जो मनमाने ढंग से मान्यताओं का परिचय देते हैं, विशेषकर उन मामलों में जहाँ इन मान्यताओं से आसानी से बचने के लिए वैकल्पिक तकनीक उपलब्ध है। इसलिए मैं इस भावना से सहमत हूं कि आमतौर पर बिनिंग अनावश्यक है। यह निश्चित रूप से हर कीमत पर टाला नहीं जाना चाहिए क्योंकि लागत महत्वपूर्ण होती है, लेकिन आम तौर पर इससे बचना चाहिए जब कोई सरल वैकल्पिक तकनीक हो जो इसे बिना किसी गंभीर असुविधा के बचा जा सके।


समझा। प्रश्न का अनुसरण करें, हालांकि: ऊपर वर्णित उदाहरण के वितरण को देखते हुए यहां (विडंबना हिस्टोग्राम), मैं सिर्फ एक निरंतर चर में उपयोगी को देखने में विफल रहता हूं, जहां लगभग सभी नमूने एक मान (यहां 0) के आसपास घूमते हैं, जो है शुरू में मुझे इस सुविधा को कम करने के लिए नेतृत्व किया गया था। आपने वैकल्पिकता का उल्लेख किया है - क्या आप मुझे विस्तृत रूप से बताएंगे या सही दिशा में इंगित कर सकते हैं कि मैं और अधिक कहां सीख सकता हूं?
पाठक

केडीई के बारे में पढ़ने की कोशिश करें और एकतरफा डेटा प्लॉट करने के कुछ वैकल्पिक तरीकों पर भी विचार करें
बेन -

मुझे लगता है कि हिस्टोग्राम मैं सभी जगह मूल्यों को देखता हूं (लेकिन, हां, ज्यादातर शून्य के करीब)। एक तंदुरुस्त फिट का उपयोग करने में कोई असुविधा नहीं होनी चाहिए, और यह निश्चित रूप से अधिक जानकारी देगा। फिट की हुई तख़्ती! और, अगर किसी कारणवश आपको विवेकहीन होना चाहिए , तो यह साजिश आपको कैसे मदद कर सकती है। यह सिर्फ हो सकता है, कि आपके विशेष उपयोग के लिए, 0.5 की तुलना में एक और कटौती बेहतर है।
बजे kjetil b halvorsen

2
हिस्टोग्राम को केडीई के रूप में सही ढंग से नहीं रखा जा सकता है। गिरी क्या होगी?
whuber

1
आपके तीसरे पैराग्राफ के संबंध में, जब मैं कुछ संख्यात्मक डेटा के साथ सूचना लाभ की गणना करने की कोशिश कर रहा था, तो मेरे पास एक समान प्रश्न था। क्या आप इस प्रश्न को देख सकते हैं और समझा सकते हैं कि इस स्थिति में क्या करना है? stats.stackexchange.com/questions/384684/...
ASTEL

4

मैं सामान्य रूप से लगातार उल्लेखनीय चर के वर्गीकरण के खिलाफ दृढ़ता से बहस करूंगा, जो अन्य उल्लेखनीय फ्रैंक हरेल द्वारा व्यक्त किए गए कारणों के लिए है। इस मामले में यह मददगार हो सकता है, हालांकि अपने आप से उस प्रक्रिया के बारे में पूछें जो स्कोर उत्पन्न करती है। ऐसा लगता है कि अधिकांश स्कोर प्रभावी रूप से शून्य हैं शायद कुछ शोर के साथ। उनमें से कुछ शोर के साथ फिर से एकता के करीब हैं। बीच में बहुत कम झूठ बोलते हैं। इस मामले में श्रेणीकरण के लिए अधिक औचित्य प्रतीत होता है क्योंकि कोई यह तर्क दे सकता है कि यह शोर एक द्विआधारी चर है। यदि कोई इसे एक सतत चर के रूप में फिट करता है, तो गुणांक पूर्वसूचक चर में परिवर्तन के संदर्भ में अर्थ होगा, लेकिन इस मामले में इसकी अधिकांश सीमा पर चर बहुत कम आबादी है ताकि अनाकर्षक लगता है।


4
जब बिनिंग का उपयोग करने के लिए मेरा संक्षिप्त उत्तर यह है तो यह है: जब डेटा को देखने से पहले ही विच्छेदन के बिंदु पहले से ही ज्ञात हैं (ये बिन एंडपॉइंट हैं) और यदि यह ज्ञात है कि प्रत्येक बिन के भीतर x और y के बीच का संबंध है गैर-शून्य लंबाई समतल है।
फ्रैंक हरेल

2

कल्पना कीजिए कि आपके पास एक घड़ी है जो केवल घंटे दिखाती है। केवल मेरा मतलब है कि इसमें केवल घंटे का तीर है जो एक बार एक घंटे में 1/12 कूद कर दूसरे घंटे में पहुंचता है, यह आसानी से नहीं चलता है। इस तरह की घड़ी बहुत उपयोगी नहीं होगी, क्योंकि आपको नहीं पता होगा कि यह पांच पिछले दो, आधे से दो या दस से तीन है। यह द्वैध डेटा के साथ समस्या है , यह विवरण खो देता है और "उछल" परिवर्तन का परिचय देता है।


1
(+1) हां, और उस अतिरिक्त समस्या को जोड़ें, जो घड़ी बनाने वाली कंपनी प्रति घंटा वेतन वृद्धि का चयन नहीं कर सकती है, लेकिन मनमाने ढंग से यह तय कर सकती है कि उसकी घड़ी 19 मिनट की वेतन वृद्धि में होगी, और आपको जानकारी के नुकसान से परे एक अतिरिक्त समस्या है ।
बेन -

2

कुछ अनुप्रयोगों के लिए, जाहिरा तौर पर आप जिस पर विचार कर रहे हैं, उसमें बिनिंग सख्ती से आवश्यक हो सकती है। स्पष्ट रूप से एक वर्गीकरण समस्या को करने के लिए, कुछ बिंदु पर आपको अपने मॉडल से श्रेणीबद्ध डेटा को वापस लेना चाहिए, और जब तक आपके इनपुट सभी श्रेणीबद्ध नहीं होते हैं, तब तक आपको बिनिंग करने की आवश्यकता होगी। एक उदाहरण पर विचार करें:

एक परिष्कृत AI पोकर खेल रहा है। इसने अन्य खिलाड़ियों के हाथों के 70% के रूप में अपने हाथ से बेहतर होने की संभावना का मूल्यांकन किया है। यह दांव लगाने की अपनी बारी है, हालांकि यह बताया गया है कि इसे हर कीमत पर बिंग से बचना चाहिए, और परिणामस्वरूप कभी भी शर्त नहीं लगाई जाती है; यह डिफ़ॉल्ट रूप से तह करता है।

हालाँकि, आपने जो सुना है वह अच्छी तरह से सच हो सकता है, समय से पहले मध्यवर्ती मूल्यों के बनिएंग में जानकारी को संरक्षित किया जा सकता है। यदि आपकी परियोजना का अंतिम उद्देश्य यह निर्धारित करना है कि क्या आप प्रश्न में गीत को "पसंद" करेंगे, जो दो कारकों द्वारा निर्धारित किया जा सकता है: "इंस्ट्रूमेंटलनेस" और "रॉकटाइट", तो आप संभवतः निरंतर चर के रूप में उन्हें बनाए रखने के लिए बेहतर करेंगे जब तक कि आप एक स्पष्ट चर के रूप में "पसंद" को बाहर निकालने की आवश्यकता है।

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

या जो भी गुणांक आप सबसे उपयुक्त हैं, या जो भी अन्य मॉडल उचित रूप से आपके प्रशिक्षण सेट पर फिट बैठता है।

यदि इसके बजाय आप तय करते हैं कि कुछ "वाद्य" (सच्चा या गलत) और "चट्टान" (सच्चा या गलत) है, तो आपके पास अपनी 4 श्रेणियां हैं जो आपके सामने दिन के रूप में सामने आती हैं:

  1. वाद्य, चट्टानों
  2. गैर-वाद्य, चट्टानें
  3. वाद्य, कोई चट्टान नहीं
  4. गैर-वाद्य, कोई चट्टान नहीं

लेकिन फिर आपको यह तय करना होगा कि आप उन 4 श्रेणियों में से कौन सी "पसंद" हैं। आपने अपने अंतिम निर्णय में लचीलेपन को आत्मसमर्पण कर दिया है।

बिन करने या न करने का निर्णय पूरी तरह से आपके लक्ष्य पर निर्भर करता है। सौभाग्य।


2

R

R{b1bN}bi=[li,ui]liuii

सादगी के लिए, मान लें कि बिन का सेट की स्थिति द्वारा परिभाषित किया गया हैl=l0wहर बिन के लिए। पहले बिन का निचला भागएल0 पहले बिन के ऊपरी मूल्य में भिन्नता हो सकती है यू0=एल0+w तथा w कुछ न्यूनतम से अधिकतम मूल्यों में भिन्न हो सकते हैं (wमैंn,wएक्स)। आर की मजबूती दिखाने के लिए, हमें गणना करने की आवश्यकता है

पी(आर)=Σw=wमैंnwएक्सΣएल=एल0एल0+wपी(आर|एल,w)पी(एल,w)पी(एल,w)~2(यू0-एल0)wएक्स+wमैंn×(wएक्स-wमैंn)

बेशक, अब आपने पेश किया है wएक्स,wमैंn, तथा एल0, तो तकनीकी रूप से P(R)P(R|wmax,wmin,l0), but if we suspect (not unreasonably) that P(R) is independent of these values, then P(R|wmax,wmin,l0)=P(R) (whew!) which is usually the case, and you rarely have to prove that unless you are really very unlucky with your reviewer!

In the context of the OP's question I would be satisfied if the arbitrary threshold 0.5 were set to a variety of values between credible min and max values, and to see that the basic results of his analysis are largely independent of the selection.

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.