इसलिए मैंने कुछ पोस्ट पढ़ी हैं कि क्यों बिनिंग से हमेशा बचा जाना चाहिए। इस दावे के लिए एक लोकप्रिय संदर्भ यह लिंक है ।
मुख्य पलायन यह है कि बिनिंग पॉइंट्स (या कटपॉइंट्स) बल्कि मनमाने ढंग से और साथ ही सूचना के नुकसान के कारण होते हैं, और यह कि स्प्लिन को प्राथमिकता दी जानी चाहिए।
हालांकि, मैं वर्तमान में Spotify API के साथ काम कर रहा हूं, जिसमें उनकी कई विशेषताओं के लिए निरंतर आत्मविश्वास उपायों का एक गुच्छा है।
एक फीचर, "इंस्ट्रूमेंटलनेस" को देखते हुए, संदर्भ राज्य:
भविष्यवाणी करता है कि क्या ट्रैक में कोई स्वर नहीं है। "ऊह" और "आह" ध्वनियों को इस संदर्भ में महत्वपूर्ण माना जाता है। रैप या बोले गए शब्द ट्रैक स्पष्ट रूप से "मुखर" हैं। करीब वाद्य यंत्र का मान 1.0 है, अधिक संभावना ट्रैक में कोई मुखर सामग्री नहीं है। 0.5 से ऊपर के मूल्यों का उद्देश्य वाद्य पटरियों का प्रतिनिधित्व करना है , लेकिन मूल्य 1.0 के दृष्टिकोण के अनुसार आत्मविश्वास अधिक है।
मेरे डेटा के बहुत बाएं-तिरछे वितरण को देखते हुए (लगभग 90% नमूने बमुश्किल 0 से ऊपर हैं, मैंने इस सुविधा को दो श्रेणीगत विशेषताओं में बदलने के लिए समझदार पाया: "वाद्य" (0.5 से ऊपर के मूल्य वाले सभी नमूने) और "non_instrumental" "(0.5 से नीचे के मूल्य वाले सभी नमूनों के लिए)।
क्या यह गलत है? और क्या विकल्प होता, जब मेरा (महाद्वीप) लगभग सभी डेटा एक ही मूल्य के आसपास घूम रहा होता है? स्प्लिन के बारे में जो कुछ मैं समझता हूं, वे वर्गीकरण की समस्याओं (जो मैं कर रहा हूं) के साथ काम नहीं करेगा।