क्या सामान्यीकरण और k- साधन क्लस्टरिंग के लिए फ़ीचर स्केलिंग की आवश्यकता है?


जवाबों:


63

यदि आपके चर अतुलनीय इकाइयों के हैं (जैसे कि सेमी में ऊंचाई और किलोग्राम में वजन), तो आपको चर का मानकीकरण करना चाहिए, निश्चित रूप से। भले ही वैरिएबल एक ही यूनिट के हों, लेकिन काफी अलग-अलग वेरिएंट दिखाते हैं, यह अभी भी K- साधनों से पहले मानकीकृत करने के लिए एक अच्छा विचार है। आप देखते हैं, K- साधन क्लस्टरिंग अंतरिक्ष की सभी दिशाओं में "आइसोट्रोपिक" है और इसलिए अधिक या कम गोल (लम्बी के बजाय) समूहों का उत्पादन करता है। इस स्थिति में भिन्नताओं को असमान छोड़ना छोटे चर के साथ चर पर अधिक भार डालने के बराबर है, इसलिए समूहों को अधिक भिन्नता वाले चर के साथ अलग किया जाएगा।

यहाँ छवि विवरण दर्ज करें

1

यहाँ क्लस्टर या अन्य बहुभिन्नरूपी विश्लेषण में सुविधाओं के मानकीकरण के मुद्दे के बारे में कुछ सामान्य तर्क दिए गए हैं


1


2
रैंडमाइजिंग, री-रनिंग, एवरेज और फाइनल रन बहुत अच्छी सलाह है। धन्यवाद
pedrosaurio

1
K- साधन ऑर्डर करने के लिए कैसे संवेदनशील होगा?
लघुशंका

1
@StudentT, मैंने उसके लिए एक फुटनोट जोड़ा है। धन्यवाद।
ttnphns

1
@ttnphns मात्रात्मक रूप से कैसे निर्धारित करते हैं कि चर में "काफी भिन्न भिन्न" हैं?
हरमन टूथ्रोट

1
@camillejr, कृपया इस Q की जाँच करके प्रारंभ करें: आंकड़े . stackexchange.com/q/418427/3277
tnnphns 18

4

मुझे लगता है कि आपके डेटा पर निर्भर करता है। यदि आप परिमाण की परवाह किए बिना एक साथ क्लस्टर करने के लिए अपने डेटा में रुझान चाहते हैं, तो आपको केंद्र में होना चाहिए। जैसे। आप कुछ जीन अभिव्यक्ति प्रोफ़ाइल है, और जीन अभिव्यक्ति में रुझान देखना चाहते हैं, तो मतलब केंद्रित के बिना, अपने कम अभिव्यक्ति जीन प्रवृत्तियों की परवाह किए बिना, एक साथ और उच्च अभिव्यक्ति जीन से दूर क्लस्टर जाएगा। केंद्र एक साथ अभिव्यक्ति पैटर्न क्लस्टर की तरह जीन (उच्च और निम्न दोनों व्यक्त) बनाता है।


मैं वास्तव में अलग-अलग विशेषताओं की तुलना कर रहा हूं जिनके अपने पैमाने हैं। उदाहरण के लिए, मैं जीसी सामग्री की तुलना कर रहा हूं जिसमें लगभग 0.3 से 0.5 तक की सीमा है जो कि छोटी लग सकती है लेकिन अंतर काफी महत्वपूर्ण है; कुछ अन्य विशेषताओं में व्यापक रेंज हैं, कुछ अन्य में बहुत छोटे पैमाने हैं।
पडोसौरियो

तो, आप विभिन्न कारकों को जोड़ रहे हैं? शायद कुछ वजन या मूल्यों के परिवर्तन का उपयोग कर सकता है।
नाइट राइटर

नहीं, मैं सभी सतत चर की तुलना कर रहा हूं
16
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.