K- साधन करने से पहले सबसे अच्छा (अनुशंसित) पूर्व-प्रसंस्करण कदम क्या हैं?
K- साधन करने से पहले सबसे अच्छा (अनुशंसित) पूर्व-प्रसंस्करण कदम क्या हैं?
जवाबों:
यदि आपके चर अतुलनीय इकाइयों के हैं (जैसे कि सेमी में ऊंचाई और किलोग्राम में वजन), तो आपको चर का मानकीकरण करना चाहिए, निश्चित रूप से। भले ही वैरिएबल एक ही यूनिट के हों, लेकिन काफी अलग-अलग वेरिएंट दिखाते हैं, यह अभी भी K- साधनों से पहले मानकीकृत करने के लिए एक अच्छा विचार है। आप देखते हैं, K- साधन क्लस्टरिंग अंतरिक्ष की सभी दिशाओं में "आइसोट्रोपिक" है और इसलिए अधिक या कम गोल (लम्बी के बजाय) समूहों का उत्पादन करता है। इस स्थिति में भिन्नताओं को असमान छोड़ना छोटे चर के साथ चर पर अधिक भार डालने के बराबर है, इसलिए समूहों को अधिक भिन्नता वाले चर के साथ अलग किया जाएगा।
यहाँ क्लस्टर या अन्य बहुभिन्नरूपी विश्लेषण में सुविधाओं के मानकीकरण के मुद्दे के बारे में कुछ सामान्य तर्क दिए गए हैं ।
मुझे लगता है कि आपके डेटा पर निर्भर करता है। यदि आप परिमाण की परवाह किए बिना एक साथ क्लस्टर करने के लिए अपने डेटा में रुझान चाहते हैं, तो आपको केंद्र में होना चाहिए। जैसे। आप कुछ जीन अभिव्यक्ति प्रोफ़ाइल है, और जीन अभिव्यक्ति में रुझान देखना चाहते हैं, तो मतलब केंद्रित के बिना, अपने कम अभिव्यक्ति जीन प्रवृत्तियों की परवाह किए बिना, एक साथ और उच्च अभिव्यक्ति जीन से दूर क्लस्टर जाएगा। केंद्र एक साथ अभिव्यक्ति पैटर्न क्लस्टर की तरह जीन (उच्च और निम्न दोनों व्यक्त) बनाता है।