एएनएन और के-साधनों के लिए इनपुट सामान्यीकरण क्यों उपयोगी हो सकता है, इस पर कुछ विचार, संदर्भ और प्लॉट:
K- साधन :
K- साधन क्लस्टरिंग अंतरिक्ष की सभी दिशाओं में "आइसोट्रोपिक" है और इसलिए अधिक या कम गोल (लम्बी के बजाय) समूहों का उत्पादन करता है। इस स्थिति में भिन्नताओं को असमान छोड़ना छोटे चर वाले चर पर अधिक भार डालने के बराबर है।
मतलाब में उदाहरण:
X = [randn(100,2)+ones(100,2);...
randn(100,2)-ones(100,2)];
% Introduce denormalization
% X(:, 2) = X(:, 2) * 1000 + 500;
opts = statset('Display','final');
[idx,ctrs] = kmeans(X,2,...
'Distance','city',...
'Replicates',5,...
'Options',opts);
plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)
hold on
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)
plot(ctrs(:,1),ctrs(:,2),'kx',...
'MarkerSize',12,'LineWidth',2)
plot(ctrs(:,1),ctrs(:,2),'ko',...
'MarkerSize',12,'LineWidth',2)
legend('Cluster 1','Cluster 2','Centroids',...
'Location','NW')
title('K-means with normalization')
(FYI: मैं अगर मेरे डाटासेट क्लस्टर है या unclustered (यानी एक ही क्लस्टर के गठन कैसे पता लगा सकते हैं )
वितरित क्लस्टरिंग :
तुलनात्मक विश्लेषण से पता चलता है कि वितरित क्लस्टरिंग परिणाम सामान्यीकरण प्रक्रिया के प्रकार पर निर्भर करते हैं।
कृत्रिम तंत्रिका नेटवर्क (इनपुट) :
यदि इनपुट चर को एक एमएलपी के रूप में रैखिक रूप से संयोजित किया जाता है, तो कम से कम सिद्धांत रूप में, इनपुट को मानकीकृत करने के लिए यह कड़ाई से आवश्यक नहीं है। इसका कारण यह है कि इनपुट वेक्टर के किसी भी प्रकार के फेरबदल को प्रभावी रूप से संबंधित वजन और गैसों को बदलकर पूर्ववत किया जा सकता है, जो आपको पहले के समान आउटपुट के साथ छोड़ देता है। हालांकि, विभिन्न प्रकार के व्यावहारिक कारण हैं कि इनपुट के मानकीकरण से प्रशिक्षण तेज हो सकता है और स्थानीय ऑप्टिमा में फंसने की संभावना कम हो सकती है। इसके अलावा, वजन घटाने और बायेसियन आकलन को मानकीकृत इनपुट के साथ अधिक आसानी से किया जा सकता है।
कृत्रिम तंत्रिका नेटवर्क (इनपुट / आउटपुट)
क्या आपको अपने डेटा में इनमें से कुछ भी करना चाहिए? उत्तर है, यह निर्भर करता है।
या तो इनपुट या लक्ष्य चर का मानकीकरण अनुकूलन समस्या की संख्यात्मक स्थिति को सुधारने (देखें ftp://ftp.sas.com/pub/neural/illcond/illcond.html ) को बेहतर बनाकर प्रशिक्षण प्रक्रिया को बेहतर बनाता
है और यह सुनिश्चित करता है कि विभिन्न डिफ़ॉल्ट प्रारंभ और समाप्ति में शामिल मूल्य उपयुक्त हैं। लक्ष्यीकरण मानकीकरण भी उद्देश्य समारोह को प्रभावित कर सकता है।
मामलों के मानकीकरण को सावधानी के साथ संपर्क किया जाना चाहिए क्योंकि यह जानकारी का खुलासा करता है। यदि वह जानकारी अप्रासंगिक है, तो मानकीकरण मामले काफी मददगार हो सकते हैं। यदि वह जानकारी महत्वपूर्ण है, तो मानकीकरण के मामले विनाशकारी हो सकते हैं।
दिलचस्प है, माप इकाइयों को बदलने से एक बहुत अलग क्लस्टरिंग संरचना देखने के लिए नेतृत्व किया जा सकता है: कॉफ़मैन, लियोनार्ड, और पीटर जे। राउसीवु .. "डेटा में समूह ढूँढना: क्लस्टर विश्लेषण का परिचय।" (2005)।
कुछ अनुप्रयोगों में, माप इकाइयों को बदलने से एक बहुत अलग क्लस्टरिंग संरचना देखने के लिए भी नेतृत्व किया जा सकता है। उदाहरण के लिए, चार काल्पनिक लोगों की आयु (वर्षों में) और ऊंचाई (सेंटीमीटर में) तालिका 3 में दी गई है और चित्र 3 में प्लॉट किया गया है। ऐसा प्रतीत होता है कि {A, B) और {C, 0] दो अच्छी तरह से अलग किए गए क्लस्टर हैं । दूसरी ओर, जब ऊँचाई को पैरों में व्यक्त किया जाता है तो तालिका 4 और चित्र 4 प्राप्त होता है, जहाँ स्पष्ट समूह अब {A, C} और {B, D} हैं। यह विभाजन पहले से पूरी तरह से अलग है क्योंकि प्रत्येक विषय को एक और साथी मिला है। (चित्र 4 को और भी अधिक चपटा किया गया होता यदि आयु दिनों में मापी गई होती।)
माप इकाइयों की पसंद पर इस निर्भरता से बचने के लिए, किसी के पास डेटा को मानकीकृत करने का विकल्प होता है। यह मूल माप को इकाई रहित चर में परिवर्तित करता है।
कॉफमैन एट अल। कुछ दिलचस्प विचारों के साथ जारी है (पृष्ठ 11):
दार्शनिक दृष्टिकोण से, मानकीकरण वास्तव में समस्या का समाधान नहीं करता है। दरअसल, मापन इकाइयों की पसंद चर के सापेक्ष भार को जन्म देती है। छोटी इकाइयों में एक चर को व्यक्त करने से उस चर के लिए एक बड़ी सीमा हो जाएगी, जिसके परिणामस्वरूप परिणामस्वरूप संरचना पर एक बड़ा प्रभाव पड़ेगा। दूसरी ओर, वस्तुनिष्ठता प्राप्त करने की आशा में, सभी चरों को एक समान भार देने के प्रयास को मानकीकृत करके। जैसे, इसका उपयोग किसी ऐसे चिकित्सक द्वारा किया जा सकता है, जिसके पास कोई पूर्व ज्ञान नहीं है। हालांकि, यह अच्छी तरह से हो सकता है कि कुछ चर किसी विशेष अनुप्रयोग में दूसरों की तुलना में आंतरिक रूप से अधिक महत्वपूर्ण हैं, और फिर भार का कार्य विषय-वस्तु ज्ञान (देखें, उदाहरण के लिए, अब्राहोविकेज़, 1985) पर आधारित होना चाहिए। दूसरी ओर, वहाँ क्लस्ट्रिंग तकनीकों को विकसित करने का प्रयास किया गया है जो चर (फ़्रीडमैन और रुबिन, 1967) के पैमाने से स्वतंत्र हैं। हार्डी और रैसन (1982) का प्रस्ताव एक विभाजन की खोज करना है जो समूहों के उत्तल पतवारों की कुल मात्रा को कम करता है। सिद्धांत रूप में इस तरह की एक विधि डेटा के रैखिक परिवर्तनों के संबंध में अपरिवर्तनीय है, लेकिन दुर्भाग्य से इसके कार्यान्वयन के लिए कोई एल्गोरिथ्म मौजूद नहीं है (एक अनुमान के अलावा जो दो आयामों तक सीमित है)। इसलिए, वर्तमान में मानकीकरण की दुविधा अपरिहार्य प्रतीत होती है और इस पुस्तक में वर्णित कार्यक्रम उपयोगकर्ता के लिए विकल्प छोड़ देते हैं। हार्डी और रैसन (1982) का प्रस्ताव एक विभाजन की खोज करना है जो समूहों के उत्तल पतवारों की कुल मात्रा को कम करता है। सिद्धांत रूप में इस तरह की एक विधि डेटा के रैखिक परिवर्तनों के संबंध में अपरिवर्तनीय है, लेकिन दुर्भाग्य से इसके कार्यान्वयन के लिए कोई एल्गोरिथ्म मौजूद नहीं है (एक अनुमान के अलावा जो दो आयामों तक सीमित है)। इसलिए, वर्तमान में मानकीकरण की दुविधा अपरिहार्य प्रतीत होती है और इस पुस्तक में वर्णित कार्यक्रम उपयोगकर्ता के लिए विकल्प छोड़ देते हैं। हार्डी और रैसन (1982) का प्रस्ताव एक विभाजन की खोज करना है जो समूहों के उत्तल पतवारों की कुल मात्रा को कम करता है। सिद्धांत रूप में इस तरह की एक विधि डेटा के रैखिक परिवर्तनों के संबंध में अपरिवर्तनीय है, लेकिन दुर्भाग्य से इसके कार्यान्वयन के लिए कोई एल्गोरिथ्म मौजूद नहीं है (एक अनुमान के अलावा जो दो आयामों तक सीमित है)। इसलिए, वर्तमान में मानकीकरण की दुविधा अपरिहार्य प्रतीत होती है और इस पुस्तक में वर्णित कार्यक्रम उपयोगकर्ता के लिए विकल्प छोड़ देते हैं।