सामान्यीकरण और फीचर स्केलिंग कार्य कैसे और क्यों करते हैं?


60

मैं देख रहा हूं कि बहुत सारे मशीन लर्निंग एल्गोरिदम बेहतर तरीके से कैंसिलेशन और कोवरियन इक्वलाइजेशन के साथ काम करते हैं। उदाहरण के लिए, न्यूरल नेटवर्क तेजी से अभिसरण करते हैं, और के-मीन्स आमतौर पर पूर्व-संसाधित सुविधाओं के साथ बेहतर क्लस्टरिंग देते हैं। मैं इन पूर्व-प्रसंस्करण कदमों के पीछे के अंतर्ज्ञान को बेहतर प्रदर्शन के लिए नहीं देखता हूं। क्या कोई मुझे यह समझा सकता है?

जवाबों:


25

यह केवल आपके सभी डेटा को एक ही पैमाने पर प्राप्त करने का मामला है: यदि विभिन्न विशेषताओं के लिए पैमानों में बेतहाशा अंतर होता है, तो यह सीखने की आपकी क्षमता पर एक दस्तक पर प्रभाव डाल सकता है (यह आपके द्वारा उपयोग किए जाने वाले तरीकों के आधार पर) । मानकीकृत सुविधा मूल्यों को सुनिश्चित करना उनके प्रतिनिधित्व में सभी सुविधाओं को समान रूप से तौलता है।


3
"आपके सीखने की क्षमता पर यह एक नॉक-ऑन प्रभाव हो सकता है" से क्या मतलब है, शायद आप इस पर विस्तार कर सकते हैं?
चार्ली पार्कर

14
यह वास्तव में एक अच्छी व्याख्या नहीं है। सच्ची समझ हासिल करने के लिए आपको स्पष्टीकरण में कम से कम एक गहराई तक जाने की आवश्यकता है।
ज़ेल्फिर कलस्टहल

मुझे अपनी थीसिस के लिए किसी भी संदर्भ की आवश्यकता है
x-rw

40

यह सच है कि मशीन लर्निंग में प्रीप्रोसेसिंग कुछ हद तक एक बहुत ही काली कला है। यह कागजों में बहुत नीचे नहीं लिखा है कि इसे बनाने के लिए कई आवश्यक कदम क्यों जरूरी हैं। मुझे भी यकीन नहीं है कि यह हर मामले में समझा जाता है। चीजों को और अधिक जटिल बनाने के लिए, यह आपके द्वारा उपयोग की जाने वाली विधि पर और समस्या डोमेन पर बहुत अधिक निर्भर करता है।

उदाहरण के लिए, कुछ तरीके हैं, जो कि ट्रांसफ़ॉर्मर ट्रांसफ़ॉर्मेंट हैं। यदि आपके पास एक तंत्रिका नेटवर्क है और आपके डेटा में केवल एक रूपांतरण परिवर्तन लागू होता है, तो नेटवर्क सिद्धांत रूप में कुछ भी नहीं खोता है या प्राप्त नहीं करता है। व्यवहार में, हालांकि, एक तंत्रिका नेटवर्क सबसे अच्छा काम करता है अगर इनपुट केंद्रित और सफेद हो। इसका मतलब है कि उनका सहसंयोजक विकर्ण है और इसका मतलब शून्य वेक्टर है। यह चीजों में सुधार क्यों करता है? यह केवल इसलिए है क्योंकि तंत्रिका जाल का अनुकूलन अधिक सुंदर ढंग से काम करता है, क्योंकि छिपे हुए सक्रियण कार्य उस तेजी से संतृप्त नहीं करते हैं और इस प्रकार आपको सीखने में शुरुआती शून्य ग्रेडिएंट्स के पास नहीं देते हैं।

के-मीन्स जैसे अन्य तरीके, आपको प्रीप्रोसेसिंग के आधार पर पूरी तरह से अलग समाधान दे सकते हैं। ऐसा इसलिए होता है क्योंकि एक परिशोधन परिवर्तन से मीट्रिक स्थान में परिवर्तन होता है: यूक्लिडियन दूरी btw दो नमूने उस परिवर्तन के अनुसार अलग होंगे।

दिन के अंत में, आप समझना चाहते हैं कि आप डेटा का क्या कर रहे हैं। उदाहरण के लिए कंप्यूटर विज़न और सफ़ेद वार सामान्यीकरण कुछ ऐसा है जो मानव मस्तिष्क अपनी दृष्टि पाइपलाइन में भी करता है।


17

एएनएन और के-साधनों के लिए इनपुट सामान्यीकरण क्यों उपयोगी हो सकता है, इस पर कुछ विचार, संदर्भ और प्लॉट:

K- साधन :

K- साधन क्लस्टरिंग अंतरिक्ष की सभी दिशाओं में "आइसोट्रोपिक" है और इसलिए अधिक या कम गोल (लम्बी के बजाय) समूहों का उत्पादन करता है। इस स्थिति में भिन्नताओं को असमान छोड़ना छोटे चर वाले चर पर अधिक भार डालने के बराबर है।

मतलाब में उदाहरण:

X = [randn(100,2)+ones(100,2);...
     randn(100,2)-ones(100,2)];

% Introduce denormalization
% X(:, 2) = X(:, 2) * 1000 + 500;

opts = statset('Display','final');

[idx,ctrs] = kmeans(X,2,...
                    'Distance','city',...
                    'Replicates',5,...
                    'Options',opts);

plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)
hold on
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)
plot(ctrs(:,1),ctrs(:,2),'kx',...
     'MarkerSize',12,'LineWidth',2)
plot(ctrs(:,1),ctrs(:,2),'ko',...
     'MarkerSize',12,'LineWidth',2)
legend('Cluster 1','Cluster 2','Centroids',...
       'Location','NW')
title('K-means with normalization')

यहाँ छवि विवरण दर्ज करें

यहाँ छवि विवरण दर्ज करें

(FYI: मैं अगर मेरे डाटासेट क्लस्टर है या unclustered (यानी एक ही क्लस्टर के गठन कैसे पता लगा सकते हैं )

वितरित क्लस्टरिंग :

तुलनात्मक विश्लेषण से पता चलता है कि वितरित क्लस्टरिंग परिणाम सामान्यीकरण प्रक्रिया के प्रकार पर निर्भर करते हैं।

कृत्रिम तंत्रिका नेटवर्क (इनपुट) :

यदि इनपुट चर को एक एमएलपी के रूप में रैखिक रूप से संयोजित किया जाता है, तो कम से कम सिद्धांत रूप में, इनपुट को मानकीकृत करने के लिए यह कड़ाई से आवश्यक नहीं है। इसका कारण यह है कि इनपुट वेक्टर के किसी भी प्रकार के फेरबदल को प्रभावी रूप से संबंधित वजन और गैसों को बदलकर पूर्ववत किया जा सकता है, जो आपको पहले के समान आउटपुट के साथ छोड़ देता है। हालांकि, विभिन्न प्रकार के व्यावहारिक कारण हैं कि इनपुट के मानकीकरण से प्रशिक्षण तेज हो सकता है और स्थानीय ऑप्टिमा में फंसने की संभावना कम हो सकती है। इसके अलावा, वजन घटाने और बायेसियन आकलन को मानकीकृत इनपुट के साथ अधिक आसानी से किया जा सकता है।

कृत्रिम तंत्रिका नेटवर्क (इनपुट / आउटपुट)

क्या आपको अपने डेटा में इनमें से कुछ भी करना चाहिए? उत्तर है, यह निर्भर करता है।

या तो इनपुट या लक्ष्य चर का मानकीकरण अनुकूलन समस्या की संख्यात्मक स्थिति को सुधारने (देखें ftp://ftp.sas.com/pub/neural/illcond/illcond.html ) को बेहतर बनाकर प्रशिक्षण प्रक्रिया को बेहतर बनाता है और यह सुनिश्चित करता है कि विभिन्न डिफ़ॉल्ट प्रारंभ और समाप्ति में शामिल मूल्य उपयुक्त हैं। लक्ष्यीकरण मानकीकरण भी उद्देश्य समारोह को प्रभावित कर सकता है।

मामलों के मानकीकरण को सावधानी के साथ संपर्क किया जाना चाहिए क्योंकि यह जानकारी का खुलासा करता है। यदि वह जानकारी अप्रासंगिक है, तो मानकीकरण मामले काफी मददगार हो सकते हैं। यदि वह जानकारी महत्वपूर्ण है, तो मानकीकरण के मामले विनाशकारी हो सकते हैं।


दिलचस्प है, माप इकाइयों को बदलने से एक बहुत अलग क्लस्टरिंग संरचना देखने के लिए नेतृत्व किया जा सकता है: कॉफ़मैन, लियोनार्ड, और पीटर जे। राउसीवु .. "डेटा में समूह ढूँढना: क्लस्टर विश्लेषण का परिचय।" (2005)।

कुछ अनुप्रयोगों में, माप इकाइयों को बदलने से एक बहुत अलग क्लस्टरिंग संरचना देखने के लिए भी नेतृत्व किया जा सकता है। उदाहरण के लिए, चार काल्पनिक लोगों की आयु (वर्षों में) और ऊंचाई (सेंटीमीटर में) तालिका 3 में दी गई है और चित्र 3 में प्लॉट किया गया है। ऐसा प्रतीत होता है कि {A, B) और {C, 0] दो अच्छी तरह से अलग किए गए क्लस्टर हैं । दूसरी ओर, जब ऊँचाई को पैरों में व्यक्त किया जाता है तो तालिका 4 और चित्र 4 प्राप्त होता है, जहाँ स्पष्ट समूह अब {A, C} और {B, D} हैं। यह विभाजन पहले से पूरी तरह से अलग है क्योंकि प्रत्येक विषय को एक और साथी मिला है। (चित्र 4 को और भी अधिक चपटा किया गया होता यदि आयु दिनों में मापी गई होती।)

माप इकाइयों की पसंद पर इस निर्भरता से बचने के लिए, किसी के पास डेटा को मानकीकृत करने का विकल्प होता है। यह मूल माप को इकाई रहित चर में परिवर्तित करता है।

यहाँ छवि विवरण दर्ज करें यहाँ छवि विवरण दर्ज करें

कॉफमैन एट अल। कुछ दिलचस्प विचारों के साथ जारी है (पृष्ठ 11):

दार्शनिक दृष्टिकोण से, मानकीकरण वास्तव में समस्या का समाधान नहीं करता है। दरअसल, मापन इकाइयों की पसंद चर के सापेक्ष भार को जन्म देती है। छोटी इकाइयों में एक चर को व्यक्त करने से उस चर के लिए एक बड़ी सीमा हो जाएगी, जिसके परिणामस्वरूप परिणामस्वरूप संरचना पर एक बड़ा प्रभाव पड़ेगा। दूसरी ओर, वस्तुनिष्ठता प्राप्त करने की आशा में, सभी चरों को एक समान भार देने के प्रयास को मानकीकृत करके। जैसे, इसका उपयोग किसी ऐसे चिकित्सक द्वारा किया जा सकता है, जिसके पास कोई पूर्व ज्ञान नहीं है। हालांकि, यह अच्छी तरह से हो सकता है कि कुछ चर किसी विशेष अनुप्रयोग में दूसरों की तुलना में आंतरिक रूप से अधिक महत्वपूर्ण हैं, और फिर भार का कार्य विषय-वस्तु ज्ञान (देखें, उदाहरण के लिए, अब्राहोविकेज़, 1985) पर आधारित होना चाहिए। दूसरी ओर, वहाँ क्लस्ट्रिंग तकनीकों को विकसित करने का प्रयास किया गया है जो चर (फ़्रीडमैन और रुबिन, 1967) के पैमाने से स्वतंत्र हैं। हार्डी और रैसन (1982) का प्रस्ताव एक विभाजन की खोज करना है जो समूहों के उत्तल पतवारों की कुल मात्रा को कम करता है। सिद्धांत रूप में इस तरह की एक विधि डेटा के रैखिक परिवर्तनों के संबंध में अपरिवर्तनीय है, लेकिन दुर्भाग्य से इसके कार्यान्वयन के लिए कोई एल्गोरिथ्म मौजूद नहीं है (एक अनुमान के अलावा जो दो आयामों तक सीमित है)। इसलिए, वर्तमान में मानकीकरण की दुविधा अपरिहार्य प्रतीत होती है और इस पुस्तक में वर्णित कार्यक्रम उपयोगकर्ता के लिए विकल्प छोड़ देते हैं। हार्डी और रैसन (1982) का प्रस्ताव एक विभाजन की खोज करना है जो समूहों के उत्तल पतवारों की कुल मात्रा को कम करता है। सिद्धांत रूप में इस तरह की एक विधि डेटा के रैखिक परिवर्तनों के संबंध में अपरिवर्तनीय है, लेकिन दुर्भाग्य से इसके कार्यान्वयन के लिए कोई एल्गोरिथ्म मौजूद नहीं है (एक अनुमान के अलावा जो दो आयामों तक सीमित है)। इसलिए, वर्तमान में मानकीकरण की दुविधा अपरिहार्य प्रतीत होती है और इस पुस्तक में वर्णित कार्यक्रम उपयोगकर्ता के लिए विकल्प छोड़ देते हैं। हार्डी और रैसन (1982) का प्रस्ताव एक विभाजन की खोज करना है जो समूहों के उत्तल पतवारों की कुल मात्रा को कम करता है। सिद्धांत रूप में इस तरह की एक विधि डेटा के रैखिक परिवर्तनों के संबंध में अपरिवर्तनीय है, लेकिन दुर्भाग्य से इसके कार्यान्वयन के लिए कोई एल्गोरिथ्म मौजूद नहीं है (एक अनुमान के अलावा जो दो आयामों तक सीमित है)। इसलिए, वर्तमान में मानकीकरण की दुविधा अपरिहार्य प्रतीत होती है और इस पुस्तक में वर्णित कार्यक्रम उपयोगकर्ता के लिए विकल्प छोड़ देते हैं।


6

फ़ीचर स्केलिंग कार्य क्यों करता है? मैं आपको एक उदाहरण दे सकता हूं ( Quora से )

30000


4
यदि आप Quora से किसी पोस्ट का हवाला दे रहे हैं, तो आपको वास्तव में स्रोत से लिंक करना होगा।
मैथ्यू Drury

5

दो अलग-अलग मुद्दे हैं:

a) सही कार्य सीखना जैसे k- साधन: इनपुट स्केल मूल रूप से समानता को निर्दिष्ट करता है, इसलिए पाए जाने वाले क्लस्टर स्केलिंग पर निर्भर करते हैं। नियमितीकरण - उदाहरण के लिए l2 वज़न नियमित करना - आप मानते हैं कि प्रत्येक वजन "समान रूप से छोटा" होना चाहिए - यदि आपका डेटा "उचित" नहीं बढ़ाया जाता है, तो यह मामला नहीं होगा

बी) अनुकूलन, धीरे-धीरे वंश (जैसे अधिकांश तंत्रिका नेटवर्क) द्वारा। ढाल वंश के लिए, आपको सीखने की दर चुनने की आवश्यकता है ... लेकिन एक अच्छी सीखने की दर (कम से कम 1 छिपी हुई परत) इनपुट स्केलिंग पर निर्भर करती है: छोटे [प्रासंगिक] इनपुट के लिए आमतौर पर बड़े वजन की आवश्यकता होती है, इसलिए आप बड़ा सीखना चाहेंगे उन वज़न के लिए दर (वहाँ तेज़ी से पाने के लिए), और बड़े इनपुट्स के लिए vv ... चूंकि आप केवल एक ही सीखने की दर का उपयोग करना चाहते हैं, आप अपने इनपुट्स को पुनर्विक्रय करते हैं। (और सफ़ेद करना अर्थात सजाना भी उसी कारण से महत्वपूर्ण है)


1

मैं कोर्टेरा पर मशीन लर्निंग के लिए जेफ्री हिंटन के न्यूरल नेटवर्क्स को खत्म कर रहा हूं , और वह व्याख्यान 6 बी में यह बताते हैं: "मिनी-बैच ढाल वंश के लिए चाल का एक बैग।" आप साइन अप या साइन इन किए बिना वीडियो का पूर्वावलोकन कर सकते हैं ।


1

यह पत्र केवल k- साधनों के बारे में बात करता है, लेकिन यह डेटा की आवश्यकता को काफी अच्छी तरह से समझाता है और साबित करता है।

मानकीकरण डेटा खनन में केंद्रीय प्रीप्रोसेसिंग कदम है, जो विभिन्न गतिशील रेंज से विशिष्ट श्रेणी में सुविधाओं या विशेषताओं के मूल्यों को मानकीकृत करने के लिए है। इस पत्र में, हमने पारंपरिक के-साधन एल्गोरिथ्म पर तीन मानकीकरण विधियों के प्रदर्शन का विश्लेषण किया है। संक्रामक रोगों के डेटासेट पर परिणामों की तुलना करके, यह पाया गया कि जेड-स्कोर मानकीकरण विधि द्वारा प्राप्त परिणाम न्यूनतम और अधिकतम और स्केल स्केलिंग मानकीकरण विधियों की तुलना में अधिक प्रभावी और कुशल है।

... अगर कुछ विशेषताएं हैं, बड़े आकार या महान परिवर्तनशीलता के साथ, इस तरह की विशेषताएं जोरदार परिणाम को प्रभावित करेगी। इस मामले में, डेटा मानकीकरण डेटासेट की परिवर्तनशीलता को स्केल करने या नियंत्रित करने के लिए एक महत्वपूर्ण प्रीप्रोसेसिंग कार्य होगा।

... सुविधाओं की आयामहीन होने की आवश्यकता है क्योंकि आयामी सुविधाओं की श्रेणियों के संख्यात्मक मान माप की इकाइयों पर निर्भर करते हैं और इसलिए, माप की इकाइयों का चयन क्लस्टरिंग के परिणामों में काफी बदलाव कर सकता है। इसलिए, किसी को डेटा सेट के सामान्यीकरण के बिना यूक्लिडियन दूरी की तरह दूरी के उपायों को नियुक्त नहीं करना चाहिए

स्रोत: http://maxwellsci.com/print/rjaset/v6-3299-3303.pdf


1

प्री-प्रोसेसिंग अक्सर काम करता है क्योंकि यह उन डेटा की विशेषताओं को दूर करता है जो वर्गीकरण समस्या से संबंधित नहीं हैं जिन्हें आप हल करने की कोशिश कर रहे हैं। उदाहरण के लिए विभिन्न वक्ताओं से ध्वनि डेटा को वर्गीकृत करने के बारे में सोचें। जोर में उतार-चढ़ाव (आयाम) अप्रासंगिक हो सकता है, जबकि आवृत्ति स्पेक्ट्रम वास्तव में प्रासंगिक पहलू है। तो इस मामले में, अधिकांश एमएल एल्गोरिदम के लिए आयाम को सामान्य बनाना वास्तव में मददगार होगा, क्योंकि यह डेटा के एक पहलू को हटा देता है जो अप्रासंगिक है और एक तंत्रिका नेटवर्क को गंभीर पैटर्न के लिए ओवरफिट करने का कारण होगा।


1

मुझे लगता है कि यह केवल इसलिए किया जाता है ताकि एक बड़े मूल्य के साथ सुविधा एक क्लासिफायरियर को सीखते समय एक छोटे मूल्य के साथ फीचर के प्रभावों को ओवरशैडो न करें। यह विशेष रूप से महत्वपूर्ण हो जाता है यदि छोटे मूल्यों वाला फीचर वास्तव में वर्ग पृथक्करण में योगदान देता है। लॉजिस्टिक रिग्रेशन जैसे क्लासिफायर को निर्णय सीमा सीखने में कठिनाई होगी, उदाहरण के लिए यदि यह एक फीचर के सूक्ष्म स्तर पर मौजूद है और हमारे पास लाखों के क्रम की अन्य विशेषताएं हैं .Also एल्गोरिदम को बेहतर तरीके से अभिसरण करने में मदद करता है। इसलिए हम अपने एल्गोरिदम में कोडिंग करते समय कोई संभावना नहीं रखते हैं। इस तरह से सुविधाओं के योगदान (भार) को जानने के लिए एक क्लासिफायरियर के लिए यह बहुत आसान है। K के लिए भी सही है, जब यूक्लिडियन मानदंड (पैमाने के कारण भ्रम) का उपयोग किया जाता है। कुछ एल्गोरिदम सामान्य किए बिना भी काम कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.