K- साधन क्लस्टरिंग और PCA के बीच क्या संबंध है?


60

क्लस्टरिंग एल्गोरिथ्म (जैसे के-साधन) से पहले पीसीए (प्रमुख घटक विश्लेषण) को लागू करना एक आम बात है। यह माना जाता है कि यह अभ्यास (शोर में कमी) में क्लस्टरिंग परिणामों में सुधार करता है।

हालाँकि मुझे पीसीए और के-मीन्स के बीच संबंधों के तुलनात्मक और गहन अध्ययन में दिलचस्पी है। उदाहरण के लिए, क्रिस डिंग और शियाओफेंग हे, 2004, के- मीनिंग क्लुस्टरिंग विद प्रिंसिपल कम्पोनेंट एनालिसिस ने दिखाया कि "प्रिंसिपल कंपोनेंट्स के-क्लस्टिंग के लिए असतत क्लस्टर सदस्यता इंडिकेटर्स के लिए निरंतर समाधान हैं"। हालांकि, मेरे पास इस पेपर को समझने में कठिन समय है, और विकिपीडिया वास्तव में दावा करता है कि यह गलत है

इसके अलावा, दो तरीकों के परिणाम इस अर्थ में कुछ भिन्न हैं कि PCA विचरण को संरक्षित करते हुए "सुविधाओं" की संख्या को कम करने में मदद करता है, जबकि क्लस्टरिंग उनकी अपेक्षाओं / साधनों द्वारा कई बिंदुओं को सारांशित करके "डेटा-पॉइंट्स" की संख्या को कम करता है। (के-माध्य के मामले में)। इसलिए अगर डेटासेट में पॉइंट्स के साथ फीचर्स होते हैं, तो पीसीए का लक्ष्य फीचर्स को कंप्रेस करना है जबकि क्लस्टरिंग का उद्देश्य डेटा-पॉइंट्स को कंप्रेस करना है ।टी टी एनNTTN

मैं इन दो तकनीकों के बीच संबंधों की एक आम व्याख्या की तलाश कर रहा हूं + दो तकनीकों से संबंधित कुछ और तकनीकी पेपर।


2
क्लस्टरिंग को फीचर में कमी भी माना जा सकता है। जहाँ आप प्रत्येक नमूने को उसके क्लस्टर असाइनमेंट द्वारा व्यक्त करते हैं, या विरल उन्हें एनकोड करते हैं (इसलिए से को कम करें )। "सुविधा" आयामों को कम करते हुए ये दोनों दृष्टिकोण डेटा बिंदुओं की संख्या को स्थिर रखते हैं। केTk
जेफ

जवाबों:


72

यह सच है कि के-साधन क्लस्टरिंग और पीसीए में बहुत अलग लक्ष्य दिखाई देते हैं और पहली नजर में यह संबंधित नहीं लगता है। हालांकि, जैसा कि डिंग एंड हे 2004 के पेपर के-का मतलब प्रिंसिपल कंपोनेंट एनालिसिस के माध्यम से क्लस्टरिंग है , उनके बीच गहरा संबंध है।

अंतर्ज्ञान यह है कि पीसीए सभी डेटा वैक्टरों को कम संख्या में आईजेनवेक्टरों के रैखिक संयोजनों के रूप में प्रदर्शित करना चाहता है , और इसका अर्थ है-चुकता पुनर्निर्माण त्रुटि को कम करना। इसके विपरीत, K- साधन छोटी संख्या में क्लस्टर सेंट्रोइड्स के माध्यम से सभी डेटा वैक्टर का प्रतिनिधित्व करने का प्रयास करता है , अर्थात उन्हें क्लस्टर सेंट्रोइड वैक्टर की एक छोटी संख्या के रैखिक संयोजनों के रूप में प्रतिनिधित्व करने के लिए, जहां रैखिक संयोजन भार एकल को छोड़कर सभी शून्य होना चाहिए । यह माध्य-वर्ग पुनर्निर्माण त्रुटि को कम करने के लिए भी किया जाता है।n 1nn1

तो के-साधनों को सुपर-स्पार्स पीसीए के रूप में देखा जा सकता है।

डिंग एंड हे पेपर क्या करता है, यह इस संबंध को अधिक सटीक बनाता है।


दुर्भाग्य से, डिंग एंड हे पेपर में कुछ मैला संरचनाएं हैं (सबसे अच्छे रूप में) और आसानी से गलत समझा जा सकता है। उदाहरण के लिए, ऐसा लग सकता है कि डिंग और उसने दावा किया है कि K- साधन क्लस्टरिंग सॉल्यूशन के क्लस्टर सेंट्रोइड्स -डिमैटेबल PCA उप-श्रेणी में निहित हैं:(K1)

प्रमेय 3.3। क्लस्टर के केंद्रक उप-क्षेत्र को पहले प्रमुख दिशा निर्देश [...] द्वारा चमकाया जाता है ।K1

के लिए यह अर्थ होगा कि PC1 अक्ष पर अनुमानों जरूरी एक और क्लस्टर के लिए एक क्लस्टर के लिए नकारात्मक और सकारात्मक हो जाएगा, यानी PC2 अक्ष समूहों पूरी तरह से अलग कर देगा।K=2

यह या तो एक गलती है या कुछ मैला लेखन है; किसी भी मामले में, शाब्दिक रूप से लिया गया, यह विशेष दावा गलत है।

आइए लिए 2 डी में कुछ खिलौना उदाहरणों को देखने के साथ शुरू करें । मैंने एक ही सहसंयोजक मैट्रिक्स के साथ दो सामान्य वितरण से कुछ नमूने उत्पन्न किए, लेकिन अलग-अलग साधन। मैंने तब के-साधन और पीसीए दोनों चलाए। निम्न आंकड़ा ऊपर डेटा के तितर बितर साजिश को दर्शाता है, और नीचे K- साधन समाधान के अनुसार रंग का एक ही डेटा। मैं ब्लैक क्रॉस के साथ K- साधनों द्वारा पाई जाने वाली एक ब्लैक लाइन और क्लास सेंट्रोइड्स के रूप में पहली प्रमुख दिशा भी दिखाता हूं। PC2 अक्ष धराशायी काली रेखा के साथ दिखाया गया है। K- साधन को वैश्विक इष्टतम में अभिसरण सुनिश्चित करने के लिए यादृच्छिक बीजों के साथ बार दोहराया गया था ।१००K=2100

पीसीए बनाम के-साधन

एक स्पष्ट रूप से यह देख सकता है कि भले ही वर्ग सेंट्रोइड्स पहले पीसी दिशा के बहुत करीब हो, लेकिन वे बिल्कुल उस पर नहीं गिरते हैं। इसके अलावा, भले ही PC2 अक्ष 1 और 4 में पूरी तरह से क्लस्टर को अलग करता है, लेकिन उपप्लॉट 2 और 3 में इसके गलत पक्ष पर कुछ बिंदु हैं।

इसलिए K-mean और PCA के बीच समझौता काफी अच्छा है, लेकिन यह सटीक नहीं है।

तो डिंग और उसने क्या साबित किया? सादगी के लिए, मैं केवल मामले पर विचार करूंगा । प्रत्येक क्लस्टर को सौंपे गए अंकों की संख्या और और अंकों की कुल संख्या । डिंग एंड हे के बाद, हम क्लस्टर सूचक वेक्टर में निम्नानुसार : यदि अंक क्लस्टर 1 और अंतर्गत आता है यदि यह क्लस्टर से संबंधित है 2. क्लस्टर इंडिकेटर वेक्टर में यूनिट की लंबाई और "केन्द्रित" है, अर्थात इसके तत्व शून्य ।एन 1 एन 2 n = n 1 + n 2 क्षआर एन क्ष मैं = K=2n1n2n=n1+n2 qRn मैंक्षमैं=-qi=n2/nn1iqi=n1/nn2q=1qi=0

डिंग और वह बताते हैं कि K- loss function (कि K- साधन एल्गोरिथ्म कम करता है) को समान रूप से फिर से लिखा जा सकता है , जहां सभी बिंदुओं के बीच स्केलर उत्पादों का ग्राम मैट्रिक्स है: , जहां है , जहां डेटा मैट्रिक्स और केंद्रित डेटा मैट्रिक्स है।ki(xiμk)2qGqGn×nG=XcXcXn×2Xc

(नोट: मैं नोटेशन और शब्दावली का उपयोग कर रहा हूं जो उनके पेपर से थोड़ा अलग है लेकिन मुझे स्पष्ट लगता है)।

तो K- साधन solution एक केन्द्रित इकाई वेक्टर है जो अधिकतम । यह दिखाना आसान है कि पहला प्रमुख घटक (जब वर्गों की इकाई राशि को सामान्यीकृत किया जाता है) ग्राम मैट्रिक्स का प्रमुख आइजनवेक्टर होता है, अर्थात यह एक केन्द्रित इकाई वेक्टर मैक्सिमाइज़िंग । एकमात्र अंतर यह है कि इसके अतिरिक्त केवल दो अलग-अलग मानों के लिए विवश है, जबकि में यह बाधा नहीं है।qqGqppGpqp

दूसरे शब्दों में, K-mean और PCA एक ही उद्देश्य फ़ंक्शन को अधिकतम करते हैं , एकमात्र अंतर यह है कि K-means में अतिरिक्त "श्रेणीबद्ध" बाधा है।

यह इस कारण से है कि के-साधन (विवश) और पीसीए (अप्रतिबंधित) समाधानों में से अधिकांश एक-दूसरे के करीब होंगे, जैसा कि हमने ऊपर सिमुलेशन में देखा था, लेकिन किसी को उनके समान होने की उम्मीद नहीं करनी चाहिए। ले रहा है और उसके सभी नकारात्मक तत्वों की स्थापना के बराबर होना चाहिए और उसके सभी सकारात्मक तत्वों को आम तौर पर होगा नहीं बिल्कुल देना ।pn1/nn2n2/nn1q

डिंग और वह इसे अच्छी तरह से समझते हैं क्योंकि वे अपने प्रमेय को इस प्रकार बनाते हैं:

प्रमेय 2.2। K- मतलब क्लस्टरिंग के लिए जहां , क्लस्टर इंडिकेटर वेक्टर का निरंतर समाधान [पहला] प्रमुख घटक हैK=2

ध्यान दें कि शब्द "निरंतर समाधान"। इस प्रमेय को सिद्ध करने के बाद वे अतिरिक्त रूप से टिप्पणी करते हैं कि पीसीए का उपयोग K- साधन पुनरावृत्तियों को प्रारंभ करने के लिए किया जा सकता है, जो कुल अर्थ देता है कि हम को करीब होने की उम्मीद करते हैं । लेकिन किसी को अभी भी पुनरावृत्तियों को निष्पादित करने की आवश्यकता है, क्योंकि वे समान नहीं हैं।qp

हालांकि, डिंग और वह फिर लिए एक अधिक सामान्य उपचार विकसित करने और थ्योरम 3.3 के रूप में तैयार करने के लिए आगे बढ़ते हैंK>2

प्रमेय 3.3। क्लस्टर के केंद्रक उप-क्षेत्र को पहले प्रमुख दिशा निर्देश [...] द्वारा चमकाया जाता है ।K1

मैं धारा 3 के गणित के माध्यम से नहीं गया था, लेकिन मेरा मानना ​​है कि यह प्रमेय वास्तव में K- साधनों के "निरंतर समाधान" को संदर्भित करता है, अर्थात इसके कथन को K- साधनों के निरंतर समाधान के "क्लस्टर सेंट्रोइड स्पेस" को पढ़ना चाहिए। spanned [...] "।

डिंग और वह, हालांकि, यह महत्वपूर्ण योग्यता नहीं बनाते हैं, और इसके अलावा उनके सार में लिखते हैं

यहाँ हम साबित करते हैं कि प्रमुख घटक K- साधन क्लस्टरिंग के लिए असतत क्लस्टर सदस्यता संकेतकों के निरंतर समाधान हैं। समान रूप से, हम दिखाते हैं कि क्लस्टर सेंट्रोइड्स द्वारा फैलाया गया उप-समूह शर्तों पर काटे गए डेटा सहसंयोजक मैट्रिक्स के वर्णक्रमीय विस्तार द्वारा दिया जाता है ।K1

पहला वाक्य बिल्कुल सही है, लेकिन दूसरा नहीं है। यह मेरे लिए स्पष्ट नहीं है कि यह एक (बहुत) मैला लेखन है या वास्तविक गलती है। मैंने बहुत ही विनम्रता से दोनों लेखकों को स्पष्टीकरण के लिए ईमेल किया है। (दो महीने बाद अपडेट करें: मैंने कभी उनसे पीछे नहीं सुना।)


मतलाब सिमुलेशन कोड

figure('Position', [100 100 1200 600])

n = 50;
Sigma = [2 1.8; 1.8 2];

for i=1:4
    means = [0 0; i*2 0];

    rng(42)
    X = [bsxfun(@plus, means(1,:), randn(n,2) * chol(Sigma)); ...
         bsxfun(@plus, means(2,:), randn(n,2) * chol(Sigma))];
    X = bsxfun(@minus, X, mean(X));
    [U,S,V] = svd(X,0);
    [ind, centroids] = kmeans(X,2, 'Replicates', 100);

    subplot(2,4,i)
    scatter(X(:,1), X(:,2), [], [0 0 0])

    subplot(2,4,i+4)
    hold on
    scatter(X(ind==1,1), X(ind==1,2), [], [1 0 0])
    scatter(X(ind==2,1), X(ind==2,2), [], [0 0 1])
    plot([-1 1]*10*V(1,1), [-1 1]*10*V(2,1), 'k', 'LineWidth', 2)
    plot(centroids(1,1), centroids(1,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(1,1), centroids(1,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)
    plot(centroids(2,1), centroids(2,2), 'w+', 'MarkerSize', 15, 'LineWidth', 4)
    plot(centroids(2,1), centroids(2,2), 'k+', 'MarkerSize', 10, 'LineWidth', 2)

    plot([-1 1]*5*V(1,2), [-1 1]*5*V(2,2), 'k--')
end

for i=1:8
    subplot(2,4,i)
    axis([-8 8 -8 8])
    axis square
    set(gca,'xtick',[],'ytick',[])
end    

2
मैं सिर्फ डिंग और वह कागज के अंदर देखा है। प्रमेय 2.2 में वे कहते हैं कि यदि आप कुछ पी-डायमेंशनल डेटा क्लाउड के k-mean (k = 2) के साथ करते हैं और डेटा का PCA (सहसंयोजन के आधार पर) भी करते हैं, तो क्लस्टर A से संबंधित सभी बिंदु नकारात्मक और सभी होंगे PC1 स्कोर पर क्लस्टर बी से संबंधित बिंदु सकारात्मक होंगे। दिलचस्प बयान, - यह सिमुलेशन में परीक्षण किया जाना चाहिए। हालाँकि, समस्या यह है कि यह विश्व स्तर पर इष्टतम K- साधन समाधान मानता है, मुझे लगता है; लेकिन हमें कैसे पता चलेगा कि यदि प्राप्त क्लस्टरिंग इष्टतम थी?
tnnphns

1
@ttnphns, मैंने इस दावे को अधिक स्पष्ट रूप से जांचने के लिए अपने सिमुलेशन और आकृति को अपडेट किया है। यदि पीसी 1 पर अनुमान ए और बी वर्गों के लिए सकारात्मक और नकारात्मक होना चाहिए, तो इसका मतलब है कि पीसी 2 अक्ष उनके बीच एक सीमा के रूप में काम करना चाहिए। यह मेरे 4 खिलौना सिमुलेशन में मामला होने के बहुत करीब है, लेकिन उदाहरण 2 और 3 में पीसी 2 के गलत पक्ष पर कुछ बिंदु हैं। अभिसरण के बारे में, मैंने kmeans100 प्रतिकृति के साथ फ़ंक्शन चलाया : यह हर बार एक अलग यादृच्छिक आरंभीकरण चुनता है और फिर सबसे अच्छा समाधान चुनता है, इसलिए यह उम्मीद करना चाहिए कि वैश्विक इष्टतम प्राप्त हो।
अमीबा का कहना है कि मोनिका

1
@ttnphns: मुझे लगता है कि मुझे पता चल गया है कि क्या हो रहा है, कृपया मेरा अपडेट देखें।
अमीबा का कहना है कि मोनिका

अमीबा, आप सभी के लिए चर्चा किए जा रहे लेख को पचाने और आपके निष्कर्ष (+2) देने के लिए धन्यवाद; और मुझे व्यक्तिगत रूप से बताने के लिए! मैं आपके उत्तर को पढ़ने और जांच करने के लिए एक दो दिनों में उम्मीद के साथ वापस आऊंगा। लेकिन पहले से ही इसकी सराहना कर रहे हैं।
ttnphns

बकाया पद। क्या कोई कारण है कि आपने मतलाब का उपयोग किया और आर का नहीं? सिर्फ इसलिए उत्सुक हूं क्योंकि मैं ML Coursera कोर्स कर रहा हूं और एंड्रयू Ng भी R या Python के विपरीत Matlab का उपयोग करता है। क्या यह एक सामान्य एमएल विकल्प है?
एंटोनी परेला

10

पीसीए और के-साधन अलग-अलग चीजें करते हैं।

पीसीए का उपयोग आयामीता में कमी / सुविधा चयन / प्रतिनिधित्व सीखने के लिए किया जाता है, जैसे कि फ़ीचर स्पेस में बहुत अधिक अप्रासंगिक या निरर्थक विशेषताएं होती हैं। उद्देश्य डेटा की आंतरिक गतिशीलता को खोजना है।

यहां दो आयामी उदाहरण दिए गए हैं जो उच्च आयामी स्थानों के लिए सामान्यीकृत हो सकते हैं। डेटासेट में दो विशेषताएं हैं, और , प्रत्येक वृत्त एक डेटा बिंदु है।xy

यहाँ छवि विवरण दर्ज करें

छवि में में से बड़ा परिमाण है । ये आइगेनवेक्टर हैं। डेटा का आयाम दो आयामों से एक आयाम (इस मामले में बहुत अधिक विकल्प नहीं) में कम हो गया है और यह वेक्टर की दिशा में प्रोजेक्ट करके किया जाता है (एक रोटेशन के बाद जहां अक्षों में से एक के समानांतर या लंबवत हो जाता है) । ऐसा इसलिए है क्योंकि सबसे बड़े विचरण की दिशा में रूढ़िवादी है। इसके बारे में सोचने का एक तरीका, जानकारी का कम से कम नुकसान है। (एक समन्वय अक्ष खो जाने के बाद से अभी भी एक नुकसान है)।v1v2v2v2v2

K- साधन एक क्लस्टरिंग एल्गोरिथ्म है जो डेटा बिंदुओं के प्राकृतिक समूह को उनकी समानता के आधार पर लौटाता है। यह गाऊसी मिश्रण मॉडल का एक विशेष मामला है

नीचे की छवि में डेटासेट के तीन आयाम हैं। यह बाईं ओर 3 डी प्लॉट से देखा जा सकता है कि आयाम को बिना अधिक जानकारी के खो दिया जा सकता है। पीसीए का उपयोग दो आयामों पर डेटा को प्रोजेक्ट करने के लिए किया जाता है। बाईं ओर के आंकड़े में, प्रक्षेपण विमान भी दिखाया गया है। फिर, K- साधनों को विभिन्न समूहों पर लेबल करने के लिए अनुमानित डेटा पर इस्तेमाल किया जा सकता है, दाईं ओर की आकृति में, विभिन्न रंगों के साथ कोडित किया गया है।X

यहाँ छवि विवरण दर्ज करें

पीसीए या अन्य आयामी कमी तकनीकों का उपयोग मशीन सीखने में अप्रचलित या पर्यवेक्षित दोनों तरीकों से पहले किया जाता है। आपके द्वारा उल्लिखित कारणों और मेरे द्वारा ऊपर उल्लिखित कारणों के अलावा, इसका उपयोग विज़ुअलाइज़ेशन उद्देश्यों (उच्च आयामों से 2 डी या 3 डी पर प्रक्षेपण) के लिए भी किया जाता है।

लेख के अनुसार, मेरा मानना ​​है कि कोई संबंध नहीं है, पीसीए के पास डेटा के प्राकृतिक समूहीकरण के बारे में कोई जानकारी नहीं है और पूरे डेटा पर काम करता है, न कि सबसेट (समूह)। यदि कुछ समूहों को एक ईजेनवेक्टर द्वारा समझाया जा सकता है (सिर्फ इसलिए कि विशेष क्लस्टर उस दिशा में फैला हुआ है) सिर्फ एक संयोग है और इसे सामान्य नियम के रूप में नहीं लिया जाना चाहिए।

"PCA का उद्देश्य T सुविधाओं को संपीड़ित करना है जबकि क्लस्टरिंग का लक्ष्य N डेटा-पॉइंट्स को संपीड़ित करना है।"

दरअसल, पीसीए के बारे में सोचने के लिए संपीड़न एक सहज तरीका है। हालाँकि, K- साधनों में, यह आपके लिए क्लस्टर के सापेक्ष प्रत्येक बिंदु का वर्णन करने के लिए आपको अभी भी कम से कम समान जानकारी (उदाहरण के आयाम) , जहां दूरी और संग्रहीत है इसके बजाय । और आपको यह जानने के लिए को भी संग्रहीत करना होगा कि डेल्टा किसके सापेक्ष है। आप निश्चित रूप से स्टोर कर सकते हैं और हालांकि आप डेटा में वास्तविक जानकारी को पुनः प्राप्त करने में असमर्थ होंगे।xi=d(μi,δi)dδixiμidi

क्लस्टरिंग वास्तव में जानकारी जोड़ता है। मुझे लगता है कि यह प्राकृतिक समूहों में डेटा को विभाजित करने के रूप में है (यह जरूरी नहीं कि असंतुष्ट हो) यह जानने के बिना कि प्रत्येक समूह के लिए लेबल का क्या मतलब है (ठीक है, जब तक आप समूहों के भीतर डेटा को नहीं देखते हैं)।


3
जिस तरह से आपके पीसी को प्लॉट में लेबल किया गया है वह पाठ में असंगत w / इसी चर्चा है। ध्यान दें कि, हालाँकि PCA आमतौर पर कॉलमों पर लागू होता है, और पंक्तियों के लिए k- साधन, दोनों को भी लागू किया जा सकता है। मैंने कागज नहीं पढ़ा है, लेकिन मुझे यकीन है कि वे किस बारे में बात कर रहे हैं।
गुंग - फिर से बहाल करें मोनिका

क्षमा करें, मेरा मतलब शीर्ष आंकड़ा: अर्थात, पीसी के लिए v1 और वी 2 लेबल।
गुंग - फिर से बहाल करें मोनिका

अच्छा बिंदु, डेटा बिंदुओं के समूहों को संपीड़ित करने के लिए यह उपयोगी हो सकता है (क्या पता लगा सकता है)। K- साधनों का उपयोग करने वाले समूह का पता लगाएं, pca का उपयोग करके रिकॉर्ड को कम से कम करें। सुविधाओं के समूहीकरण के रूप में, यह वास्तव में उपयोगी हो सकता है।
शूरिकेन x नीला

2
तो क्या आप अनिवार्य रूप से कह रहे हैं कि पेपर गलत है? यह स्पष्ट रूप से बताता है (सार में 3 और 4 वाक्यों को देखें) और गणितीय रूप से यह साबित करने का दावा करता है कि एक विशिष्ट कनेक्शन है, जबकि आप कहते हैं कि कोई संबंध नहीं है।
अमीबा का कहना है कि मोनिका

मुझे इससे क्या मिला: पीसीए K- साधन क्लस्टरिंग समाधान में सुधार करता है। कनेक्शन यह है कि क्लस्टर संरचना पहले K - 1 मुख्य घटकों में एम्बेडेड है। यही योगदान है।
शूरिकेन x नीला

7

K- साधनों का उपयोग करने से पहले डेटा को सफेद करना आम है। कारण यह है कि k- साधन पैमाने के प्रति बेहद संवेदनशील है, और जब आपके पास मिश्रित विशेषताएँ होती हैं तो अब कोई "सत्य" पैमाना नहीं है। फिर आपको अपना डेटा सामान्य करना, मानकीकृत करना या सफेद करना होगा। कोई भी सही नहीं है, लेकिन श्वेतकरण वैश्विक सहसंबंध को हटा देगा जो कभी-कभी बेहतर परिणाम दे सकता है । पीसीए / जब से आप कोवरियन मैट्रिक्स पर काम करते हैं।O(nd2+d3)

मेरी समझ से, पीसीए के-साधन का संबंध मूल डेटा पर नहीं है । यह दूरी मैट्रिक्स पर पीसीए का उपयोग करना है (जिसमें प्रविष्टियां हैं, और पूर्ण PCA इस प्रकार - अर्थात विशेष रूप से k- साधनों की तुलना में अत्यधिक महंगा है, जो है जहां केवल एक बड़ा शब्द है), और शायद केवल । K- साधन एक न्यूनतम वर्ग अनुकूलन समस्या है, इसलिए पीसीए है। k- साधन डेटा के सबसे कम-वर्ग विभाजन को खोजने की कोशिश करता है। पीसीए सबसे कम-वर्ग क्लस्टर सदस्यता वेक्टर पाता है। हे ( एन 2+ एन 3 ) हे ( कश्मीर n मैं ) n कश्मीर = 2n2O(n2d+n3)O(knid)nk=2

पहले Eigenvector का सबसे बड़ा संस्करण है, इसलिए इस वेक्टर पर विभाजन (जो क्लस्टर सदस्यता जैसा दिखता है, डेटा डेटा निर्देशांक नहीं!) का अर्थ क्लस्टर संस्करण के बीच अधिकतम होना है । क्लस्टर विचरण के बीच अधिकतम करके, आप भी क्लस्टर विचरण को कम करते हैं।

लेकिन वास्तविक समस्याओं के लिए, यह बेकार है। यह केवल सैद्धांतिक हित है।


2
यह डिंग और हे पेपर (जो ओपी से जुड़ा हुआ है) के कुछ और अधिक विशिष्ट विवरण / अवलोकन देखने के लिए बहुत अच्छा होगा। मैं खुद इससे (अभी तक) परिचित नहीं हूं, लेकिन यह काफी उत्सुक होने के लिए पर्याप्त बार उल्लेख किया है।
अमीबा का कहना है कि मोनिका

3
तुम्हारा मतलब है यह ? हाँ, मैं इसके पार भी आया हूँ; मुझे लगता है कि यह केवल मेरे भ्रम में जोड़ता है। मैं उम्मीद कर रहा था कि यह वह धागा होगा जो इसे मेरे लिए स्पष्ट कर सकता है ... अब जब मैं इसके बारे में सोचता हूं, तो शायद मुझे इस पर ध्यान देना चाहिए। मुझे नहीं लगता कि मेरे पास इस विषय का अध्ययन करने के लिए अगले दिनों में समय होगा।
अमीबा का कहना है कि मोनिका

3
यह विकी पैराग्राफ बहुत अजीब है। यह कहता है कि डिंग और वह (2001/2004) दोनों गलत थे और एक नया परिणाम नहीं था! यह प्रदर्शित करने के लिए कि यह नया नहीं था यह 2004 के पेपर (!) का हवाला देता है। यह दिखाने के लिए कि यह गलत था कि यह 2014 के एक नए पेपर का हवाला देता है जो डिंग एंड हे का हवाला नहीं देता है। मछली।
अमीबा का कहना है कि मोनिका

3
शायद प्रशस्ति पत्र फिर से। विकिपीडिया आत्म-प्रचार से भरा है।
ऐनी-मूस

1
मुझे लगता है कि मुझे पता चला कि डिंग एंड हे में क्या हो रहा है, कृपया मेरा उत्तर देखें। इसके अलावा, एल्गोरिथम जटिलता के बारे में अपने तर्क नहीं पूरी तरह से सही है, क्योंकि आप का पूरा आइजन्वेक्टर अपघटन तुलना केवल निकालने के साथ मैट्रिक्स कश्मीर साधन "घटक"। यह उचित तुलना नहीं है। यदि आप पीसीए के लिए कुछ पुनरावृत्त एल्गोरिथ्म का उपयोग करते हैं और केवल घटकों को निकालते हैं, तो मैं उम्मीद करता हूं कि यह K- साधनों के रूप में तेजी से काम करेगा। इसलिए मुझे यकीन नहीं है कि यह कहना सही है कि यह वास्तविक समस्याओं और केवल सैद्धांतिक हित के लिए बेकार है। k kn×nkk
अमीबा का कहना है कि मोनिका

4

अपने O (k / epsilon) निम्न-श्रेणी सन्निकटन (अर्थात, PCA के रूप में पहले सबसे बड़े एकवचन वैक्टर के फैलाव पर) को हल करते हुए गुणक त्रुटि की अवधि में एक (1 + एप्सिलॉन) सन्निकटन प्राप्त करेंगे।

विशेष रूप से, k- सबसे बड़े वेक्टर पर प्रोजेक्ट करने से 2-सन्निकटन होगा।

वास्तव में, k के किसी भी सेट के लिए वर्ग दूरी का योग इस प्रक्षेपण द्वारा अनुमानित किया जा सकता है। फिर हम पॉली (k / eps) बिंदुओं पर इनपुट को कम करने के लिए कम डेटा पर कोरसेट की गणना कर सकते हैं जो इस राशि का अनुमान लगाता है।

देखें: डैन फेल्डमैन, मेलानी श्मिट, क्रिश्चियन सोहलर: बड़े डेटा को छोटे डेटा में बदलना: के-मीन्स, पीसीए और प्रोजेक्टिव क्लस्टरिंग के लिए लगातार आकार के कोरसेट। सोडा 2013: 1434-1453


3

PCA और KMeans का सहज संबंध

  1. सैद्धांतिक रूप से PCA आयामी विश्लेषण (पहले K आयाम को बनाए रखने का कहना है कि 90% विचरण ... K Means क्लस्टर के साथ सीधा संबंध रखने की आवश्यकता नहीं है), हालांकि PCA का उपयोग करने का मूल्य व्यावहारिक रूप से माना जाता है) वस्तुओं की प्रकृति को देखते हुए हम विश्लेषण करते हैं कि उनके प्रमुख घटकों (आयु, लिंग ..) b) से स्वाभाविक रूप से क्लस्टर (चारों ओर का एक निश्चित खंड) विकसित होता है, PCA उन निम्न विचरण आयाम (शोर) को समाप्त करता है, इसलिए स्वयं मूल्य जोड़ता है (और क्लस्टरिंग के समान एक भाव बनाता है) ) उन प्रमुख आयामों पर ध्यान केंद्रित करके, सरल शब्दों में, यह XY अक्ष की तरह है जो हमें किसी भी गणितीय अवधारणा को और अधिक अग्रिम तरीके से समझने में मदद करता है।

  2. K साधन किसी दिए गए K के लिए क्लस्टर के भीतर कुल दूरी को कम करने का प्रयास करते हैं

  3. N आयाम पैरामीटर वाली वस्तुओं के एक सेट के लिए, डिफ़ॉल्ट रूप से समान ऑब्जेक्ट्स में कुछ प्रमुख अंतर (जैसे युवा आईटी छात्रों, युवा नर्तकियों, मनुष्यों का एक समूह) को छोड़कर "समान" MOST पैरामीटर होगा ... कुछ समान विशेषताएं (कम भिन्नता) होंगी लेकिन कुछ प्रमुख विशेषताएं अभी भी काफी विविध हैं और उन "प्रमुख प्रिंसिपल कंपोनेंट्स" को कैप्चर करना आवश्यक रूप से बहुसंख्यक भिन्नता, जैसे रंग, निवास का क्षेत्र पर कब्जा करना है .... इसलिए कम विकृति अगर हम मामूली अंतर या रूपांतरण की उन विशेषताओं की उपेक्षा करते हैं। कम पीसी ज्यादा जानकारी नुकसान नहीं होगा
  4. इस प्रकार यह "बहुत संभावना" और "बहुत स्वाभाविक" है कि अंतर (भिन्नता) को देखने के लिए उन्हें एक साथ समूहीकृत करना मूल्यांकन के लिए समझ में आता है (उदाहरण के लिए। यदि आप मुख्य सड़क में एक सप्ताह में 1,000 सर्वेक्षण करते हैं, तो उन्हें जातीय आधार पर क्लस्टर करना है। , आयु, या शैक्षिक पृष्ठभूमि पीसी के रूप में समझ में आता है) के मीन्स मिशन के तहत, हम कश्मीर की एक उचित संख्या स्थापित करने की कोशिश करते हैं ताकि उन समूह तत्वों (एक क्लस्टर में) में सेंट्रोइड और लागत के बीच समग्र छोटी दूरी (न्यूनतम) हो जाए। K क्लस्टर को स्थापित करने और चलाने के लिए इष्टतम है (एक क्लस्टर के रूप में प्रत्येक सदस्य समझ में नहीं आता है क्योंकि इसे बनाए रखना और कोई मूल्य नहीं है)
  5. K का मतलब है समूहन आसानी से "नेत्रहीन निरीक्षण" हो सकता है कि इष्टतम हो, अगर ऐसा K प्रिंसिपल कंपोनेंट्स के साथ है (जैसे। यदि विभिन्न आयु, जातीय / रीजेंट क्लस्टर के लोगों के लिए वे समान राय व्यक्त करते हैं तो यदि आप उन सर्वेक्षणों को आधार बनाते हैं। उन पीसी, फिर उस लक्ष्यीकरण लक्ष्य को प्राप्त करें (रेफरी। 1) इसके अलावा उन पीसी (जातीय, आयु, धर्म ..) अक्सर ऑर्थोगोनल होते हैं, इसलिए पीसीए को देखकर अलग-अलग होते हैं।
  6. हालाँकि यह सहज कटौती पर्याप्त नहीं, बल्कि एक आवश्यक शर्त है। (संदर्भ 2: हालाँकि, कि पीसीए k- साधन का एक उपयोगी विश्राम है क्लस्टरिंग एक नया परिणाम नहीं था (देखें, उदाहरण के लिए, [३५]), और यह कथन के लिए काउंटरटेक्म्पल को उजागर करने के लिए सीधा है कि क्लस्टर सेंट्रोइड स्पेस का उपयोग किया जाता है प्रमुख दिशा-निर्देशों द्वारा। [36])

सीपी पर या उसके आधार पर क्लस्टर चुनने से आराम से आवंटन व्यवस्था हो सकती है

यह एक उदाहरण हो सकता है यदि x एक्स अक्ष के साथ पहला पीसी है: (........... CC1 ............... CC2 ..... ....... CC3 X अक्ष) जहां X अक्ष कहता है कि विचरण के 9X% से अधिक पर कब्जा है और कहते हैं कि एकमात्र पीसी है

6. आमतौर पर पीसीए का उपयोग K के साधन होने के बाद कल्पना करने के लिए भी किया जाता है (Ref 4)

यदि PCA हमारे K क्लस्टरिंग परिणाम को ऑर्थोगोनल या उसके करीब प्रदर्शित करता है, तो यह संकेत है कि हमारी क्लस्टरिंग ध्वनि है, जिसमें से प्रत्येक अद्वितीय विशेषताओं को प्रदर्शित करता है

(* क्योंकि परिभाषा के अनुसार पीसीए उन प्रमुख आयामों (1 डी से 3 डी) को प्रदर्शित / प्रदर्शित करता है) जैसे कि के (पीसीए) बहुसंख्यक विचरण पर कब्जा करेगा।

तो पीसीए एक अच्छा क्लस्टरिंग की कल्पना और पुष्टि दोनों में उपयोगी है, साथ ही के मीन्स क्लस्टरिंग को निर्धारित करने के लिए आंतरिक रूप से उपयोगी तत्व - के मीन्स के बाद से पहले उपयोग किया जाना है।

संदर्भ:

  1. https://msdn.microsoft.com/en-us/library/azure/dn905944.aspx
  2. https://en.wikipedia.org/wiki/Principal_component_analysis
  3. क्लिनिंग यूजिंग प्रिन्सीपल कम्पोनेंट एनालिसिस: पूरी तरह से स्वचालित वाहन-वितरण (संयोजन और अज़ीमा) का आवेदन
  4. http://cs229.stanford.edu/notes/cs229-notes10.pdf एंड्रयू एनजी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.