यदि k- साधन क्लस्टरिंग गाऊसी मिश्रण मॉडलिंग का एक रूप है, तो क्या इसका उपयोग तब किया जा सकता है जब डेटा सामान्य न हो?


21

मैं GMM के लिए EM एल्गोरिथ्म और GMM और k- साधनों के बीच संबंध पर बिशप पढ़ रहा हूं।

इस पुस्तक में यह कहा गया है कि k- साधन GMM का एक कठिन संस्करण है। मैं सोच रहा हूँ कि इसका मतलब यह है कि अगर मैं जिस डेटा को क्लस्टर करने की कोशिश कर रहा हूं वह गाऊसी नहीं है, मैं k- साधनों का उपयोग नहीं कर सकता (या कम से कम यह उपयोग करने के लिए उपयुक्त नहीं है)? उदाहरण के लिए, क्या होगा यदि डेटा हस्तलिखित अंकों की छवियां हैं, जिसमें मूल्य 0 या 1 के साथ 8 * 8 पिक्सेल होते हैं (और मान लें कि वे स्वतंत्र हैं इस प्रकार यह बर्नौली का मिश्रण होना चाहिए)?

मैं इस पर थोड़ा भ्रमित हूं और किसी भी विचार की सराहना करूंगा।


2
यदि आप पूछ रहे हैं कि क्या गैर-सामान्य डेटा पर k-mean clustering प्रदर्शन करना मान्य है, तो इसका उत्तर हां है यदि डेटा को निरंतर माना जाता है। बाइनरी डेटा निरंतर नहीं है। कुछ लोग ऐसे डेटा पर के-साधन करते हैं, जो कि वस्तुगत रूप से स्वीकार्य है, लेकिन सैद्धांतिक रूप से अमान्य है।
ttnphns

K- साधनों के लिए कोई प्रायिकता मॉडल नहीं है इसलिए अमान्य करने के लिए कोई सामान्य धारणा नहीं है। (मतलब यह नहीं है यह अच्छी तरह से हालांकि काम करेंगे)
conjectures

1
@conjectures हम्म ... लेकिन k-menas GMM के बराबर है, और GMM सामान्य मानता है।
ed.ie.xie

@ttnphns आपके उत्तर के लिए धन्यवाद! इसलिए मुझे लगता है कि अगर मैं टीएफ-आईडीएफ का उपयोग पाठ को स्कोर में स्थानांतरित करने और इसे निरंतर बनाने के लिए करता हूं तो मैं आवेदन कर सकता हूं और यह वैध है?
edi.xie

मुझे अचानक एहसास हुआ कि जीएमएम कुछ गॉसियंस का मिश्रण (राशि) है और यह पर्याप्त मिश्रण दिए गए वितरण को व्यक्त करने में सक्षम होना चाहिए। इस प्रकार, यहां तक ​​कि GMM और K- साधन समतुल्य हैं का मतलब K- साधन गैर-सामान्य डेटा का उपयोग नहीं कर सकते क्योंकि GMM जो भी वितरण को व्यक्त कर सकता है। क्या वो सही है?
ed.ie.xie

जवाबों:


20

आम ईएम जीएमएम स्थितियों में, एक विचरण और कोवरियन को ध्यान में रखता है। यह k- साधनों में नहीं किया जाता है।

लेकिन वास्तव में, k- साधन (ध्यान दें: k- साधन एक समस्या है, एल्गोरिथ्म नहीं) के लिए लोकप्रिय उत्तराधिकार में से एक - लॉयड एल्गोरिथ्म - अनिवार्य रूप से एक EM एल्गोरिथ्म, एक केन्द्रक मॉडल (विचरण के बिना) और कठिन कार्य का उपयोग कर रहा है।

K- साधन शैली क्लस्टरिंग (यानी विचरण न्यूनतम) करते समय, आप

  • संयोग से चुकता यूक्लिडियन दूरी को कम करें, क्योंकि WCSS (चौकों के क्लस्टर योग) विचरण योगदान = वर्गीय यूक्लिडियन दूरी
  • संयोग से यूक्लिडियन दूरी द्वारा निकटतम क्लस्टर में वस्तुओं को असाइन करें, क्योंकि sqrt फ़ंक्शन मोनोटोन है (ध्यान दें कि इसका मतलब यूक्लिडियन दूरी को अनुकूलित नहीं करता है , लेकिन WCSS फ़ंक्शन)
  • केवल एक केन्द्रक का उपयोग करके समूहों का प्रतिनिधित्व करें
  • वोरोनोई सेल के आकार के क्लस्टर, यानी बहुभुज प्राप्त करें
  • यह गोलाकार समूहों के साथ सबसे अच्छा काम करता है

K- ऑब्जेक्टिव फंक्शन को इस रूप में औपचारिक रूप दिया जा सकता है: जहाँ विभाजन में सेट किए गए डेटा के सभी संभावित विभाजन होते हैं , डेटा सेट , और जैसे आयाम में th उदाहरण का समन्वय है ।

argminSi=1kxjSid=1D(xjdμid)2
S={S1Sk}kDxjdjd

आमतौर पर कहा जाता है कि k- का मतलब गोलाकार गुच्छों से है। यह भी आमतौर पर स्वीकार किया जाता है कि k- साधन क्लस्टर वोरोनोई कोशिकाएं हैं, यानी गोलाकार नहीं। दोनों सही हैं, और दोनों गलत हैं। सबसे पहले, क्लस्टर पूरी तरह से वोरोनोई कोशिकाएं नहीं हैं, लेकिन केवल ज्ञात वस्तुएं हैं। क्लस्टर के बीच में मृत स्थान को किसी क्लस्टर का हिस्सा मानने की कोई आवश्यकता नहीं है, क्योंकि एक वस्तु होने से एल्गोरिदम परिणाम प्रभावित होगा। लेकिन इसे "गोलाकार" कहना ज्यादा बेहतर नहीं है, सिर्फ इसलिए कि यूक्लिडियन दूरी गोलाकार है। K- साधन यूक्लिडियन दूरी के बारे में परवाह नहीं करता है। यह सब है, विभिन्नताओं को कम करने के लिए एक अनुमान है । और यह वास्तव में है, जिसे आपको k- साधनों पर विचार करना चाहिए: विचरण न्यूनतम।


मुझे सुझाव है कि आप अपनी कुछ अभिव्यक्तियों को परिष्कृत कर सकते हैं - अधिक सटीकता के लिए। उदाहरण के लिए, क्या है minimize squared euclidean distanceया minimize the variances? वहाँ शब्द "योग" या "जमा" या ऐसा होना चाहिए, क्योंकि हमारे पास 2+ क्लस्टर हैं, है ना?
ttnphns

बीटीडब्लू, चूँकि k- का अर्थ है कि संबंधित ^ क्लस्टर में वस्तुओं की संख्या से विभाजित d ^ 2 के क्लस्टर-योग के भीतर , आपकी बात coincidentally minimize Euclidean distance, because the sqrt function is monotoneसटीक है, सही नहीं है।
ttnphns

उचित उद्देश्य फ़ंक्शन, जिसके लिए आप अभिसरण साबित कर सकते हैं, डब्ल्यूसीएसएस है, क्लस्टर-सम-वर्ग के भीतर । और वास्तव में, यह यूक्लिडियन दूरी को कम नहीं करता है, लेकिन यह निकटतम-सेंटी-बाय-यूक्लिडियन दूरी भी डब्ल्यूसीएसएस इष्टतम असाइनमेंट है।
ऐनी-मूस -Reateate Monica

आपका शब्दों दुर्भाग्य से बनी हुई है संदिग्ध । वाक्यांश का क्या minimize squared Euclidean distance, because WCSS variance contribution = squared euclidean distance अर्थ है ? आप कह रहे हैं "वर्ग डी एस के बीच वस्तुओं समूहों में कम से कम हो, क्योंकि विचलन का WCSS को कम से कम करने के", या सिर्फ "विचलन का WCSS को कम से कम करने के लिए, जो - - विचलन कर रहे हैं स्वभाव से यूक्लिडियन दूरी"? या फिर स्मथ?
ttnphns

1
जाहिर है, k- साधन केवल एक अच्छा विकल्प है यदि आप अपने डेटा का एक केन्द्रक मॉडल चाहते हैं। यदि आप जोड़ीदार दूरी को अनुकूलित करना चाहते हैं, तो पदानुक्रमित क्लस्टरिंग का उपयोग करें।
ऐनी-मूस -Reateate मोनिका

8

जीएमएम ओवरलैपिंग पहाड़ियों का उपयोग करता है जो अनंत तक फैलते हैं (लेकिन व्यावहारिक रूप से केवल 3 सिग्मा के लिए गणना)। प्रत्येक बिंदु को सभी पहाड़ियों की संभावना स्कोर मिलते हैं। इसके अलावा, पहाड़ियों को "अंडे के आकार का" [ठीक है, वे सममित रूप से ग्रहण करते हैं ] और, पूर्ण सहसंयोजक मैट्रिक्स का उपयोग करते हुए, झुका जा सकता है ।

कश्मीर का मतलब कड़ी मेहनत से प्रदान करती है एक करने के लिए एक बिंदु एक क्लस्टर है, तो अन्य क्लस्टर केन्द्रों के स्कोर पर ध्यान नहीं दिया हो (परोक्ष / शून्य पर रीसेट कर रहे हैं परवाह नहीं है)। पहाड़ियाँ गोलाकार साबुन के बुलबुले हैं। जहाँ दो साबुन के बुलबुले स्पर्श करते हैं, उनके बीच की सीमा समतल (हाइपर) प्लेन बन जाती है। जिस तरह जब आप कई साबुन के बुलबुले के झाग को उड़ाते हैं, तो अंदर के बुलबुले सपाट नहीं होते हैं, बल्कि पेटी होते हैं, इसलिए कई (हाइपर-) क्षेत्रों के बीच की सीमा वास्तव में अंतरिक्ष के वोरोनोई विभाजन का निर्माण करती है। 2 डी में, यह हेक्सागोनल क्लोज-पैकिंग की तरह अस्पष्ट दिखता है, एक मधुमक्खी का छत्ता लगता है (हालांकि वोरोनोई कोशिकाओं को हेक्सागोन होने की गारंटी नहीं है)। K- साधन पहाड़ी गोल है और झुका हुआ नहीं है, इसलिए इसमें प्रतिनिधित्व शक्ति कम है; लेकिन यह गणना करने के लिए बहुत तेज है, विशेष रूप से उच्च आयामों में।

क्योंकि K- साधन यूक्लिडियन दूरी मीट्रिक का उपयोग करता है, यह मानता है कि आयाम तुलनीय हैं और समान वजन के हैं। इसलिए यदि आयाम X में प्रति घंटे मील की इकाइयाँ होती हैं, तो 0 से 80 तक बदलती हैं, और आयाम Y में पाउंड की इकाइयाँ होती हैं, 0 से 400 तक बदलती हैं, और आप इस XY स्थान में मंडलियों को फिट कर रहे हैं, फिर एक आयाम (और इसका प्रसार) अन्य आयामों की तुलना में अधिक शक्तिशाली होने जा रहा है और परिणामों की निगरानी करेगा। यही कारण है कि K- साधन लेते समय डेटा को सामान्य करने के लिए यह प्रथागत है।

दोनों जीएमएम और कश्मीर साधन मॉडल क्या दिया है करने के लिए सबसे अच्छा अनुमान ढाले से डेटा। GMM झुके हुए अंडे, और K- साधन फिट बैठता है जब तक कि गोलाकार न हो। लेकिन अंतर्निहित डेटा को कुछ भी आकार दिया जा सकता है, यह एक सर्पिल या पिकासो पेंटिंग हो सकता है, और प्रत्येक एल्गोरिथ्म अभी भी चलेगा, और अपना सर्वश्रेष्ठ शॉट लेगा। क्या परिणामी मॉडल कुछ भी दिखता है जैसे वास्तविक डेटा डेटा बनाने वाली अंतर्निहित भौतिक प्रक्रिया पर निर्भर करता है। (उदाहरण के लिए, समय की देरी के माप एकतरफा हैं; एक गाऊसी एक अच्छा फिट है? शायद।)

Rn

इस प्रकार आपकी 8x8 द्विआधारी छवि को पहले हाइपरक्वाड्रेंट में 64-आयामी हाइपरक्यूब के रूप में माना जा रहा है। एल्गोरिदम तब क्लस्टर खोजने के लिए ज्यामितीय उपमाओं का उपयोग करता है। K- साधनों के साथ दूरी, 64-आयामी अंतरिक्ष में यूक्लिडियन दूरी के रूप में दिखाई देती है। इसे करने का एक तरीका है।


ध्यान दें कि दोनों एल्गोरिदम भी स्पष्ट रूप से मानते हैं कि अंतरिक्ष कुल्हाड़ियां सभी बिंदुओं पर समान रूप से घनी हैं, इसलिए घातांक, लघुगणक, या साइनसोइडॉली-बदलती डेटा आमतौर पर डेटा को लगभग-रैखिक-अलग-अलग डोमेन में बदलने के लिए पूर्व-परिवर्तन से लाभान्वित होते हैं।
ड्रैगनलॉर्ड
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.