क्लस्टरिंग - क्लेनबर्ग की असंभवता प्रमेय के पीछे अंतर्ज्ञान


17

मैं क्लेनबर्ग (2002) द्वारा इस दिलचस्प विश्लेषण पर एक ब्लॉग पोस्ट लिखने के बारे में सोच रहा हूं जो क्लस्टरिंग की कठिनाई की पड़ताल करता है। क्लेनबर्ग एक क्लस्टरिंग फंक्शन के लिए तीन प्रतीत होता है सहज डेसिडरटा की रूपरेखा तैयार करता है और फिर साबित करता है कि ऐसा कोई फ़ंक्शन मौजूद नहीं है। कई क्लस्टरिंग एल्गोरिदम हैं जो तीन मानदंडों में से दो को संतृप्त करते हैं; हालाँकि, कोई भी फ़ंक्शन तीनों को एक साथ संतुष्ट नहीं कर सकता है।

संक्षेप में और अनौपचारिक रूप से, वे तीन डेजिडेराटा हैं जो उनकी रूपरेखा हैं:

  • स्केल-इनवेरियन : यदि हम डेटा को बदलते हैं ताकि सब कुछ सभी दिशाओं में समान रूप से फैला हो, तो क्लस्टरिंग परिणाम नहीं बदलना चाहिए।
  • संगति : यदि हम डेटा को बढ़ाते हैं ताकि समूहों के बीच की दूरी बढ़े और / या समूहों के भीतर की दूरी कम हो, तो क्लस्टरिंग परिणाम नहीं बदलना चाहिए।
  • समृद्धि : क्लस्टरिंग फ़ंक्शन सैद्धांतिक रूप से किसी भी मनमाने ढंग से विभाजन / डेटापॉइंट के क्लस्टरिंग का उत्पादन करने में सक्षम होना चाहिए (किसी भी दो बिंदुओं के बीच युग्मक दूरी को जानने की अनुपस्थिति में)

प्रशन:

(1) क्या कोई अच्छा अंतर्ज्ञान, ज्यामितीय चित्र है जो इन तीन मानदंडों के बीच असंगति दिखा सकता है?

(2) यह कागज के लिए तकनीकी विवरण को संदर्भित करता है। प्रश्न के इस भाग को समझने के लिए आपको ऊपर दिए गए लिंक को पढ़ना होगा।

कागज में, प्रमेय ३.१ का प्रमाण मेरे लिए बिंदुओं पर चलना थोड़ा कठिन है। मैं कम से अटक कर रहा हूँ: "चलो f । एक क्लस्टरिंग समारोह हो कि संतुष्ट संगति हम दावा करते हैं कि किसी भी विभाजन के लिए ΓRange(f) , वहाँ सकारात्मक वास्तविक संख्या मौजूद a<b ऐसी है कि जोड़ी (a,b) है Γ - जबरदस्ती।"

मैं यह नहीं देख सकता कि यह कैसे हो सकता है ... क्या एक काउंटर-उदाहरण के नीचे विभाजन नहीं है जहाँ a>b (यानी क्लस्टर के बीच न्यूनतम दूरी क्लस्टर के भीतर अधिकतम दूरी से अधिक है)?

counterexample?

संपादित करें: यह स्पष्ट रूप से प्रतिवाद नहीं है, मैं खुद को भ्रमित कर रहा था (उत्तर देखें)।


अन्य कागजात:


"स्थिरता" के संबंध में: यह विशेषता सहज रूप से वांछित है जब क्लस्टर पहले से ही अच्छी तरह से अलग हो जाते हैं। जब वे नहीं होते हैं, तो डेटा में क्लस्टर की संख्या पर एक समस्या होती है - विश्लेषण के लिए, चूंकि यह अनसुलझा है, इसलिए यह एक सवाल है। फिर यह अपेक्षा करना काफी सामान्य है कि जैसे-जैसे आप धीरे-धीरे क्लस्टर के बीच की दूरी को जोड़ते हैं (जैसा कि वे आपके द्वारा उत्पन्न किए गए थे) विश्लेषण क्लस्टरिंग प्रक्रिया के दौरान किए जाने वाले असाइनमेंट को बदल देता है।
ttnphns 8

"समृद्धि" के संबंध में: मुझे खेद है कि मुझे समझ में नहीं आया कि इसका क्या मतलब है (कम से कम जैसा आपने इसे रखा है)। क्लस्टरिंग एल्गोरिदम कई हैं, आप कैसे उम्मीद कर सकते हैं कि वे सभी कुछ विशेष फैंसी आवश्यकता का पालन करते हैं?
ttnphns

अपनी तस्वीर के संबंध में: ऐसे पैटर्न को पहचानने के लिए विशेष क्लस्टरिंग विधियों की आवश्यकता होती है। जीव विज्ञान और समाजशास्त्र से पारंपरिक / मूल क्लस्टरिंग विधियां उपजी हैं, जहां क्लस्टर अधिक या कम गोलाकार घने "द्वीप" हैं, एटोल रिंग नहीं। ये विधियाँ चित्र पर डेटा के साथ सामना करने की माँग नहीं कर सकती हैं।
ttnphns

आप में भी रुचि हो सकती है: एस्टिविल-कास्त्रो, व्लादिमीर। "इतने सारे क्लस्टरिंग एल्गोरिदम क्यों: एक स्थिति पेपर।" ACM SIGKDD खोज समाचार पत्र 4.1 (2002): 65-75।
क्विट है - Anony-Mousse

मैंने पेपर नहीं पढ़ा है। लेकिन कई क्लस्टरिंग एल्गोरिदम में आपके पास कुछ दूरी सीमा (जैसे डीबीएससीएन, पदानुक्रमित क्लस्टरिंग) है। यदि आप दूरियों को मापते हैं, तो आपको अपने हिसाब से अपनी सीमा भी तय करनी होगी। इस प्रकार, मैं उसके पैमाने-अपरिवर्तनीय आवश्यकता से असहमत हूं। मैं अमीरी से भी असहमत हूं। प्रत्येक विभाजन हर एल्गोरिथ्म के लिए एक वैध समाधान नहीं होना चाहिए। लाखों यादृच्छिक विभाजन हैं।
क्विट है - Anony-Mousse

जवाबों:


11

एक तरह से या किसी अन्य, प्रत्येक क्लस्टरिंग एल्गोरिदम बिंदुओं के "निकटता" की कुछ धारणा पर निर्भर करता है। यह सहज रूप से स्पष्ट लगता है कि आप या तो एक रिश्तेदार (स्केल-इनवेरिएंट) धारणा या निकटता की एक पूर्ण (सुसंगत) धारणा का उपयोग कर सकते हैं, लेकिन दोनों नहीं

मैं पहले इसे एक उदाहरण के साथ समझाने की कोशिश करूंगा, और फिर यह कहना चाहूंगा कि यह अंतर्ज्ञान क्लेनबर्ग के प्रमेय के साथ कैसे फिट बैठता है।

एक उदाहरण है

मान लीजिए हमारे पास दो सेट और एस 2 के 270 अंक है, इस तरह विमान में व्यवस्थित:एस1एस2270

270 अंक के दो सेट

आप इन चित्रों में से किसी में अंक नहीं देख सकते हैं , लेकिन ऐसा सिर्फ इसलिए है क्योंकि बहुत से बिंदु एक साथ बहुत करीब हैं। जब हम ज़ूम इन करते हैं तो हम और अधिक अंक देखते हैं:270

ज़ूम के साथ 1 सेट करें

आप शायद स्पोंटेन्युलसी सहमत होंगे कि दोनों डेटा सेट में, अंक तीन समूहों में व्यवस्थित होते हैं। हालाँकि, यह पता चला है कि यदि आप के तीन समूहों में से किसी पर भी ज़ूम इन करते हैं, तो आप निम्नलिखित देखते हैं:एस2

ज़ूम के साथ 2 सेट करें

यदि आप निकटता की पूर्ण धारणा में विश्वास करते हैं, या निरंतरता में, आप अभी भी बनाए रखेंगे, भले ही आपने माइक्रोस्कोप के तहत जो कुछ भी देखा हो, में केवल तीन क्लस्टर होते हैं। वास्तव में, एस 1 और एस 2 के बीच एकमात्र अंतर यह है कि प्रत्येक क्लस्टर के भीतर, कुछ बिंदु अब एक साथ करीब हैं। यदि, दूसरी ओर, आप निकटता के सापेक्ष धारणा में विश्वास करते हैं, या बड़े पैमाने पर आक्रमण में, तो आप यह तर्क देना चाहेंगे कि S 2 में 3 नहीं बल्कि 3 × 3 = 9 क्लस्टर हैं। इनमें से कोई भी दृष्टिकोण गलत नहीं है, लेकिन आपको एक तरह से चुनाव करना होगा या दूसरे को।एस2एस1एस2एस233×3=9

आइसोमेट्री इनविरियन के लिए एक मामला

यदि आप क्लेनबर्ग के प्रमेय के साथ उपर्युक्त अंतर्ज्ञान की तुलना करते हैं, तो आप पाएंगे कि वे थोड़ी सी बाधाओं पर हैं। दरअसल, क्लेनबर्ग का प्रमेय यह कहता प्रतीत होता है कि जब तक आप अमीरी नामक तीसरी संपत्ति की परवाह नहीं करते, तब तक आप एक साथ पैमाने और निरंतरता प्राप्त कर सकते हैं। हालांकि, समृद्धि केवल एक ही संपत्ति नहीं है जिसे आप खो देते हैं यदि आप एक साथ पैमाने पर आक्रमण और स्थिरता पर जोर देते हैं। आप एक और, अधिक मौलिक संपत्ति भी खो देते हैं: आइसोमेट्री-इनवेरियन। यह एक ऐसी संपत्ति है जिसका मैं त्याग करने को तैयार नहीं हूं। जैसा कि यह क्लेनबर्ग के पेपर में दिखाई नहीं देता है, मैं उस पर एक पल के लिए रहूंगा।

संक्षेप में, एक क्लस्टरिंग एल्गोरिथ्म आइसोमेट्री अक्रियाशील है यदि इसका आउटपुट केवल बिंदुओं के बीच की दूरी पर निर्भर करता है, न कि कुछ अतिरिक्त जानकारी जैसे लेबल पर जो आप अपने बिंदुओं से जोड़ते हैं, या एक आदेश पर जिसे आप अपने बिंदुओं पर लगाते हैं। मुझे उम्मीद है कि यह बहुत ही सौम्य और बहुत प्राकृतिक स्थिति की तरह लग रहा होगा। Kleinberg के समाचार पत्र में चर्चा की सभी एल्गोरिदम साथ एकल लिंकेज एल्गोरिथ्म के लिए छोड़कर, isometry अपरिवर्तनीय हैं हालत रोक -cluster। क्लेनबर्ग के विवरण के अनुसार, यह एल्गोरिथ्म बिंदुओं के एक शाब्दिक क्रम का उपयोग करता है, इसलिए इसका आउटपुट वास्तव में इस बात पर निर्भर हो सकता है कि आप उन्हें कैसे लेबल करते हैं। उदाहरण के लिए, तीन समभुज बिंदुओं के एक सेट के लिए, 2 के साथ एकल लिंकेज एल्गोरिदम का आउटपुट2-क्लस्टर स्टॉपिंग कंडीशन आपके जवाब के अनुसार अलग-अलग उत्तर देगी कि क्या आप अपने तीन बिंदुओं को "बिल्ली", "कुत्ता", "माउस" (c <d <m m) या "टॉम", "स्पाइक", "जेरी" (जे) के रूप में लेबल करते हैं <एस <टी):

{बिल्ली, कुत्ता, माउस} का क्लस्टरिंग {टॉम, स्पाइक, जेरी}

इस अप्राकृतिक व्यवहार को आसानी से -cluster रोक स्थिति को " ( uster k ) -क्लस्टर रोक स्थिति" के साथ बदलकर आसानी से ठीक किया जा सकता है । विचार बस है नहीं समान दूरी पर स्थित बिंदुओं के बीच संबंधों को तोड़ने के लिए, और जल्द ही के रूप में हम पर पहुँच गए हैं के रूप में समूहों के विलय को रोकने के लिए ज्यादा से ज्यादा कश्मीर समूहों। यह मरम्मत एल्गोरिथ्म अभी भी उत्पादन करेगा कश्मीर समूहों समय के सबसे अधिक है, और यह isometry अपरिवर्तनीय और अपरिवर्तनीय पैमाना हो जाएगा। ऊपर दिए गए अंतर्ज्ञान के साथ समझौते में, हालांकि यह अब सुसंगत नहीं होगा।()

Isometry निश्चरता का एक सटीक परिभाषा के लिए, याद Kleinberg एक परिभाषित करता है कि एल्गोरिथ्म क्लस्टरिंग एक परिमित सेट पर एक नक्शे के रूप में उस पर प्रत्येक मीट्रिक के लिए प्रदान करती है एस के विभाजन एस : Γ : { पर मैट्रिक्स  एस } { के विभाजन  एस }एसएसएस एकisometry मैं के बीच दो मीट्रिक d और' पर

Γ:{पर मैट्रिक्स एस}{के विभाजन एस}Γ()
मैं' एक क्रमपरिवर्तन है मैं : एस एस ऐसी है कि' ( मैं ( एक्स ) , मैं ( y ) ) = डी ( एक्स , वाई ) के लिए सभी अंक x और y में एसएसमैं:एसएस'(मैं(एक्स),मैं(y))=(एक्स,y)एक्सyएस

परिभाषा: एक एल्गोरिथ्म क्लस्टरिंग है isometry अपरिवर्तनीय अगर यह संतुष्ट निम्न स्थिति: किसी भी मीट्रिक के लिए d औरΓ , और किसी भी isometry मैं उन दोनों के बीच, अंक मैं ( एक्स ) और मैं ( y ) का एक ही क्लस्टर में झूठ Γ ( ' ) मूल अंक यदि और केवल यदि x और y का एक ही क्लस्टर में झूठ Γ ( )'मैंमैं(एक्स)मैं(y)Γ(')एक्सyΓ()

जब हम एल्गोरिदम clustering के बारे में सोचते हैं, हम अक्सर सार सेट की पहचान विमान में अंक की एक ठोस सेट के साथ, या किसी अन्य परिवेश अंतरिक्ष में, और पर मीट्रिक बदलती सोच भी एस के अंक जाने के रूप में एस के आसपास। वास्तव में, यह वह बिंदु है जिसे हमने ऊपर दिए गए उदाहरण में लिया है। इस संदर्भ में, आइसोमेट्री इनविरियन का अर्थ है कि हमारा क्लस्टरिंग एल्गोरिथ्म घूर्णन, प्रतिबिंब और अनुवाद के लिए असंवेदनशील है।एसएसएस

विमान में बिंदुओं का एक सेट, और इसके दो घुमाव

क्लेनबर्ग के प्रमेय का एक प्रकार

ऊपर दिया गया अंतर्ज्ञान क्लिनबर्ग के प्रमेय के निम्नलिखित प्रकार द्वारा कब्जा कर लिया गया है।

प्रमेय: कोई गैर-तुच्छ समरूपता-अपरिवर्तनीय क्लस्टरिंग एल्गोरिथ्म नहीं है जो एक साथ सुसंगत और स्केल-इनवेरिएंट है।

यहां, एक तुच्छ क्लस्टरिंग एल्गोरिदम द्वारा, मेरा मतलब है कि निम्नलिखित दो एल्गोरिदम में से एक:

  1. एल्गोरिथ्म कि हर मीट्रिक को प्रदान करती है असतत विभाजन, जिसमें हर क्लस्टर एक बिंदु के होते हैं,एस

  2. एल्गोरिथ्म जो एक गांठ से मिलकर, एकमुश्त विभाजन पर हर मीट्रिक को असाइन करता है ।एस

दावा है कि ये मूर्खतापूर्ण एल्गोरिदम केवल दो आइसोमेट्री इनवेरिएंट एल्गोरिदम हैं जो सुसंगत और स्केल-इनवेरिएंट दोनों हैं।

सबूत: Let परिमित सेट जिस पर हमारे एल्गोरिथ्म हो Γ संचालित करने के लिए माना जाता है। चलो पर मीट्रिक हो एस विशिष्ट अंक के किसी भी जोड़े इकाई दूरी (यानी है जिसमें ( एक्स , डीएसΓएस सभी के लिए एक्स y में एस )। जैसा कि Γ आइसोमेट्री अवांतर है, Γ ( d ) के लिए केवल दो संभावनाएँ हैं: या तो Γ ( d ometry ) असतत विभाजन है, या(एक्स,y)=1एक्सyएसΓΓ()Γ() एकमुश्त विभाजन है। मामला है जब पर आइए पहले देखो Γ ( ) असतत विभाजन है। यह देखते हुए किसी भी मीट्रिक पर एस , हम इसे इसलिए अंक के सभी जोड़े दूरी है rescale कर सकते हैं1 के तहत । फिर, स्थिरता से, हम पाते हैं कि Γ ( ) = Γ ( ) । तो इस मामले में ial तुच्छ एल्गोरिथ्म है जो हर मीट्रिक को असतत विभाजन प्रदान करता है। दूसरा, इस मामले पर विचार करें कि the (Γ()Γ()एस1Γ()=Γ()Γ गांठ विभाजन है। हम किसी भी मीट्रिक rescale कर सकते हैं पर एस ताकि अंक के सभी जोड़े दूरी1 है, तो फिर से स्थिरता का तात्पर्य है कि Γ ( ) = Γ ( ) । तो Γ भी इस मामले में तुच्छ है। ∎Γ()एस1Γ()=Γ()Γ

निश्चित रूप से, यह प्रमाण एलेक्स विलियम्स के उत्तर में चर्चा की गई मार्गिन एकरमैन के क्लेनबर्ग के मूल प्रमेय के प्रमाण की भावना के बहुत करीब है।


7

यह वह अंतर्ज्ञान है जो मैं अपने ब्लॉग पोस्ट से (यहाँ एक स्निपेट के साथ) आया था ।

यहाँ छवि विवरण दर्ज करें

समृद्धि स्वयंसिद्ध का एक परिणाम है कि हम दो अलग-अलग दूरी के कार्यों को परिभाषित कर सकते हैं, (शीर्ष बाएं) और डी 2 (नीचे बाएं), जो क्रमशः सभी डेटा बिंदुओं को अलग-अलग समूहों में और कुछ अन्य क्लस्टरिंग में डालते हैं। फिर हम एक तिहाई दूरी समारोह को परिभाषित कर सकते 1232311323


क्या आप का मतलब है नीचे d2 के लिए छोड़ दिया? आपके आरेख के बारे में एक अच्छी बात यह है कि यह दर्शाता है कि कैसे स्थिरता आम तौर पर वांछनीय संपत्ति नहीं है (या यह बहुत ही कम रूप में तैयार है)।
एक्सन

हाँ नीचे छोड़ दिया, तदनुसार जवाब संपादित किया। धन्यवाद!
एलेक्स विलियम्स

इससे पहले कि मैं आपके उत्तर को पूरी तरह से समझ पाऊं, मैं तर्क के साथ आया हूं जो आपके दोहरे होने का संकेत देता है: एक क्लस्टरिंग से शुरू करें जहां सभी बिंदु एक ही क्लस्टर में हैं। इसे किसी अन्य व्यवस्था के लघु संस्करण में सिकोड़कर और अन्य व्यवस्था के पूर्ण आकार के संस्करण तक स्केल करके इसे किसी अन्य व्यवस्था में बदल दें।
एक्सन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.