एक तरह से या किसी अन्य, प्रत्येक क्लस्टरिंग एल्गोरिदम बिंदुओं के "निकटता" की कुछ धारणा पर निर्भर करता है। यह सहज रूप से स्पष्ट लगता है कि आप या तो एक रिश्तेदार (स्केल-इनवेरिएंट) धारणा या निकटता की एक पूर्ण (सुसंगत) धारणा का उपयोग कर सकते हैं, लेकिन दोनों नहीं ।
मैं पहले इसे एक उदाहरण के साथ समझाने की कोशिश करूंगा, और फिर यह कहना चाहूंगा कि यह अंतर्ज्ञान क्लेनबर्ग के प्रमेय के साथ कैसे फिट बैठता है।
एक उदाहरण है
मान लीजिए हमारे पास दो सेट और एस 2 के 270 अंक है, इस तरह विमान में व्यवस्थित:एस1एस2270
आप इन चित्रों में से किसी में अंक नहीं देख सकते हैं , लेकिन ऐसा सिर्फ इसलिए है क्योंकि बहुत से बिंदु एक साथ बहुत करीब हैं। जब हम ज़ूम इन करते हैं तो हम और अधिक अंक देखते हैं:270
आप शायद स्पोंटेन्युलसी सहमत होंगे कि दोनों डेटा सेट में, अंक तीन समूहों में व्यवस्थित होते हैं। हालाँकि, यह पता चला है कि यदि आप के तीन समूहों में से किसी पर भी ज़ूम इन करते हैं, तो आप निम्नलिखित देखते हैं:एस2
यदि आप निकटता की पूर्ण धारणा में विश्वास करते हैं, या निरंतरता में, आप अभी भी बनाए रखेंगे, भले ही आपने माइक्रोस्कोप के तहत जो कुछ भी देखा हो, में केवल तीन क्लस्टर होते हैं। वास्तव में, एस 1 और एस 2 के बीच एकमात्र अंतर यह है कि प्रत्येक क्लस्टर के भीतर, कुछ बिंदु अब एक साथ करीब हैं। यदि, दूसरी ओर, आप निकटता के सापेक्ष धारणा में विश्वास करते हैं, या बड़े पैमाने पर आक्रमण में, तो आप यह तर्क देना चाहेंगे कि S 2 में 3 नहीं बल्कि 3 × 3 = 9 क्लस्टर हैं। इनमें से कोई भी दृष्टिकोण गलत नहीं है, लेकिन आपको एक तरह से चुनाव करना होगा या दूसरे को।एस2एस1एस2एस233 × 3 = 9
आइसोमेट्री इनविरियन के लिए एक मामला
यदि आप क्लेनबर्ग के प्रमेय के साथ उपर्युक्त अंतर्ज्ञान की तुलना करते हैं, तो आप पाएंगे कि वे थोड़ी सी बाधाओं पर हैं। दरअसल, क्लेनबर्ग का प्रमेय यह कहता प्रतीत होता है कि जब तक आप अमीरी नामक तीसरी संपत्ति की परवाह नहीं करते, तब तक आप एक साथ पैमाने और निरंतरता प्राप्त कर सकते हैं। हालांकि, समृद्धि केवल एक ही संपत्ति नहीं है जिसे आप खो देते हैं यदि आप एक साथ पैमाने पर आक्रमण और स्थिरता पर जोर देते हैं। आप एक और, अधिक मौलिक संपत्ति भी खो देते हैं: आइसोमेट्री-इनवेरियन। यह एक ऐसी संपत्ति है जिसका मैं त्याग करने को तैयार नहीं हूं। जैसा कि यह क्लेनबर्ग के पेपर में दिखाई नहीं देता है, मैं उस पर एक पल के लिए रहूंगा।
संक्षेप में, एक क्लस्टरिंग एल्गोरिथ्म आइसोमेट्री अक्रियाशील है यदि इसका आउटपुट केवल बिंदुओं के बीच की दूरी पर निर्भर करता है, न कि कुछ अतिरिक्त जानकारी जैसे लेबल पर जो आप अपने बिंदुओं से जोड़ते हैं, या एक आदेश पर जिसे आप अपने बिंदुओं पर लगाते हैं। मुझे उम्मीद है कि यह बहुत ही सौम्य और बहुत प्राकृतिक स्थिति की तरह लग रहा होगा। Kleinberg के समाचार पत्र में चर्चा की सभी एल्गोरिदम साथ एकल लिंकेज एल्गोरिथ्म के लिए छोड़कर, isometry अपरिवर्तनीय हैं हालत रोक -cluster। क्लेनबर्ग के विवरण के अनुसार, यह एल्गोरिथ्म बिंदुओं के एक शाब्दिक क्रम का उपयोग करता है, इसलिए इसका आउटपुट वास्तव में इस बात पर निर्भर हो सकता है कि आप उन्हें कैसे लेबल करते हैं। उदाहरण के लिए, तीन समभुज बिंदुओं के एक सेट के लिए, 2 के साथ एकल लिंकेज एल्गोरिदम का आउटपुटक2-क्लस्टर स्टॉपिंग कंडीशन आपके जवाब के अनुसार अलग-अलग उत्तर देगी कि क्या आप अपने तीन बिंदुओं को "बिल्ली", "कुत्ता", "माउस" (c <d <m m) या "टॉम", "स्पाइक", "जेरी" (जे) के रूप में लेबल करते हैं <एस <टी):
इस अप्राकृतिक व्यवहार को आसानी से -cluster रोक स्थिति को " ( uster k ) -क्लस्टर रोक स्थिति" के साथ बदलकर आसानी से ठीक किया जा सकता है । विचार बस है नहीं समान दूरी पर स्थित बिंदुओं के बीच संबंधों को तोड़ने के लिए, और जल्द ही के रूप में हम पर पहुँच गए हैं के रूप में समूहों के विलय को रोकने के लिए ज्यादा से ज्यादा कश्मीर समूहों। यह मरम्मत एल्गोरिथ्म अभी भी उत्पादन करेगा कश्मीर समूहों समय के सबसे अधिक है, और यह isometry अपरिवर्तनीय और अपरिवर्तनीय पैमाना हो जाएगा। ऊपर दिए गए अंतर्ज्ञान के साथ समझौते में, हालांकि यह अब सुसंगत नहीं होगा।क( ≤ कश्मीर ) कक
Isometry निश्चरता का एक सटीक परिभाषा के लिए, याद Kleinberg एक परिभाषित करता है कि एल्गोरिथ्म क्लस्टरिंग एक परिमित सेट पर एक नक्शे के रूप में उस पर प्रत्येक मीट्रिक के लिए प्रदान करती है एस के विभाजन एस :
Γ : { पर मैट्रिक्स एस } → { के विभाजन एस }एसएसएस
एकisometry मैं के बीच दो मीट्रिक d और घ ' पर
Rics :{एसपर मैट्रिक्स } → { S का विभाजन }घ↦ गामा ( घ)
मैंघघ' एक क्रमपरिवर्तन है
मैं : एस → एस ऐसी है कि
घ ' ( मैं ( एक्स ) , मैं ( y ) ) = डी ( एक्स , वाई ) के लिए सभी अंक
x और
y में
एस ।
एसमैं : एस→ एसघ'( i ( x ) , i ( y)) ) = डी( एक्स , वाई)एक्सyएस
परिभाषा: एक एल्गोरिथ्म क्लस्टरिंग है isometry अपरिवर्तनीय अगर यह संतुष्ट निम्न स्थिति: किसी भी मीट्रिक के लिए d औरΓघ , और किसी भी isometry मैं उन दोनों के बीच, अंक मैं ( एक्स ) और मैं ( y ) का एक ही क्लस्टर में झूठ Γ ( घ ' ) मूल अंक यदि और केवल यदि x और y का एक ही क्लस्टर में झूठ Γ ( घ ) ।घ'मैंमैं ( एक्स )मैं ( y))Γ ( डी)')एक्सyΓ ( डी))
जब हम एल्गोरिदम clustering के बारे में सोचते हैं, हम अक्सर सार सेट की पहचान विमान में अंक की एक ठोस सेट के साथ, या किसी अन्य परिवेश अंतरिक्ष में, और पर मीट्रिक बदलती सोच भी एस के अंक जाने के रूप में एस के आसपास। वास्तव में, यह वह बिंदु है जिसे हमने ऊपर दिए गए उदाहरण में लिया है। इस संदर्भ में, आइसोमेट्री इनविरियन का अर्थ है कि हमारा क्लस्टरिंग एल्गोरिथ्म घूर्णन, प्रतिबिंब और अनुवाद के लिए असंवेदनशील है।एसएसएस
क्लेनबर्ग के प्रमेय का एक प्रकार
ऊपर दिया गया अंतर्ज्ञान क्लिनबर्ग के प्रमेय के निम्नलिखित प्रकार द्वारा कब्जा कर लिया गया है।
प्रमेय: कोई गैर-तुच्छ समरूपता-अपरिवर्तनीय क्लस्टरिंग एल्गोरिथ्म नहीं है जो एक साथ सुसंगत और स्केल-इनवेरिएंट है।
यहां, एक तुच्छ क्लस्टरिंग एल्गोरिदम द्वारा, मेरा मतलब है कि निम्नलिखित दो एल्गोरिदम में से एक:
एल्गोरिथ्म कि हर मीट्रिक को प्रदान करती है असतत विभाजन, जिसमें हर क्लस्टर एक बिंदु के होते हैं,एस
एल्गोरिथ्म जो एक गांठ से मिलकर, एकमुश्त विभाजन पर हर मीट्रिक को असाइन करता है ।एस
दावा है कि ये मूर्खतापूर्ण एल्गोरिदम केवल दो आइसोमेट्री इनवेरिएंट एल्गोरिदम हैं जो सुसंगत और स्केल-इनवेरिएंट दोनों हैं।
सबूत:
Let परिमित सेट जिस पर हमारे एल्गोरिथ्म हो Γ संचालित करने के लिए माना जाता है। चलो घ ₁ पर मीट्रिक हो एस विशिष्ट अंक के किसी भी जोड़े इकाई दूरी (यानी है जिसमें घ ₁ ( एक्स , डीएसΓघ₁एस सभी के लिए एक्स ≠ y में एस )। जैसा कि Γ आइसोमेट्री अवांतर है, Γ ( d ₁ ) के लिए केवल दो संभावनाएँ हैं: या तो Γ ( d ometry ) असतत विभाजन है, याघ₁ (एक्स,वाई) = 1x ≠ यएसΓΓ ( डी)₁ )Γ ( डी)₁ ) एकमुश्त विभाजन है। मामला है जब पर आइए पहले देखो Γ ( घ ₁ ) असतत विभाजन है। यह देखते हुए किसी भी मीट्रिक घ पर एस , हम इसे इसलिए अंक के सभी जोड़े दूरी है rescale कर सकते हैं ≥ 1 के तहत घ । फिर, स्थिरता से, हम पाते हैं कि Γ ( घ ) = Γ ( घ ₁ ) । तो इस मामले में ial तुच्छ एल्गोरिथ्म है जो हर मीट्रिक को असतत विभाजन प्रदान करता है। दूसरा, इस मामले पर विचार करें कि the (Γ ( डी)₁ )Γ ( डी)₁ )घएस≥ १घΓ ( डी)) = Γ ( घ₁ )Γ गांठ विभाजन है। हम किसी भी मीट्रिक rescale कर सकते हैं घ पर एस ताकि अंक के सभी जोड़े दूरी ≤ 1 है, तो फिर से स्थिरता का तात्पर्य है कि Γ ( घ ) = Γ ( घ ₁ ) । तो Γ भी इस मामले में तुच्छ है। ∎Γ ( डी)₁ )घएस≤ १Γ ( डी)) = Γ ( घ₁ )Γ
निश्चित रूप से, यह प्रमाण एलेक्स विलियम्स के उत्तर में चर्चा की गई मार्गिन एकरमैन के क्लेनबर्ग के मूल प्रमेय के प्रमाण की भावना के बहुत करीब है।