हम क्लस्टरिंग के साथ आयामी कमी को कब जोड़ते हैं?


16

मैं दस्तावेज़-स्तरीय क्लस्टरिंग करने की कोशिश कर रहा हूं। मैंने टर्म-डॉक्यूमेंट फ़्रीक्वेंसी मैट्रिक्स का निर्माण किया है और मैं k- साधनों का उपयोग करके इन उच्च आयामी वैक्टरों को क्लस्टर करने का प्रयास कर रहा हूं। सीधे क्लस्ट करने के बजाय, मैंने जो भी किया, वह पहले यू, एस, वीटी मैट्रिक को प्राप्त करने के लिए एलएसए (लेटेंट सेमेटिक एनालिसिस) विलक्षण वेक्टर अपघटन को लागू करने के लिए था, स्क्रिप प्लॉट का उपयोग करते हुए एक उपयुक्त सीमा का चयन किया और कम मैट्रिसेस (विशेष रूप से वीटी) पर क्लैरिंग लागू किया। यह मुझे एक अवधारणा-दस्तावेज़ जानकारी देता है) जो मुझे अच्छे परिणाम दे रहा था।

मैं कुछ लोगों को SVD (एकवचन वेक्टर अपघटन) का कहना है कि सुना है है क्लस्टरिंग (कोज्या समानता उपाय आदि का उपयोग करके) और यकीन नहीं अगर मैं SVD के उत्पादन पर k-साधन लागू कर सकता था। मुझे लगा कि यह तार्किक रूप से सही है क्योंकि एसवीडी एक आयामी कमी तकनीक है, मुझे नए वैक्टर का एक गुच्छा देता है। दूसरी ओर, k- साधन, क्लस्टर की संख्या को इनपुट के रूप में लेगा और इन वैक्टर को क्लस्टर की निर्दिष्ट संख्या में विभाजित करेगा। क्या यह प्रक्रिया त्रुटिपूर्ण है या क्या ऐसे तरीके हैं जिनसे इसमें सुधार किया जा सकता है? कोई सुझाव?


अच्छा प्रश्न। व्यक्तिगत रूप से मैं इन सामानों के बारे में सोच रहा हूं। लेकिन एक अच्छा जवाब नहीं है।
सनकूलू

1
ऐसे तरीके हैं जो एक साथ आयामीता में कमी और क्लस्टरिंग करते हैं। इन तरीकों से क्लस्टर्स की पहचान को आसान बनाने के लिए एक बेहतर रूप से चुने गए कम आयामी प्रतिनिधित्व की तलाश की जाती है। उदाहरण के लिए, आर और संबंधित संदर्भों में संकुल पैकेज देखें।
नट

जवाबों:


6

इसका कोई मतलब नहीं है एक पूर्ण उत्तर है, जो प्रश्न आपको पूछना चाहिए वह यह है कि "आयाम में कमी करने पर किस तरह की दूरियां संरक्षित हैं?"। चूंकि क्लस्टरिंग एल्गोरिदम जैसे K- साधन केवल दूरियों पर काम करते हैं, सही दूरी की मीट्रिक का उपयोग करने के लिए (सैद्धांतिक रूप से) दूरी मीट्रिक है जो कि आयामी कमी द्वारा संरक्षित है। इस तरह, कम आयाम वाले स्थान में डेटा को क्लस्टर करने के लिए डायमेंशन कम करने के चरण को कम्प्यूटेशनल शॉर्टकट के रूप में देखा जा सकता है। (स्थानीय मिनिमा आदि से बचने के लिए भी)

यहां कई सूक्ष्मताएं हैं जिन्हें मैं समझने का नाटक नहीं करूंगा, (स्थानीय दूरियां बनाम वैश्विक दूरियां, रिश्तेदार दूरियां कितनी विकृत हैं, आदि) लेकिन मुझे लगता है कि इन चीजों के बारे में सैद्धांतिक रूप से सोचने की यही सही दिशा है।


+1 यह एक बहुत ही दिलचस्प सवाल है। उस मामले में, यूक्लिडियन को ऐसे ही एक मीट्रिक माना जा सकता है? जैसा कि आयामीता कम हो जाती है, अंक को एक कम आयामी स्थान में पेश किया जाता है लेकिन इसका मतलब यह हो सकता है कि दूरी की धारणा खो सकती है। मुझे यह देखने के लिए एक कठिन समय मिल रहा है कि इस तरह से कटौती का उपयोग करते समय दूरी को कैसे संरक्षित किया जा सकता है।
लेजेंड

1
मुझे लगता है कि यह उत्तर मूल रूप से सही है। आप एक छोटी सी जगह में कुछ एम्बेडिंग ढूंढना चाहते हैं जो दूरी (दूरी की कुछ धारणा के लिए) को संरक्षित करता है। बाहर की जाँच करने के लिए दो अच्छे एल्गोरिदम हैं Isomap और स्थानीय रूप से रैखिक एम्बेडिंग । "पड़ोस संरक्षण" एक अच्छा दृष्टिकोण की तरह लगता है यदि आपका लक्ष्य क्लस्टरिंग है।
स्टम्पी जो पीट

5

आपके शीर्षक के जवाब में "हम कब क्लस्टरिंग के साथ आयामी कमी को जोड़ते हैं?" पूरे सवाल के बजाय। एक संभावित कारण स्पष्ट है: जब हम एगेस्ट आउटलेर्स को सुरक्षित करना चाहते हैं। K- का अर्थ है अहंकार, यदि प्रारंभिक केंद्र संकेत के बिना, प्रारंभिक केंद्रों के रूप में क्लाउड में सबसे अलग बिंदुओं को लेता है, और सही ये आउटलेयर होने की संभावना है। पीसीए द्वारा प्रीरेक्टिंग आउटलेर्स को बेअसर कर देता है जो जूनियर घटकों के साथ होते हैं - उन्हें पीसीए में बनाए रखने वाले कुछ वरिष्ठ घटकों पर प्रोजेक्ट करके।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.