पर्यवेक्षित क्लस्टरिंग या वर्गीकरण?


22

दूसरा सवाल यह है कि मुझे वेब पर एक चर्चा में "पर्यवेक्षण क्लस्टरिंग" के बारे में बात करते हुए पाया गया, जहां तक ​​मुझे पता है, क्लस्टरिंग अनसुनी है, तो "पर्यवेक्षित क्लस्टरिंग" के पीछे वास्तव में क्या अर्थ है? "वर्गीकरण" के संबंध में क्या अंतर है?

इसके बारे में बात करने वाले कई लिंक हैं:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

आदि ...


कृपया "वेब पर कहीं चर्चा" का लिंक दें
एटिला ओजगुर

2
@AtillaOzgur पर्यवेक्षित क्लस्टरिंग के बारे में बात करने वाले कई लिंक हैं, मैंने उनमें से कुछ को अपनी पोस्ट में जोड़ा: [1]: cs.uh.edu/docs/cosc/technical-reports/2005/05/10.pdf [2]: books.nips .cc / कागजात / फ़ाइलें / nips23 / NIPS2010_0427.pdf [3]: engr.case.edu/ray_soumya/mlrg/... [4]: public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf [5] : machinelearning.org/proceedings/icml2007/papers/366.pdf [6]: jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
shn

1
"क्लस्टरिंग" "असुरक्षित वर्गीकरण" का पर्याय है, इसलिए, "पर्यवेक्षण क्लस्टरिंग" एक ऑक्सीमोरोन है। हालांकि यह तर्क दिया जा सकता है कि सेल्फ ऑर्गेनाइजिंग मैप्स एक सुपरवाइज्ड तकनीक है जिसका इस्तेमाल अनप्रूव्ड क्लासिफिकेशन के लिए किया जाता है, जो कि "सुपरवाइज्ड क्लस्टरिंग" की सबसे करीबी चीज होगी।
डिजीओ

जहाँ तक मुझे अभी तक समझ में आया है, "हम डेटा को व्यवस्थित करने के लिए क्लस्टरिंग का उपयोग करते हैं ताकि इसे आगे की प्रक्रिया के लिए तैयार किया जा सके या कम से कम आगे के विश्लेषण के लिए तैयार किया जा सके" इसलिए हम क्लस्टरिंग में जो करते हैं वह डेटा को कक्षा A, B में विभाजित करता है। C वगैरह ... तो अब इस डेटा की किसी न किसी तरीके से देखरेख की जाती है। अब यह आवश्यकता पर निर्भर करता है कि आप इस डेटा के साथ क्या करना चाहते हैं या यह डेटा आपके लिए कैसे उपयोगी हो सकता है, चाहे वह वर्गीकरण संचालन के लिए हो या किसी के प्रति। अगर मैं ग़लत हूं तो मेरी गलती सुझाएं।
sak

जवाबों:


2

मेरी भोली समझ यह है कि वर्गीकरण किया जाता है जहां आपके पास कक्षाओं का एक निर्धारित समूह होता है और आप उन निर्दिष्ट वर्गों में से एक में एक नई चीज़ / डेटासेट वर्गीकृत करना चाहते हैं।

वैकल्पिक रूप से, क्लस्टरिंग के साथ शुरू करने के लिए कुछ भी नहीं है और आप सभी डेटा (नए एक सहित) को क्लस्टर में अलग करने के लिए उपयोग करते हैं।

दोनों यह तय करने के लिए दूरी मीट्रिक का उपयोग करते हैं कि कैसे क्लस्टर / वर्गीकृत किया जाए। अंतर यह है कि वर्गीकरण कक्षाओं के एक पूर्व निर्धारित सेट पर आधारित है, जबकि क्लस्टरिंग संपूर्ण डेटा के आधार पर क्लस्टर तय करता है।

फिर से मेरी भोली समझ है कि पूरे डेटा के आधार पर अभी भी क्लस्टरिंग की निगरानी की जा रही है और इस तरह वर्गीकरण के बजाय क्लस्टरिंग होगा।

वास्तव में मुझे यकीन है कि क्लस्टरिंग और वर्गीकरण दोनों के पीछे का सिद्धांत अंतर-ट्विन है।


मैं विनम्रतापूर्वक असहमत हूं। आप सुझाव दे रहे हैं कि "वर्गीकरण" परिभाषा द्वारा और डिफ़ॉल्ट रूप से एक पर्यवेक्षित प्रक्रिया है, जो सच नहीं है। वर्गीकरण को पर्यवेक्षित और अनुपयोगी मामलों में विभाजित किया गया है, उत्तरार्द्ध क्लस्टरिंग का पर्याय बन गया है।
दिगियो

15

मुझे नहीं लगता कि मैं आपसे ज्यादा जानता हूं, लेकिन आपके द्वारा पोस्ट किए गए लिंक उत्तर का सुझाव देते हैं। मैं एक उदाहरण के रूप में http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf लूंगा । मूल रूप से वे कहते हैं: 1) क्लस्टरिंग दूरी पर निर्भर करती है। 2) k- साधनों के सफल उपयोग के लिए सावधानीपूर्वक चुनी गई दूरी की आवश्यकता होती है। 3) उनके वांछित विभाजन के साथ वस्तुओं के सेट के रूप में प्रशिक्षण डेटा को देखते हुए, हम एक संरचनात्मक एसवीएम विधि प्रदान करते हैं जो दूरस्थ माप सीखता है ताकि के-साधन वांछित क्लस्टरिंग का उत्पादन करें।इस मामले में प्रशिक्षण डेटा और सीखने दोनों के साथ क्लस्टरिंग के लिए एक पर्यवेक्षित चरण है। इस चरण का उद्देश्य एक दूरस्थ कार्य सीखना है ताकि इस दूरी के साथ k- साधन क्लस्टरिंग को लागू करने के लिए उम्मीद की जा सके कि यह कितना बेहतर है, यह इस बात पर निर्भर करता है कि प्रशिक्षण डेटा अनुप्रयोग डोमेन से कितना मिलता जुलता है। मशीन सीखने और क्लस्टरिंग के लिए उपयुक्त सभी सामान्य कैवेट अभी भी लागू होते हैं।

लेख से आगे उद्धृत करते हुए: पर्यवेक्षित क्लस्टरिंग स्वचालित रूप से एक क्लस्टरिंग एल्गोरिथ्म को स्वचालित रूप से अपनाने का काम है, जिसमें आइटम सेटों और इन आइटम सेटों के पूर्ण विभाजन की सहायता से सेट किया गया है। । यह एक उचित परिभाषा है।


समस्या बस यह है: आप लेबल प्रशिक्षण डेटा के एक सेट से एक दूरी माप क्यों सीखना चाहते हैं, और फिर एक क्लस्टरिंग विधि के साथ इस दूरी को मापें; आप सिर्फ एक पर्यवेक्षित पद्धति का उपयोग क्यों नहीं करेंगे। दूसरे शब्दों में, आप क्लस्टरिंग करना चाहते हैं (यानी अपने डेटासेट को क्लस्टर में विभाजित करना), लेकिन आप मानते हैं कि आपके पास पहले से ही पूर्ण वांछित विभाजन है और आप इसका उपयोग एक दूरी मापने के लिए करेंगे, फिर इस डेटा का उपयोग करके इस डेटासेट पर क्लस्टरिंग लागू करें दूरी। सबसे अच्छे रूप में, आपको वही विभाजन मिलेंगे जो आपने दूरी मापने के लिए सीखे थे! आपके पास पहले से ही है
shn

जहाँ आप लिखते हैं "फिर इस डेटासेट पर क्लस्टरिंग लागू करें" स्थानापन्न "तो समान डेटासेट पर क्लस्टरिंग लागू करें"। यह परिदृश्य है: एक्स में प्रयोग के लिए हमारे पास डेटा ए और बी है। क्लस्टरिंग के लिए है, बी दूरी सीखने में मदद करता है। बी एक स्वर्ण मानक निर्धारित करता है और प्राप्त करने के लिए संभवतः महंगा है। बाद के प्रयोगों में X2, X3 .. हम A प्राप्त करते हैं, लेकिन B. को प्राप्त करने का जोखिम नहीं उठा सकते हैं
mic

ठीक है, अब जब आप डेटासेट B से "दूरी सीखना" कहते हैं: तो क्या आपका मतलब है "कुछ दूरी सीमा मूल्य सीखना" या "दूरस्थ मीट्रिक फ़ंक्शन सीखना" (एक प्रकार का पैरामीरीकृत असमानता माप)?
shn

1
मेरा मतलब दूसरा है, "दूरस्थ मीट्रिक फ़ंक्शन सीखना"। इस तरह से अधिक पढ़ने पर, मेरे सरल ए और बी फॉर्मूलेशन को उद्धृत पांडुलिपि में पाया जा सकता है: "अपने सही क्लस्टरिंग के साथ आइटम सेट के प्रशिक्षण के उदाहरणों को देखते हुए, लक्ष्य एक समानता माप सीखना है ताकि भविष्य के आइटमों के सेट का क्लोन किया जा सके। इसी तरह।"
माइकन्स

1
फिर, ऐसा लगता है कि "पर्यवेक्षित क्लस्टरिंग" बहुत कुछ "अर्ध-पर्यवेक्षित क्लस्टरिंग" कहलाता है। अब तक, मैं वास्तव में कोई अंतर नहीं देखता। वैसे, कुछ अन्य कागजात में, "(अर्ध-) पर्यवेक्षित क्लस्टरिंग" भविष्य के डेटासेट को एक समान तरीके से उपयोग करने के लिए "एक संशोधित दूरी समारोह बनाने" का संदर्भ नहीं देता है; यह दूरी समारोह को बदलने के बिना "क्लस्टरिंग एल्गोरिथ्म को संशोधित करने" के बजाय ही है!
shn

3

कुछ परिभाषाएँ:

पर्यवेक्षित क्लस्टरिंग वर्गीकृत उदाहरणों पर उन समूहों की पहचान करने के उद्देश्य से लागू की जाती हैं जिनके पास एकल वर्ग के लिए उच्च संभावना घनत्व है।

Unsupervised क्लस्टरिंग एक विशिष्ट ऑब्जेक्ट फ़ंक्शंस का उपयोग करके एक सीखने की रूपरेखा है, उदाहरण के लिए एक फ़ंक्शन जो क्लस्टर को रखने के लिए क्लस्टर के अंदर की दूरी को कम करता है। क्लस्टरिंग प्रक्रिया में साइड सूचना का उपयोग करके एक क्लस्टरिंग एल्गोरिथ्म को बढ़ाने के लिए

अर्ध-पर्यवेक्षित क्लस्टरिंग है।

तंत्रिका नेटवर्क में प्रगति - ISNN 2010

बहुत ज्यादा शब्दजाल का उपयोग किए बिना, क्योंकि मैं इस क्षेत्र में एक नौसिखिया हूँ, जिस तरह से मैं देख रहा हूँ कि निगरानी क्लस्टरिंग इस तरह से कम है:

पर्यवेक्षित क्लस्टरिंग में आप टॉप-डाउन से शुरू करते हैंकुछ पूर्वनिर्धारित कक्षाओं के साथ और फिर एक बॉटम-अप दृष्टिकोण का उपयोग करके आप पाते हैं कि कौन सी वस्तुएं आपकी कक्षाओं में बेहतर हैं।

उदाहरण के लिए, आपने किसी आबादी में पसंदीदा प्रकार के संतरे के बारे में एक अध्ययन किया।
कई प्रकार के संतरों से आपने पाया कि एक विशेष प्रकार का संतरे पसंदीदा है।
हालांकि, उस प्रकार का नारंगी संक्रमण, जलवायु परिवर्तन और अन्य पर्यावरणीय एजेंटों के लिए बहुत नाजुक और भुरभुरा है।
तो आप इसे अन्य प्रजातियों के साथ पार करना चाहते हैं जो उन अपमानों के लिए बहुत प्रतिरोधी हैं।
फिर आप लैब में जाते हैं और कुछ जीन पाए जाते हैं जो एक प्रकार के रसदार और मीठे स्वाद के लिए और दूसरे प्रकार की प्रतिरोधी क्षमताओं के लिए जिम्मेदार होते हैं।
आप कई प्रयोग करते हैं और आप अंत में कहते हैं कि संतरे के सौ अलग-अलग उपप्रकार हैं।
अब आप केवल उन उपप्रकारों में रुचि रखते हैं जो वर्णित गुणों से पूरी तरह से फिट होते हैं।
आप फिर से अपनी आबादी में एक ही अध्ययन नहीं करना चाहते हैं ...
आप उन गुणों को जानते हैं जिन्हें आप अपने संपूर्ण नारंगी में देख रहे हैं।
इसलिए आप अपना क्लस्टर विश्लेषण चलाते हैं और उन लोगों का चयन करते हैं जो आपकी उम्मीदों पर खरे उतरते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.