डेटा माइनिंग में वर्गीकरण और क्लस्टरिंग के बीच अंतर? [बन्द है]


195

क्या कोई समझा सकता है कि डेटा माइनिंग में वर्गीकरण और क्लस्टरिंग में क्या अंतर है?

यदि आप कर सकते हैं, तो कृपया मुख्य विचार को समझने के लिए दोनों का उदाहरण दें।

जवाबों:


242

सामान्य तौर पर, वर्गीकरण में आपके पास पूर्वनिर्धारित कक्षाओं का एक सेट होता है और यह जानना चाहता है कि एक नई वस्तु किस वर्ग की है।

क्लस्टरिंग वस्तुओं के एक समूह को समूह बनाने की कोशिश करता है और पाता है कि वस्तुओं के बीच कुछ संबंध है या नहीं।

मशीन लर्निंग के संदर्भ में, वर्गीकरण की देखरेख सीखने के लिए की जाती है और क्लस्टरिंग अप्रशिक्षित शिक्षा है

विकिपीडिया पर वर्गीकरण और क्लस्टरिंग पर भी एक नज़र है ।


3
जवाब के लिए धन्यवाद। तो जैसा मैं समझता हूं। वर्गीकरण में मेरे पास उदाहरण हैं और मैं इन उदाहरणों को एक या दूसरे वर्ग में रखता हूं। लेकिन क्लस्टरिंग में मेरे पास उदाहरण हैं लेकिन उन कक्षाओं के लिए नहीं है जहां उदाहरणों को समूहित करना है। उदाहरणों के आधार पर क्लस्टरिंग में मुझे क्लैस खोजने की जरूरत है? क्या मैं सही हूं या कुछ भी महत्वपूर्ण है जिसे ध्यान में रखना चाहिए? और क्या आप उदाहरण दे सकते हैं? सादर, क्रिस्टप्स
क्रिस्टैप्स

4
@ क्रिसटैप: मुझे लगता है कि आप अभी तक सही हैं। लेकिन आप जरूरी नहीं कि क्लस्टरिंग के साथ कक्षाएं लगाएं। यह अधिक है कि आप यह देखना चाहते हैं कि क्या कुछ वस्तुओं का सेट किसी प्रकार का संबंध बनाता है (कुछ मॉडल में एक साथ करीब होकर)। आप आमतौर पर कक्षाएं नहीं पाते हैं (यदि आपको लगता है कि आप वर्गीकरण के लिए कक्षाएं खोजने के लिए क्लस्टरिंग का उपयोग करते हैं)। बात वह नहीं है। इसके बजाय, आपके पास शुरुआत में एक प्रशिक्षण सेट है जिसमें लेबल वाले आइटम शामिल हैं (इसलिए आप जानते हैं कि वे किस वर्ग के हैं)। फिर आप आइटमों को सही वर्गों को सौंपने के लिए एक वर्गीकरण एल्गोरिदम को प्रशिक्षित करते हैं और आप सत्यापित करते हैं
फेलिक्स क्लिंग

4
शुद्धता (जो आप कर सकते हैं, जैसा कि डेटा लेबल है)। वर्गीकरण का एक दैनिक उदाहरण स्पैम फ़िल्टरिंग होगा। स्पैम फ़िल्टर को यह तय करना होगा कि कोई मेल स्पैम है या नहीं। यदि कोई मेल गलत तरीके से वर्गीकृत किया गया है, तो आप फ़िल्टर को भी बता सकते हैं। क्लस्टरिंग के लिए, मुझे वास्तव में एक उदाहरण नहीं पता है। लेकिन आप उदाहरण के लिए 1000 ट्विटर संदेश ले सकते हैं, क्लस्टरिंग करने की कोशिश करें और फिर जांच करें कि समूहों के संबंध में क्या (और यदि) संबंध है।
फेलिक्स क्लिंग

मुझे लगता है कि दोनों वर्गीकरण और क्लस्टरिंग हैं बाँटिए विधि है, यह है कि सही?
वूहोआ जूल

@MROROY यदि वर्गीकरण द्वारा आपका मतलब है: "साझा गुणों या विशेषताओं के अनुसार कक्षाओं या श्रेणियों में (लोगों या चीजों का एक समूह) व्यवस्थित करें।" , तो ठीक।
14'14 को

76

कृपया निम्नलिखित जानकारी पढ़ें:

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें यहां छवि विवरण दर्ज करें


क्लस्टरिंग को कक्षाओं की संख्या जानने की आवश्यकता नहीं है।
D1X

5
@ डी 1 एक्स ट्रू। यही उत्तर कहता है .. (कक्षाओं की अज्ञात संख्या)
सयाली सोनवणे

57

यदि आपने किसी भी डेटा माइनिंग या मशीन लर्निंग व्यक्तियों से यह सवाल पूछा है, तो वे आपको क्लस्टरिंग और वर्गीकरण के बीच के अंतर को समझाने के लिए पर्यवेक्षित शिक्षण और अप्रकाशित शिक्षण शब्द का उपयोग करेंगे। तो चलिए सबसे पहले आपको मुख्य शब्द के बारे में बताऊंगा जिसकी निगरानी और अनुपयोगी है।

सुपरवाइज्ड लर्निंग: मान लीजिए कि आपके पास एक टोकरी है और यह कुछ ताजे फलों से भरा है और आपका काम एक ही तरह के फलों को एक स्थान पर व्यवस्थित करना है। मान लीजिए कि फल सेब, केला, चेरी और अंगूर हैं। इसलिए आप पहले से ही अपने पिछले काम से जानते हैं कि, प्रत्येक फल का आकार एक ही स्थान पर एक ही प्रकार के फलों की व्यवस्था करना आसान है। यहां आपके पिछले काम को डेटा माइनिंग में प्रशिक्षित डेटा कहा जाता है। इसलिए आप पहले से ही अपने प्रशिक्षित डेटा से चीजों को सीखते हैं, इसका कारण यह है कि आपके पास एक प्रतिक्रिया चर है जो आपको कहता है कि यदि कुछ फल में ऐसा है, तो यह अंगूर है, जैसे कि प्रत्येक फल के लिए।

इस प्रकार का डेटा आपको प्रशिक्षित डेटा से मिलेगा। इस प्रकार के अधिगम को पर्यवेक्षित अधिगम कहा जाता है। इस प्रकार की समस्या हल करना वर्गीकरण के अंतर्गत आता है। तो आप पहले से ही चीजें सीखते हैं ताकि आप आत्मविश्वास से काम कर सकें।

असुरक्षित: मान लीजिए कि आपके पास एक टोकरी है और यह कुछ ताजे फलों से भरा है और आपका काम एक ही स्थान पर एक ही प्रकार के फलों की व्यवस्था करना है।

इस बार आपको उस फल के बारे में कोई भी जानकारी नहीं है, आप पहली बार इन फलों को देख रहे हैं, तो आप उसी प्रकार के फलों की व्यवस्था कैसे करेंगे।

आप सबसे पहले क्या करेंगे, क्या आप फल को लेते हैं और आप उस विशेष फल के किसी भी भौतिक चरित्र का चयन करेंगे। मान लीजिए आपने रंग लिया।

फिर आप उन्हें रंग के आधार पर व्यवस्थित करेंगे, फिर समूह कुछ इस तरह से होंगे। लाल रंग समूह: सेब और चेरी फल। GREEN रंग ग्रुप: केले और अंगूर। इसलिए अब आप आकार के रूप में एक और शारीरिक चरित्र लेंगे, इसलिए अब समूह कुछ इस तरह के होंगे। लाल रंग और बड़े आकार: सेब। लाल रंग और छोटे आकार: चेरी फल। ग्रीन रंग और बड़े आकार: केले। ग्रीन रंग और छोटे आकार : अंगूर। काम ख़त्म करके ख़ुशी हुई

यहां आपने पहले कोई भी चीज़ नहीं सीखी, इसका मतलब है कि कोई ट्रेन डेटा और कोई प्रतिक्रिया चर नहीं। इस प्रकार की सीखने को अनिश्चित सीखने के लिए जाना जाता है। क्लस्टरिंग अप्रशिक्षित शिक्षा के अंतर्गत आता है।


18

+ वर्गीकरण: आपको कुछ नए डेटा दिए गए हैं, आपको उनके लिए नए लेबल सेट करने होंगे।

उदाहरण के लिए, एक कंपनी अपने संभावित ग्राहकों को वर्गीकृत करना चाहती है। जब एक नया ग्राहक आता है, तो उन्हें यह निर्धारित करना होगा कि क्या यह एक ग्राहक है जो अपने उत्पादों को खरीदने जा रहा है या नहीं।

+ क्लस्टरिंग: आपको इतिहास के लेन-देन का एक सेट दिया जाता है जो रिकॉर्ड करता है कि किसने क्या खरीदा।

क्लस्टरिंग तकनीकों का उपयोग करके, आप अपने ग्राहकों के विभाजन को बता सकते हैं।


3
मैं तर्क दूंगा कि "जब एक नया ग्राहक आता है, तो उन्हें यह निर्धारित करना होगा कि क्या यह एक ग्राहक है जो अपने उत्पादों को खरीदने जा रहा है या नहीं।" लॉजिस्टिक प्रतिगमन के लिए एक बेहतर उम्मीदवार है। वर्गीकरण का एक उदाहरण यह अनुमान लगाने के लिए होगा कि क्या ग्राहक "प्रीमियम", "मानक" या "अर्थव्यवस्था" मॉडल खरीदने जा रहा है। एयरलाइन का उदाहरण: कोच, शुरुआती बोर्डिंग वाला कोच, अतिरिक्त लेग रूम वाला कोच।
GDB

16

मुझे यकीन है कि आप में से कई ने मशीन सीखने के बारे में सुना होगा। आप में से एक दर्जन भी जानते होंगे कि यह क्या है। और आप में से कुछ ने मशीन लर्निंग एल्गोरिदम के साथ भी काम किया होगा। आप देखिए यह कहां जा रहा है? बहुत सारे लोग उस तकनीक से परिचित नहीं हैं जो अब से 5 साल पहले बिल्कुल जरूरी होगी। सिरी मशीन लर्निंग है। अमेज़न का एलेक्सा मशीन लर्निंग है। विज्ञापन और शॉपिंग आइटम की सिफारिश करने वाले सिस्टम मशीन लर्निंग हैं। आइए 2 साल के लड़के की सरल सादृश्यता के साथ मशीन सीखने को समझने की कोशिश करें। बस मनोरंजन के लिए, चलो उसे Kylo Ren कहते हैं

स्रोत: blog.printkeg.com

मान लीजिए कि किलो रेन ने एक हाथी को देखा। उसका मस्तिष्क उसे क्या बताएगा? (याद रखें कि उसके पास न्यूनतम सोचने की क्षमता है, भले ही वह वडर का उत्तराधिकारी हो)। उसका दिमाग उसे बताएगा कि उसने एक बड़ा चलता हुआ प्राणी देखा जो कि भूरे रंग का था। वह एक बिल्ली को देखता है, और उसका मस्तिष्क उसे बताता है कि यह एक छोटा सा चलने वाला प्राणी है जो रंग में सुनहरा है। अंत में, वह आगे एक प्रकाश कृपाण देखता है और उसका मस्तिष्क उसे बताता है कि यह एक निर्जीव वस्तु है जिसके साथ वह खेल सकता है!

इस बिंदु पर उनका दिमाग जानता है कि कृपाण हाथी और बिल्ली से अलग है, क्योंकि कृपाण कुछ खेलने के लिए है और वह अपने आप नहीं हिलता है। उनका दिमाग इस बात का पता लगा सकता है, भले ही Kylo को यह न पता हो कि चल सकने योग्य साधन क्या हैं। इस साधारण घटना को क्लस्टरिंग कहा जाता है।

स्रोत: jeffcarpenterblog.tumblr.com

मशीन लर्निंग इस प्रक्रिया के गणितीय संस्करण के अलावा और कुछ नहीं है। आंकड़ों का अध्ययन करने वाले बहुत से लोगों ने महसूस किया कि वे कुछ समीकरण उसी तरह से काम कर सकते हैं जैसे मस्तिष्क काम करता है। मस्तिष्क समान वस्तुओं को क्लस्टर कर सकता है, मस्तिष्क गलतियों से सीख सकता है और मस्तिष्क चीजों को पहचानना सीख सकता है।

यह सब आँकड़ों के साथ प्रतिनिधित्व किया जा सकता है, और इस प्रक्रिया के कंप्यूटर आधारित सिमुलेशन को मशीन लर्निंग कहा जाता है। हमें कंप्यूटर आधारित सिमुलेशन की आवश्यकता क्यों है? क्योंकि कंप्यूटर मानव दिमाग की तुलना में भारी गणित कर सकते हैं। मैं मशीन सीखने के गणितीय / सांख्यिकीय भाग में जाना पसंद करूंगा लेकिन आप पहले कुछ अवधारणाओं को साफ किए बिना इसमें कूदना नहीं चाहते।

क्यलो रेन पर वापस आते हैं। मान लीजिए कि किलो कृपाण उठाता है और उसके साथ खेलना शुरू करता है। वह गलती से एक तूफ़ान से टकराता है और तूफ़ान घायल हो जाता है। वह समझ नहीं पा रहा है कि क्या हो रहा है और खेलना जारी है। इसके बाद वह एक बिल्ली को मारता है और बिल्ली घायल हो जाती है। इस बार Kylo यकीन है कि वह कुछ बुरा किया है, और कुछ सावधान रहने की कोशिश करता है। लेकिन अपने बुरे कृपाण कौशल को देखते हुए, वह हाथी को मारता है और पूरी तरह से निश्चित है कि वह मुसीबत में है। उसके बाद वह बहुत सावधान हो जाता है, और केवल अपने पिता को उद्देश्य पर हिट करता है जैसा कि हमने फोर्स अवेकेंस में देखा था !!

स्रोत: joyreactor.com

आपकी गलती से सीखने की यह पूरी प्रक्रिया समीकरणों के साथ नकल की जा सकती है, जहां कुछ गलत करने की भावना एक त्रुटि या लागत द्वारा दर्शाई जाती है। कृपाण के साथ क्या नहीं करना है, यह पहचानने की इस प्रक्रिया को वर्गीकरण कहा जाता है। क्लस्टरिंग और वर्गीकरण मशीन सीखने की पूर्ण मूल बातें हैं। आइए उनके बीच अंतर को देखें।

Kylo ने जानवरों और प्रकाश कृपाण के बीच अंतर किया क्योंकि उनके मस्तिष्क ने फैसला किया कि प्रकाश कृपाण खुद से चलती है और इसलिए अलग हैं। निर्णय पूरी तरह से मौजूद वस्तुओं (डेटा) पर आधारित था और कोई बाहरी मदद या सलाह प्रदान नहीं की गई थी। इसके विपरीत, Kylo ने प्रकाश कृपाण के साथ सावधान रहने के महत्व को पहले यह देखते हुए कि एक वस्तु को मार कर क्या किया जा सकता है। निर्णय पूरी तरह से कृपाण पर आधारित नहीं था, लेकिन यह विभिन्न वस्तुओं पर क्या कर सकता है। संक्षेप में, यहाँ कुछ मदद मिली।

स्रोत: पिंटरेस्ट

सीखने में इस अंतर के कारण, क्लस्टरिंग को एक अनुपलब्ध सीखने की विधि कहा जाता है और वर्गीकरण को पर्यवेक्षित शिक्षण विधि कहा जाता है। मशीन सीखने की दुनिया में वे बहुत अलग हैं, और अक्सर मौजूद डेटा के प्रकार से निर्धारित होते हैं। लेबल डेटा (या ऐसी चीजें जो हमें सीखने में मदद करती हैं, जैसे कि कल्लो के तूफान, हाथी और बिल्ली) को प्राप्त करना अक्सर आसान नहीं होता है और जब डेटा विभेदित होता है तो यह बहुत जटिल हो जाता है। दूसरी ओर, लेबल के बिना सीखने के अपने नुकसान हो सकते हैं, जैसे कि पता नहीं कि लेबल शीर्षक क्या हैं। यदि कालो को कृपाण के साथ बिना किसी उदाहरण या सहायता के सावधान रहना सीखना था, तो उसे नहीं पता होता कि यह क्या करेगा। वह सिर्फ यह जानता होगा कि ऐसा नहीं किया जाएगा। यह एक लंगड़ा सादृश्य की तरह है, लेकिन आप इस बिंदु को प्राप्त करते हैं!

हम अभी मशीन लर्निंग से शुरुआत कर रहे हैं। वर्गीकरण स्वयं निरंतर संख्याओं का वर्गीकरण या लेबल का वर्गीकरण हो सकता है। उदाहरण के लिए, अगर Kylo को यह बताना था कि प्रत्येक स्टॉर्मट्रॉपर की ऊँचाई क्या है, तो बहुत सारे उत्तर होंगे क्योंकि ऊँचाई 5.0, 5.01, 5.011, आदि हो सकती है, लेकिन एक सरल वर्गीकरण जैसे प्रकाश कृपाण (लाल, नीला .green) बहुत सीमित जवाब होगा। वास्तव में उन्हें सरल संख्याओं के साथ दर्शाया जा सकता है। लाल 0 हो सकता है, नीला 1 हो सकता है और हरा 2 हो सकता है।

यदि आप बुनियादी गणित जानते हैं, तो आप जानते हैं कि 0,1,2 और 5.1,5.01,5.011 अलग-अलग हैं और क्रमशः असतत और निरंतर संख्याएं कहते हैं। असतत संख्याओं के वर्गीकरण को लॉजिस्टिक रिग्रेशन कहा जाता है, और निरंतर संख्याओं के वर्गीकरण को रिग्रेशन कहा जाता है। लॉजिस्टिक रिग्रेशन को श्रेणीबद्ध वर्गीकरण के रूप में भी जाना जाता है, इसलिए जब आप इस शब्द को कहीं और पढ़ते हैं तो भ्रमित न हों

यह मशीन लर्निंग के लिए एक बहुत ही बुनियादी परिचय था। मैं अपनी अगली पोस्ट में सांख्यिकीय पक्ष पर ध्यान केन्द्रित करूँगा। कृपया मुझे बताएं कि क्या मुझे किसी सुधार की आवश्यकता है :)

दूसरा भाग यहाँ पोस्ट किया गयायहां छवि विवरण दर्ज करें


2
हे अमित, आप अपने ब्लॉग पोस्ट को केवल एक लिंक के बजाय उत्तर में क्यों नहीं जोड़ते। लिंक केवल उत्तरों पर ही आधारित होते हैं क्योंकि साइटें नीचे जाती हैं और इसके साथ ही उत्तर मिलता है।
Mathemats

3
धन्यवाद। मैं ऐसा करूंगा :)
अमित जुनेजा

2
"असतत संख्याओं के वर्गीकरण को लॉजिस्टिक रिग्रेशन कहा जाता है" बड़े पैमाने पर निरीक्षण किया जाता है; एलआर कई संभावित तकनीकों में से एक है जिसे वर्गीकरण के लिए इस्तेमाल किया जा सकता है (दूसरों को ट्री-बेस्ड (आरएफ, जीबीटी / एक्सजीबी), एनएन-आधारित, आदि "निरंतर संख्याओं के वर्गीकरण को प्रतिगमन कहा जाता है" सादा आत्म-विरोधाभासी है; आप का अर्थ है "निरंतर संख्याओं की भविष्यवाणी"
smci

7

मैं डेटा माइनिंग का एक नया कामरेड हूं, लेकिन जैसा कि मेरी पाठ्यपुस्तक कहती है, CLASSICIATION को पर्यवेक्षण की शिक्षा के लिए माना जाता है, और अप्रकाशित शिक्षा को पढ़ा जा रहा है। पर्यवेक्षित शिक्षण और अनुपयोगी शिक्षा के बीच अंतर यहां पाया जा सकता है


6

वर्गीकरण

उदाहरणों से सीखने के आधार पर पूर्वनिर्धारित कक्षाओं को नए अवलोकनों में नियत करना है ।

यह मशीन सीखने के प्रमुख कार्यों में से एक है।

क्लस्टरिंग (या क्लस्टर विश्लेषण)

जबकि लोकप्रिय रूप से खारिज कर दिया "असुरक्षित वर्गीकरण" के रूप में यह काफी अलग है।

इसके विपरीत जो कई मशीन सीखने वाले आपको सिखाएंगे, यह वस्तुओं के लिए "कक्षाएं" असाइन करने के बारे में नहीं है, लेकिन उन्हें पूर्वनिर्धारित किए बिना। यह उन लोगों का बहुत सीमित दृष्टिकोण है जिन्होंने बहुत अधिक वर्गीकरण किया है; एक विशिष्ट उदाहरण यदि आपके पास एक हथौड़ा (क्लासिफायर) है, तो सब कुछ आपके लिए एक नाखून (वर्गीकरण समस्या) की तरह दिखता है । लेकिन यह भी है कि वर्गीकरण करने वाले लोगों को क्लस्टरिंग की एक फांसी नहीं मिलती है।

इसके बजाय, इसे संरचना की खोज के रूप में मानें । क्लस्टरिंग का कार्य आपके डेटा में संरचना (जैसे समूह) को ढूंढना है जिसे आप पहले नहीं जानते थेयदि आपने कुछ नया सीखा है तो क्लस्टरिंग सफल रहा है । यह विफल हो गया, यदि आपको केवल वही संरचना मिली जो आप पहले से जानते थे।

क्लस्टर विश्लेषण डेटा माइनिंग (और मशीन-लर्निंग में बदसूरत बत्तख़ का बच्चा, इसलिए मशीन शिक्षार्थियों को क्लस्टरिंग को सुनना नहीं है) का एक प्रमुख कार्य है।

"अनसुप्राइज़्ड लर्निंग" कुछ हद तक एक ऑक्सीमोरोन है

यह साहित्य के ऊपर और नीचे प्रसारित किया गया है, लेकिन अनपेक्षित शिक्षा b llsh t है। यह मौजूद नहीं है, लेकिन यह "सैन्य खुफिया" की तरह एक ऑक्सीमोरोन है।

या तो एल्गोरिथ्म उदाहरणों से सीखता है (तब यह "पर्यवेक्षित शिक्षण" है), या यह नहीं सीखता है। यदि सभी क्लस्टरिंग विधियां "सीखना" हैं, तो एक डेटा सेट की न्यूनतम, अधिकतम और औसत गणना करना "अप्राप्त शिक्षा" भी है। फिर किसी भी गणना ने "आउटपुट" सीखा। इस प्रकार less अप्रशिक्षित शिक्षा ’शब्द पूरी तरह से अर्थहीन है , इसका अर्थ है सब कुछ और कुछ भी नहीं।

हालांकि, कुछ "अनप्रूव्ड लर्निंग" एल्गोरिदम करते हैं, हालांकि, अनुकूलन श्रेणी में आते हैं। उदाहरण के-साधन के लिए है एक कम से कम वर्गों अनुकूलन। इस तरह के तरीके सभी आंकड़ों पर आधारित होते हैं, इसलिए मुझे नहीं लगता कि हमें उन्हें "अनप्रूव्ड लर्निंग" लेबल करने की आवश्यकता है, लेकिन इसके बजाय उन्हें "अनुकूलन समस्याओं" को जारी रखना चाहिए। यह अधिक सटीक है, और अधिक सार्थक है। बहुत सारे क्लस्टरिंग एल्गोरिदम हैं जो अनुकूलन को शामिल नहीं करते हैं, और जो मशीन-सीखने के प्रतिमानों में अच्छी तरह से फिट नहीं होते हैं। तो छतरी के नीचे उन्हें वहां से छीनना बंद कर दें "अप्राप्त शिक्षा"।

कुछ "सीखने" क्लस्टरिंग के साथ जुड़ा हुआ है, लेकिन यह ऐसा कार्यक्रम नहीं है जो सीखता है। यह वह उपयोगकर्ता है जो अपने डेटा सेट के बारे में नई चीजें सीखना चाहता है।


इस जवाब ने मुझे एहसास दिलाया कि मैं एक वर्गीकरण व्यक्ति था। इसने वास्तव में मेरी मदद की।
काटा

प्रत्येक क्लस्टरिंग एल्गोरिथ्म एक सामान्य मेटा मॉडल मानता है। Btw, वही निगरानी सीखने के लिए जाता है, उदाहरण के लिए तंत्रिका नेटवर्क (NN)। दोनों कैसड (पर्यवेक्षित और अनुपयोगी) में, हम (कभी-कभी छिपे हुए) लागत फ़ंक्शन के अनुसार डेटा को फिट करने के लिए सामान्य मेटा मॉडल के मापदंडों को अनुकूलित करते हैं। (इस भाग को "सीखना" कहा जाता है।) यह दोनों, क्लस्टरिंग और क्लासिफिकेशन के लिए जाता है। दोनों ही मामलों में हम एक विशिष्ट मॉडल (एक मान्य सामान्य मेटा मॉडल के आधार पर) प्रस्तुत आंकड़ों के अनुसार अनुकूलित करके सीखते हैं। विशिष्ट अनुकूलित क्लस्टरिंग मॉडल का उपयोग करके हम समूहों में डेटा को क्लस्टर करने में सक्षम हैं।
Make42

टी एल; डॉ: आप कर रहे हैं सही है कि क्लस्टरिंग है नहीं "के चलते किसी classifcation", लेकिन usupervised सीखने एक विरोधाभास नहीं है - सीखने हो रहा है !
Make42

उदाहरण के लिए, DBSCAN में "सीखना" कहां है?
QUIT - एनी-मूस

4

क्लस्टरिंग करके, आप अपने वांछित गुणों जैसे कि संख्या, आकृति और निकाले गए समूहों के अन्य गुणों के साथ डेटा समूह कर सकते हैं। जबकि, वर्गीकरण में, समूहों की संख्या और आकार निश्चित होते हैं। क्लस्टरिंग एल्गोरिदम के अधिकांश एक पैरामीटर के रूप में क्लस्टर की संख्या देते हैं। हालांकि, उचित संख्या में समूहों का पता लगाने के लिए कुछ दृष्टिकोण हैं।


4

सबसे पहले, जैसे कई उत्तर यहां दिए गए हैं: वर्गीकरण की देखरेख सीखने के लिए की जाती है और क्लस्टरिंग अप्रचलित है। इसका मतलब है की:

  1. वर्गीकरण को लेबल किए गए डेटा की आवश्यकता होती है, ताकि इस डेटा पर क्लासिफ़ायरर्स को प्रशिक्षित किया जा सके, और उसके बाद वह जो कुछ भी जानता है, उसके आधार पर नए अनदेखे डेटा को वर्गीकृत करना शुरू करें। क्लस्टरिंग जैसे अनसुचित शिक्षण में लेबल डेटा का उपयोग नहीं होता है, और यह वास्तव में जो कुछ भी करता है वह समूहों जैसे डेटा में आंतरिक संरचनाओं की खोज करना है।

  2. दोनों तकनीकों के बीच एक और अंतर (पिछले एक से संबंधित), तथ्य यह है कि वर्गीकरण असतत प्रतिगमन समस्या का एक रूप है जहां आउटपुट एक श्रेणीगत निर्भर चर है। जबकि क्लस्टरिंग के आउटपुट से समूह के सबसेट सेट का उत्पादन होता है। इन दो मॉडलों का मूल्यांकन करने का तरीका भी एक ही कारण के लिए अलग है: वर्गीकरण में आपको अक्सर सटीक और याद रखने के लिए जांच करना पड़ता है, ओवरफिटिंग और अंडरफिटिंग जैसी चीजें, आदि। ये चीजें आपको बताएंगी कि मॉडल कितना अच्छा है। लेकिन क्लस्टरिंग में आमतौर पर आपको जो कुछ भी मिलता है उसकी व्याख्या करने के लिए आपको और विशेषज्ञ की दृष्टि की आवश्यकता होती है, क्योंकि आपको नहीं पता कि आपके पास किस प्रकार की संरचना (समूह या क्लस्टर का प्रकार) है। इसलिए क्लस्टरिंग खोजपूर्ण डेटा विश्लेषण के अंतर्गत आता है।

  3. अंत में, मैं कहूंगा कि अनुप्रयोग दोनों के बीच मुख्य अंतर हैं। वर्गीकरण जैसा कि शब्द कहता है, का उपयोग ऐसे उदाहरणों में भेदभाव करने के लिए किया जाता है जो एक वर्ग या किसी अन्य के होते हैं, उदाहरण के लिए एक पुरुष या एक महिला, एक बिल्ली या एक कुत्ता, आदि। क्लस्टरिंग का उपयोग अक्सर चिकित्सा बीमारी के निदान, पैटर्न की खोज में किया जाता है। आदि।


3

वर्गीकरण : असतत आउटपुट => इनपुट इनपुट चर को असतत श्रेणियों में परिणामित करें

यहां छवि विवरण दर्ज करें

लोकप्रिय उपयोग के मामले:

  1. ईमेल वर्गीकरण: स्पैम या गैर-स्पैम

  2. ग्राहक को स्वीकृति ऋण: हाँ यदि वह स्वीकृत ऋण राशि के लिए ईएमआई देने में सक्षम है। नहीं अगर वह नहीं कर सकता

  3. कैंसर ट्यूमर कोशिकाओं की पहचान: क्या यह महत्वपूर्ण या गैर-महत्वपूर्ण है?

  4. ट्वीट का सेंटीमेंट विश्लेषण: ट्वीट सकारात्मक या नकारात्मक या तटस्थ है

  5. समाचारों का वर्गीकरण: समाचारों को पूर्वनिर्धारित कक्षाओं में से एक में वर्गीकृत करें - राजनीति, खेल, स्वास्थ्य आदि

क्लस्टरिंग : वस्तुओं के एक समूह को इस तरह से समूहीकृत करने का कार्य है कि एक ही समूह में वस्तुओं (एक क्लस्टर कहा जाता है) अधिक समान (कुछ अर्थों में) अन्य समूहों (क्लस्टर) में उन लोगों की तुलना में एक दूसरे के समान हैं

यहां छवि विवरण दर्ज करें

यहां छवि विवरण दर्ज करें

लोकप्रिय उपयोग के मामले:

  1. विपणन: विपणन उद्देश्यों के लिए ग्राहक सेगमेंट की खोज करें

  2. जीव विज्ञान: पौधों और जानवरों की विभिन्न प्रजातियों के बीच वर्गीकरण

  3. पुस्तकालयों: विषयों और सूचनाओं के आधार पर विभिन्न पुस्तकों का क्लस्टरिंग

  4. बीमा: ग्राहकों, उनकी नीतियों और धोखाधड़ी की पहचान करना

  5. सिटी प्लानिंग: घरों के समूह बनाएं और उनके भौगोलिक स्थानों और अन्य कारकों के आधार पर उनके मूल्यों का अध्ययन करें।

  6. भूकंप अध्ययन: खतरनाक क्षेत्रों की पहचान करना

  7. सिफारिश प्रणाली :

संदर्भ:

geeksforgeeks

dataaspirant

3leafnodes


2

वर्गीकरण - श्रेणीबद्ध लेबल की भविष्यवाणी करता है - एक प्रशिक्षण सेट के आधार पर डेटा (एक मॉडल का निर्माण करता है) को वर्गीकृत करता है और एक वर्ग लेबल विशेषता में मूल्यों (वर्ग लेबल) - नए डेटा को वर्गीकृत करने में मॉडल का उपयोग करता है

क्लस्टर: डेटा ऑब्जेक्ट्स का एक संग्रह - एक ही क्लस्टर के भीतर एक दूसरे के समान - अन्य समूहों में वस्तुओं के लिए डिस्मिलर


2

क्लस्टरिंग का लक्ष्य डेटा में समूहों को खोजना है। "क्लस्टर" एक सहज ज्ञान युक्त अवधारणा है और इसमें गणितीय रूप से कठोर परिभाषा नहीं है। एक क्लस्टर के सदस्यों को एक दूसरे के समान होना चाहिए और अन्य समूहों के सदस्यों के लिए भिन्न होना चाहिए। एक क्लस्टरिंग एल्गोरिथ्म एक अनलेब किए गए डेटा सेट जेड पर संचालित होता है और उस पर एक विभाजन का उत्पादन करता है।

क्लास और क्लास लेबल के लिए, क्लास में समान ऑब्जेक्ट होते हैं, जबकि अलग-अलग क्लास से ऑब्जेक्ट डिसिमिलर होते हैं। कुछ वर्गों का स्पष्ट अर्थ है, और सरलतम मामले में परस्पर अनन्य हैं। उदाहरण के लिए, हस्ताक्षर सत्यापन में, हस्ताक्षर या तो वास्तविक या जाली है। सच्चा वर्ग दो में से एक है, कोई फर्क नहीं पड़ता कि हम एक विशेष हस्ताक्षर के अवलोकन से सही ढंग से अनुमान लगाने में सक्षम नहीं हो सकते हैं।


2

क्लस्टरिंग ऑब्जेक्ट्स को इस तरह से समूहीकृत करने की एक विधि है, जिसमें समान फीचर्स वाली ऑब्जेक्ट्स एक साथ आती हैं, और डिसिमिलर फीचर्स वाली ऑब्जेक्ट्स अलग हो जाती हैं। यह मशीन सीखने और डेटा खनन में उपयोग किए जाने वाले सांख्यिकीय डेटा विश्लेषण के लिए एक सामान्य तकनीक है।

वर्गीकरण वर्गीकरण की एक प्रक्रिया है जहाँ वस्तुओं को डेटा के प्रशिक्षण सेट के आधार पर मान्यता, विभेदित और समझा जाता है। वर्गीकरण एक पर्यवेक्षित शिक्षण तकनीक है जहां प्रशिक्षण सेट और सही ढंग से परिभाषित अवलोकन उपलब्ध हैं।


2

पुस्तक महावत इन एक्शन से, और मुझे लगता है कि यह अंतर को बहुत अच्छी तरह से समझाता है:

वर्गीकरण एल्गोरिदम संबंधित हैं, लेकिन अभी भी k- साधन एल्गोरिथ्म जैसे क्लस्टरिंग एल्गोरिदम से काफी अलग हैं।

वर्गीकरण एल्गोरिदम पर्यवेक्षित अधिगम का एक रूप है, जैसा कि अप्रशिक्षित अधिगम के विपरीत है, जो क्लस्टरिंग एल्गोरिदम के साथ होता है।

एक पर्यवेक्षित शिक्षण एल्गोरिथ्म वह है जिसे ऐसे उदाहरण दिए जाते हैं जिनमें लक्ष्य चर का वांछित मान होता है। Unsupervised एल्गोरिदम को वांछित उत्तर नहीं दिया जाता है, लेकिन इसके बजाय उन्हें अपने आप ही कुछ प्रशंसनीय खोजना होगा।


2

वर्गीकरण के लिए एक लाइनर:

डेटा को पूर्व-परिभाषित श्रेणियों में वर्गीकृत करना

क्लस्टरिंग के लिए एक लाइनर:

डेटा को श्रेणियों के एक समूह में बांटना

मुख्य अंतर:

वर्गीकरण डेटा ले रहा है और इसे पूर्व-निर्धारित श्रेणियों में डाल रहा है और श्रेणियों के सेट को क्लस्टर करके, जिसे आप डेटा में समूह बनाना चाहते हैं, पहले से ज्ञात नहीं है।

निष्कर्ष:

  • वर्गीकरण 1 नए आइटम को श्रेणी प्रदान करता है, जो पहले से ही लेबल की गई वस्तुओं पर आधारित है, जबकि क्लस्टरिंग अनलिस्टेड आइटमों का एक गुच्छा लेता है और उन्हें श्रेणियों में विभाजित करता है
  • वर्गीकरण में, विभाजित किए जाने वाले श्रेणियों के समूहों को पहले से जाना जाता है, जबकि क्लस्टरिंग में, विभाजित किए जाने वाले श्रेणियों के समूह पहले से अज्ञात होते हैं
  • वर्गीकरण में, 2 चरण हैं - प्रशिक्षण चरण और फिर परीक्षण चरण जबकि क्लस्टरिंग में, केवल 1 चरण है - समूहों में प्रशिक्षण डेटा का विभाजन
  • वर्गीकरण सुपरवाइज्ड लर्निंग है जबकि क्लस्टरिंग अनसुप्राइज़्ड लर्निंग है

मैंने उसी विषय पर एक लंबी पोस्ट लिखी है जिसे आप यहाँ पा सकते हैं:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/


1

यदि आप अपने शेल्फ पर बड़ी संख्या में शीट (तारीख या फ़ाइल के कुछ अन्य विनिर्देश के आधार पर) दर्ज करने की कोशिश कर रहे हैं, तो आप CLASSIFYING कर रहे हैं।

यदि आप शीट के सेट से क्लस्टर बनाना चाहते थे, तो इसका मतलब यह होगा कि शीट के बीच कुछ समान है।


1

डेटा माइनिंग "सुपरवाइज़्ड" और "अनसुपर्विज़्ड" में दो परिभाषाएँ हैं। जब कोई कंप्यूटर, एल्गोरिथ्म, कोड, ... को बताता है कि यह चीज एक सेब की तरह है और वह चीज नारंगी की तरह है, तो यह पर्यवेक्षित सीखने और पर्यवेक्षित अधिगम (डेटा सेट में प्रत्येक नमूने के लिए टैग) का उपयोग करके वर्गीकृत किया जाता है। डेटा, आप वर्गीकरण मिलेगा। लेकिन दूसरी तरफ अगर आप कंप्यूटर को यह पता लगाने देते हैं कि दिए गए डेटा सेट की विशेषताओं में क्या अंतर है और अंतर है, तो वास्तव में अनपेक्षित रूप से सीखने के लिए, डेटा सेट को वर्गीकृत करने के लिए इसे क्लस्टरिंग कहा जाएगा। इस मामले में एल्गोरिथ्म को खिलाए गए डेटा में टैग नहीं होते हैं और एल्गोरिथ्म को विभिन्न वर्गों का पता लगाना चाहिए।


1

मशीन लर्निंग या AI मोटे तौर पर उस कार्य से माना जाता है जिसे वह निष्पादित / प्राप्त करता है।

मेरी राय में, कार्य की धारणा में क्लस्टरिंग और वर्गीकरण के बारे में सोचने से वे वास्तव में दोनों के बीच के अंतर को समझने में मदद कर सकते हैं।

समूह चीजों के लिए क्लस्टरिंग है और वर्गीकरण, चीजों की तरह, लेबल करना है।

मान लेते हैं कि आप एक पार्टी हॉल में हैं, जहाँ सभी पुरुष सूट में हैं और महिलाएँ गाउन में हैं।

अब, आप अपने मित्र से कुछ प्रश्न पूछते हैं:

Q1: अरे, क्या आप मुझे समूह के लोगों की मदद कर सकते हैं?

संभावित उत्तर जो आपके मित्र दे सकते हैं:

1: वह लिंग, पुरुष या महिला के आधार पर लोगों को समूहित कर सकता है

2: वह अपने कपड़ों के आधार पर लोगों को समूह दे सकता है, 1 अन्य सूट पहने हुए गाउन पहन सकता है

3: वह लोगों को उनके बालों के रंग के आधार पर समूह बना सकता है

4: वह अपने आयु वर्ग के आधार पर लोगों को समूह बना सकता है, आदि आदि।

आपके मित्र इस कार्य को पूरा करने के कई तरीके हैं।

बेशक, आप अतिरिक्त इनपुट प्रदान करके उसकी निर्णय लेने की प्रक्रिया को प्रभावित कर सकते हैं जैसे:

क्या आप इन लोगों को लिंग (या आयु वर्ग, या बालों का रंग या ड्रेस आदि) के आधार पर मेरी मदद कर सकते हैं।

Q2:

Q2 से पहले, आपको कुछ पूर्व-कार्य करने की आवश्यकता है।

आपको अपने दोस्त को पढ़ाना या सूचित करना होगा ताकि वह सूचित निर्णय ले सके। तो, चलिए आपको बताते हैं कि आपने अपने दोस्त को क्या कहा:

  • लंबे बालों वाले लोग महिलाएं होती हैं।

  • छोटे बाल वाले लोग मेन होते हैं।

Q2। अब, आप लंबे बालों के साथ एक व्यक्ति को इंगित करते हैं और अपने दोस्त से पूछते हैं - यह एक आदमी है या एक महिला है?

एकमात्र उत्तर जो आप उम्मीद कर सकते हैं वह है: महिला।

बेशक, पार्टी में लंबे बाल वाले पुरुष और छोटे बाल वाले महिलाएं हो सकती हैं। लेकिन, आपके मित्र द्वारा प्रदान की गई शिक्षा के आधार पर उत्तर सही है। आप दोनों के बीच अंतर करने के तरीके के बारे में अपने मित्र को अधिक सिखाकर प्रक्रिया को और बेहतर बना सकते हैं।

उपरोक्त उदाहरण में,

Q1 उस कार्य का प्रतिनिधित्व करता है जो क्लस्टरिंग प्राप्त करता है।

क्लस्टरिंग में आप एल्गोरिथ्म (अपने मित्र) को डेटा (लोग) प्रदान करते हैं और इसे डेटा को समूहित करने के लिए कहते हैं।

अब, यह तय करना एल्गोरिथम है कि समूह का सबसे अच्छा तरीका क्या है? (लिंग, रंग या आयु वर्ग)।

फिर, आप निश्चित रूप से एल्गोरिदम द्वारा किए गए निर्णय को अतिरिक्त इनपुट प्रदान करके प्रभावित कर सकते हैं।

Q2 कार्य वर्गीकरण का प्रतिनिधित्व करता है।

वहां, आप अपने एल्गोरिथ्म (अपने मित्र) को कुछ डेटा (लोग) देते हैं, जिसे प्रशिक्षण डेटा कहा जाता है, और उसे यह पता चलता है कि कौन सा डेटा किस लेबल (पुरुष या महिला) से मेल खाता है। फिर आप अपने एल्गोरिथ्म को कुछ डेटा के लिए इंगित करते हैं, जिसे टेस्ट डेटा कहा जाता है, और यह निर्धारित करने के लिए कहें कि यह पुरुष या महिला है। आपका शिक्षण जितना बेहतर होगा, वह उतना ही बेहतर होगा।

और Q2 या वर्गीकरण में पूर्व-कार्य केवल अपने मॉडल को प्रशिक्षित करने के अलावा कुछ भी नहीं है ताकि यह सीख सके कि कैसे अंतर करना है। क्लस्टरिंग या Q1 में यह प्री-वर्क ग्रुपिंग का हिस्सा है।

आशा है कि यह किसी की मदद करता है।

धन्यवाद


1

यहां छवि विवरण दर्ज करें

वर्गीकरण - डेटा-सेट में विभिन्न समूह / कक्षाएं हो सकती हैं। लाल, हरा और काला। वर्गीकरण उन नियमों को खोजने का प्रयास करेगा जो उन्हें विभिन्न वर्गों में विभाजित करते हैं।

Custering- यदि किसी डेटा-सेट में कोई क्लास नहीं है और आप उन्हें किसी क्लास / ग्रुपिंग में रखना चाहते हैं, तो आप क्लस्टरिंग करते हैं। ऊपर का बैंगनी घेरा।

यदि वर्गीकरण नियम अच्छे नहीं हैं, तो आपके पास परीक्षण में गलत वर्गीकरण होगा या उर नियम पर्याप्त नहीं हैं।
यदि क्लस्टरिंग अच्छा नहीं है, तो आपके पास बहुत सारे आउटलेयर होंगे। डेटा बिंदु किसी भी क्लस्टर में गिरने में सक्षम नहीं हैं।


1

वर्गीकरण और क्लस्टरिंग के बीच मुख्य अंतर हैं: वर्गीकरण, लेबल की मदद से डेटा को वर्गीकृत करने की प्रक्रिया है। दूसरी ओर, क्लस्टरिंग वर्गीकरण के समान है लेकिन कोई पूर्वनिर्धारित वर्ग लेबल नहीं हैं। वर्गीकरण की निगरानी पर्यवेक्षण के साथ की जाती है। के रूप में, क्लस्टरिंग को अनिश्चित सीखने के रूप में भी जाना जाता है। प्रशिक्षण नमूना वर्गीकरण विधि में प्रदान किया जाता है, जबकि क्लस्टरिंग प्रशिक्षण डेटा के मामले में प्रदान नहीं किया जाता है।

आशा है कि यह मदद करेगा!


-1

मेरा मानना ​​है कि वर्गीकरण पूर्वनिर्धारित कक्षाओं में या यहां तक ​​कि कक्षाओं को परिभाषित करने वाले डेटा में रिकॉर्ड को वर्गीकृत कर रहा है। मैं इसे किसी भी मूल्यवान डेटा खनन के लिए पूर्व-आवश्यकता के रूप में देखता हूं, मैं इसे अनिश्चित सीखने के बारे में सोचना पसंद करता हूं अर्थात कोई यह नहीं जानता कि वह क्या देख रहा है जबकि डेटा और वर्गीकरण एक अच्छा प्रारंभिक बिंदु के रूप में कार्य करता है

दूसरे छोर पर चढ़ना निगरानी सीखने के अंतर्गत आता है। किसी को पता है कि मापदंडों को क्या देखना है, महत्वपूर्ण स्तरों के साथ उनके बीच संबंध। मेरा मानना ​​है कि इसके लिए सांख्यिकी और गणित की कुछ समझ की आवश्यकता है


3
यह वास्तव में दूसरा तरीका है। वर्गीकरण की आमतौर पर देखरेख की जाती है और क्लस्टरिंग आमतौर पर अनसुनी की जाती है।
एलेक्सा
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.