निर्णय वृक्ष बनाम केएनएन

15

किन मामलों में निर्णय वृक्ष और अन्य मामलों का उपयोग करना बेहतर है?

कुछ मामलों में उनमें से एक का उपयोग क्यों करें? और अन्य विभिन्न मामलों में? (एल्गोरिथ्म में नहीं, इसकी कार्यक्षमता को देखकर)

किसी को भी इस बारे में कुछ स्पष्टीकरण या संदर्भ है?

machine-learning data-mining decision-trees

— gchavez1
स्रोत

2

KNN अप्रकाशित नहीं है। शायद उत्तर k- साधनों के बारे में सोच रहा था?

2

डिसीजन ट्री लर्निंग भी अनसुनी नहीं है। en.wikipedia.org/wiki/Supervised_learning ।

— वैलेंटाइन्स

9

वे विभिन्न उद्देश्यों की पूर्ति करते हैं।

केएनएन अनसर्वलाइज़्ड है, डिसिजन ट्री (डीटी) की देखरेख की जाती है। ( केएन-मीनू अप्रशिक्षित होने के दौरान केएनएन की देखरेख की जाती है, मुझे लगता है कि यह उत्तर कुछ भ्रम का कारण बनता है। ) KNN का उपयोग क्लस्टरिंग, डीटी के वर्गीकरण के लिए किया जाता है। ( दोनों वर्गीकरण के लिए उपयोग किए जाते हैं। )

KNN पड़ोस को निर्धारित करता है, इसलिए एक दूरी मीट्रिक होनी चाहिए। तात्पर्य यह है कि सभी सुविधाएँ संख्यात्मक होनी चाहिए। दूरी मैट्रिक्स विशेषताओं और उच्च-आयामी स्थान के बीच अलग-अलग पैमाने से प्रभावित हो सकते हैं।

दूसरी ओर, डीटी एक दिए गए इनपुट वेक्टर के लिए एक वर्ग की भविष्यवाणी करता है। विशेषताएँ संख्यात्मक या नाममात्र हो सकती हैं।

इसलिए, यदि आप समान उदाहरण खोजना चाहते हैं तो आप KNN का उपयोग कर सकते हैं। यदि आप उदाहरणों को वर्गीकृत करना चाहते हैं तो आप डीटी का उपयोग कर सकते हैं।

— दर्शन जैन
स्रोत

स्पष्टीकरण: क्लस्टरिंग, लेकिन किसी दिए गए इनपुट वेक्टर के चारों ओर एक एकल k- आकार क्लस्टर। यह जरूरी नहीं है कि सभी सुविधाएँ संख्यात्मक होनी चाहिए। उदाहरण के लिए, आप एक दूरी को परिभाषित करने के लिए जैककार्ड समानता का उपयोग कर सकते हैं जहां विशेषताएं नाममात्र हैं।

10

असल में, वे दोनों देखरेख कर रहे हैं। पर्यवेक्षित का मतलब है कि सीखने वाले के पास एक लेबल प्रशिक्षण सेट तक पहुंच है। Unsupervised एल्गोरिदम क्लस्टरिंग जैसी चीजें करते हैं, न कि लेबल की भविष्यवाणी।

— जॉर्डन ए

1

आप अपने K पड़ोसियों के बहुमत के आधार पर KNN के साथ वर्गीकृत कर सकते हैं

— Jekaterina Kokatjuhha

3

-1 knnऔर k-meansअलग-अलग एल्गोरिदम हैं और यह जवाब दुर्भाग्य से (और गलती से) उन दो प्रक्रियाओं को याद करता है। knnन तो अव्यवस्थित है और न ही क्लस्टरिंग के लिए उपयोग किया जाता है! देखें क्यू: डिफेंस kNN एंड kMean

— सेबनाग

@ SebNag, क्या यह कहना उचित है कि विज्ञान-किट "अनसुपर्वीकृत निकटतम पड़ोसियों" खंड को वास्तव में केवल भेस में k- साधनों के बारे में बात कर रहा है? scikit-learn.org/stable/modules/neighbors.html ऐसा लगता है कि खंड knn का उपयोग करता है, लेकिन बिना किसी लेबल ज्ञान के साथ समूहों को निर्धारित करने के बजाय किसी प्रकार की दूरी माप के साथ .. अर्थात यह k- साधन जैसा लगता है।

— फ्राईस्टर

8

क्लासिफायर ट्री, बायेसियन, बैक-प्रोपगेशन, सपोर्ट वेक्टर मशीन जैसे क्लासिफायर "एगर लर्नर्स" की श्रेणी में आते हैं , क्योंकि वे टेस्ट डेटासेट पर वास्तव में वर्गीकृत करने में सक्षम होने से पहले प्रशिक्षण डेटासेट पर एक वर्गीकरण मॉडल का निर्माण करते हैं । सीखा मॉडल अब "उत्सुक" है (भूखे पढ़ें) पहले अनदेखी टिप्पणियों को वर्गीकृत करने के लिए, इसलिए नाम।

केएनएन-आधारित क्लासिफायर, हालांकि, किसी भी वर्गीकरण मॉडल का निर्माण नहीं करता है। यह सीधे प्रशिक्षण उदाहरणों (टिप्पणियों) से सीखता है। यह वर्गीकृत करने के लिए परीक्षण अवलोकन दिए जाने के बाद ही डेटा संसाधित करना शुरू करता है। इस प्रकार, KNN "आलसी शिक्षार्थी" दृष्टिकोण की श्रेणी में आता है ।

उपरोक्त मूलभूत अंतरों के आधार पर, हम निम्नलिखित निष्कर्ष निकाल सकते हैं: -

चूंकि KNN ऑन-द-स्पॉट लर्निंग करता है, इसलिए इसे लगातार डेटाबेस लुकअप की आवश्यकता होती है, इसलिए, कम्प्यूटेशनल रूप से महंगा हो सकता है। डिसीजन ट्री क्लासिफायर में इस तरह के लुक्स की जरूरत नहीं होती क्योंकि इसमें इन-मेमोरी क्लासिफिकेशन मॉडल तैयार होता है।
चूंकि KNN उदाहरण-आधारित सीखने का प्रदर्शन करता है, एक अच्छी तरह से ट्यून किए जाने वाला K जटिल निर्णय स्थान बना सकता है जिसमें मनमाने ढंग से जटिल निर्णय सीमाएँ होती हैं, जो आसानी से निर्णय लेने वाले अन्य "उत्सुक" शिक्षार्थियों द्वारा मॉडलिंग नहीं की जाती हैं।
"एगर" शिक्षार्थी बैचों में काम करते हैं, एक समय में प्रशिक्षण टिप्पणियों का एक समूह मॉडलिंग करते हैं। इसलिए वे वृद्धिशील सीखने के लिए फिट नहीं हैं। लेकिन KNN स्वाभाविक रूप से वृद्धिशील अधिगम (डेटा स्ट्रीम) का समर्थन करता है क्योंकि यह एक उदाहरण-आधारित शिक्षार्थी है।
इसके अलावा, KNN क्लासिफायर, बेयसियन क्लासियर (गोल्ड स्टैंडर्ड) के करीब परीक्षण त्रुटि दर देता है। ISLR में उद्धृत :

बेयस त्रुटि दर इरेड्यूबल त्रुटि के अनुरूप है

— spkakkar
स्रोत

4

सेबस्टियन रस्का के अजगर मशीन लर्निंग से :

इस तरह के मेमोरी-आधारित दृष्टिकोण [केएनएन] का मुख्य लाभ यह है कि क्लासिफायर तुरंत ही हमें नए प्रशिक्षण डेटा एकत्र करने के लिए तैयार करता है। हालांकि, नकारात्मक पक्ष यह है कि नए नमूनों को वर्गीकृत करने के लिए कम्प्यूटेशनल जटिलता सबसे खराब स्थिति में प्रशिक्षण डेटासेट में नमूनों की संख्या के साथ रैखिक रूप से बढ़ती है - जब तक कि डाटासेट में बहुत कम आयाम (विशेषताएं) नहीं हैं और एल्गोरिथ्म को कुशल डेटा का उपयोग करके लागू किया गया है केडी-पेड़ जैसी संरचनाएं। जेएच फ्राइडमैन, जेएल बेंटले, और आरए फिन्केल। लॉगरिदमिक अपेक्षित समय में सर्वश्रेष्ठ मैच खोजने के लिए एक एल्गोरिथ्म। गणितीय सॉफ्टवेयर (TOMS), 3 (3): 209–226, 1977 पर ACM लेनदेन। इसके अलावा, हम प्रशिक्षण के नमूने नहीं छोड़ सकते क्योंकि कोई भी प्रशिक्षण कदम शामिल नहीं है। इस प्रकार, भंडारण स्थान एक चुनौती बन सकता है अगर हम बड़े डेटासेट के साथ काम कर रहे हैं।

हालांकि, निर्णय का पेड़ तेजी से नए उदाहरणों को वर्गीकृत कर सकता है। आप बस बूलियन तुलना की एक श्रृंखला चला रहे हैं।

— रसेल रिची
स्रोत

2

मुझे लगता है कि निर्णय पेड़ों का उपयोग वर्गीकरण और प्रतिगमन कार्यों दोनों के लिए किया जा सकता है। दूसरी ओर डीटी स्वीकार किए गए उत्तर में एक वर्ग की भविष्यवाणी करता है वर्गीकरण पेड़ों का वर्णन करके अधिक विशिष्ट होगा जो तकनीकी रूप से जेनेरिक डीटी अवधारणा का एक उपप्रकार है। एक संदर्भ (नीचे परतों की अनदेखी जो विशिष्ट कार्यान्वयन पर चर्चा करते हैं):
यहां से: http://www.simafore.com/blog/bid/62482/2-main-differences-between-classification-and-regression-trees

— Farmi
स्रोत