किन मामलों में निर्णय वृक्ष और अन्य मामलों का उपयोग करना बेहतर है?
कुछ मामलों में उनमें से एक का उपयोग क्यों करें? और अन्य विभिन्न मामलों में? (एल्गोरिथ्म में नहीं, इसकी कार्यक्षमता को देखकर)
किसी को भी इस बारे में कुछ स्पष्टीकरण या संदर्भ है?
किन मामलों में निर्णय वृक्ष और अन्य मामलों का उपयोग करना बेहतर है?
कुछ मामलों में उनमें से एक का उपयोग क्यों करें? और अन्य विभिन्न मामलों में? (एल्गोरिथ्म में नहीं, इसकी कार्यक्षमता को देखकर)
किसी को भी इस बारे में कुछ स्पष्टीकरण या संदर्भ है?
जवाबों:
वे विभिन्न उद्देश्यों की पूर्ति करते हैं।
केएनएन अनसर्वलाइज़्ड है, डिसिजन ट्री (डीटी) की देखरेख की जाती है। ( केएन-मीनू अप्रशिक्षित होने के दौरान केएनएन की देखरेख की जाती है, मुझे लगता है कि यह उत्तर कुछ भ्रम का कारण बनता है। ) KNN का उपयोग क्लस्टरिंग, डीटी के वर्गीकरण के लिए किया जाता है। ( दोनों वर्गीकरण के लिए उपयोग किए जाते हैं। )
KNN पड़ोस को निर्धारित करता है, इसलिए एक दूरी मीट्रिक होनी चाहिए। तात्पर्य यह है कि सभी सुविधाएँ संख्यात्मक होनी चाहिए। दूरी मैट्रिक्स विशेषताओं और उच्च-आयामी स्थान के बीच अलग-अलग पैमाने से प्रभावित हो सकते हैं।
दूसरी ओर, डीटी एक दिए गए इनपुट वेक्टर के लिए एक वर्ग की भविष्यवाणी करता है। विशेषताएँ संख्यात्मक या नाममात्र हो सकती हैं।
इसलिए, यदि आप समान उदाहरण खोजना चाहते हैं तो आप KNN का उपयोग कर सकते हैं। यदि आप उदाहरणों को वर्गीकृत करना चाहते हैं तो आप डीटी का उपयोग कर सकते हैं।
knn
और k-means
अलग-अलग एल्गोरिदम हैं और यह जवाब दुर्भाग्य से (और गलती से) उन दो प्रक्रियाओं को याद करता है। knn
न तो अव्यवस्थित है और न ही क्लस्टरिंग के लिए उपयोग किया जाता है! देखें क्यू: डिफेंस kNN एंड kMean
क्लासिफायर ट्री, बायेसियन, बैक-प्रोपगेशन, सपोर्ट वेक्टर मशीन जैसे क्लासिफायर "एगर लर्नर्स" की श्रेणी में आते हैं , क्योंकि वे टेस्ट डेटासेट पर वास्तव में वर्गीकृत करने में सक्षम होने से पहले प्रशिक्षण डेटासेट पर एक वर्गीकरण मॉडल का निर्माण करते हैं । सीखा मॉडल अब "उत्सुक" है (भूखे पढ़ें) पहले अनदेखी टिप्पणियों को वर्गीकृत करने के लिए, इसलिए नाम।
केएनएन-आधारित क्लासिफायर, हालांकि, किसी भी वर्गीकरण मॉडल का निर्माण नहीं करता है। यह सीधे प्रशिक्षण उदाहरणों (टिप्पणियों) से सीखता है। यह वर्गीकृत करने के लिए परीक्षण अवलोकन दिए जाने के बाद ही डेटा संसाधित करना शुरू करता है। इस प्रकार, KNN "आलसी शिक्षार्थी" दृष्टिकोण की श्रेणी में आता है ।
उपरोक्त मूलभूत अंतरों के आधार पर, हम निम्नलिखित निष्कर्ष निकाल सकते हैं: -
चूंकि KNN ऑन-द-स्पॉट लर्निंग करता है, इसलिए इसे लगातार डेटाबेस लुकअप की आवश्यकता होती है, इसलिए, कम्प्यूटेशनल रूप से महंगा हो सकता है। डिसीजन ट्री क्लासिफायर में इस तरह के लुक्स की जरूरत नहीं होती क्योंकि इसमें इन-मेमोरी क्लासिफिकेशन मॉडल तैयार होता है।
चूंकि KNN उदाहरण-आधारित सीखने का प्रदर्शन करता है, एक अच्छी तरह से ट्यून किए जाने वाला K जटिल निर्णय स्थान बना सकता है जिसमें मनमाने ढंग से जटिल निर्णय सीमाएँ होती हैं, जो आसानी से निर्णय लेने वाले अन्य "उत्सुक" शिक्षार्थियों द्वारा मॉडलिंग नहीं की जाती हैं।
"एगर" शिक्षार्थी बैचों में काम करते हैं, एक समय में प्रशिक्षण टिप्पणियों का एक समूह मॉडलिंग करते हैं। इसलिए वे वृद्धिशील सीखने के लिए फिट नहीं हैं। लेकिन KNN स्वाभाविक रूप से वृद्धिशील अधिगम (डेटा स्ट्रीम) का समर्थन करता है क्योंकि यह एक उदाहरण-आधारित शिक्षार्थी है।
इसके अलावा, KNN क्लासिफायर, बेयसियन क्लासियर (गोल्ड स्टैंडर्ड) के करीब परीक्षण त्रुटि दर देता है। ISLR में उद्धृत :
बेयस त्रुटि दर इरेड्यूबल त्रुटि के अनुरूप है
सेबस्टियन रस्का के अजगर मशीन लर्निंग से :
इस तरह के मेमोरी-आधारित दृष्टिकोण [केएनएन] का मुख्य लाभ यह है कि क्लासिफायर तुरंत ही हमें नए प्रशिक्षण डेटा एकत्र करने के लिए तैयार करता है। हालांकि, नकारात्मक पक्ष यह है कि नए नमूनों को वर्गीकृत करने के लिए कम्प्यूटेशनल जटिलता सबसे खराब स्थिति में प्रशिक्षण डेटासेट में नमूनों की संख्या के साथ रैखिक रूप से बढ़ती है - जब तक कि डाटासेट में बहुत कम आयाम (विशेषताएं) नहीं हैं और एल्गोरिथ्म को कुशल डेटा का उपयोग करके लागू किया गया है केडी-पेड़ जैसी संरचनाएं। जेएच फ्राइडमैन, जेएल बेंटले, और आरए फिन्केल। लॉगरिदमिक अपेक्षित समय में सर्वश्रेष्ठ मैच खोजने के लिए एक एल्गोरिथ्म। गणितीय सॉफ्टवेयर (TOMS), 3 (3): 209–226, 1977 पर ACM लेनदेन। इसके अलावा, हम प्रशिक्षण के नमूने नहीं छोड़ सकते क्योंकि कोई भी प्रशिक्षण कदम शामिल नहीं है। इस प्रकार, भंडारण स्थान एक चुनौती बन सकता है अगर हम बड़े डेटासेट के साथ काम कर रहे हैं।
हालांकि, निर्णय का पेड़ तेजी से नए उदाहरणों को वर्गीकृत कर सकता है। आप बस बूलियन तुलना की एक श्रृंखला चला रहे हैं।
मुझे लगता है कि निर्णय पेड़ों का उपयोग वर्गीकरण और प्रतिगमन कार्यों दोनों के लिए किया जा सकता है। दूसरी ओर डीटी स्वीकार किए गए उत्तर में एक वर्ग की भविष्यवाणी करता है वर्गीकरण पेड़ों का वर्णन करके अधिक विशिष्ट होगा जो तकनीकी रूप से जेनेरिक डीटी अवधारणा का एक उपप्रकार है। एक संदर्भ (नीचे परतों की अनदेखी जो विशिष्ट कार्यान्वयन पर चर्चा करते हैं):
यहां से: http://www.simafore.com/blog/bid/62482/2-main-differences-between-classification-and-regression-trees