मैं कब निकटतम पड़ोसी से आगे बढ़ना चाहिए


9

कई मशीन सीखने की परियोजनाओं के लिए जो हम करते हैं, हम k के साथ शुरू करते हैं निकटतम पड़ोसी क्लासिफायरियर। यह एक आदर्श शुरुआती क्लासिफायर है क्योंकि हमारे पास आमतौर पर सभी दूरी की गणना करने के लिए पर्याप्त समय होता है और मापदंडों की संख्या सीमित होती है (k, दूरी मीट्रिक और भार)

हालाँकि, इसका अक्सर यह प्रभाव होता है कि हम knn क्लासिफायर के साथ चिपके रहते हैं क्योंकि बाद में इस प्रोजेक्ट में दूसरे क्लासिफायर के लिए स्विच करने के लिए कोई जगह नहीं होती है। नया क्लासिफायर करने की कोशिश करने का अच्छा कारण क्या होगा। जाहिर है कि स्मृति और समय की पाबंदी होती है, लेकिन क्या ऐसे मामले हैं जब एक और क्लासिफायर वास्तव में सटीकता में सुधार कर सकता है?


क्या यह विशुद्ध रूप से अकादमिक है या उद्योग में इसका उपयोग किया जाना है?
डॉ। रॉब लैंग

1
हमारे अधिकांश एप्लिकेशन उद्योग में तैनात किए गए हैं (इसलिए मेमोरी फ़ुटप्रिंट और कैलकुलेशन टाइम इश्यू हैं)

जवाबों:


3

k-NN एक बहुत ही प्रतिबंधात्मक अर्थ में सामान्यीकृत करता है। यह बस चिकनाई पुजारी (या निरंतरता धारणा) का उपयोग करता है। इस धारणा का तात्पर्य है कि फीचर स्पेस में बंद होने वाले पैटर्न सबसे अधिक एक ही वर्ग के हैं। पैटर्न-वितरण में कोई कार्यात्मक नियमितता k-NN द्वारा पुनर्प्राप्त नहीं की जा सकती है।

इस प्रकार, इसके लिए प्रतिनिधि प्रशिक्षण नमूनों की आवश्यकता होती है, जो विशेष रूप से अत्यधिक आयामी स्थानों के मामलों में बहुत बड़े हो सकते हैं। इससे भी बदतर, ये नमूने अनुपलब्ध हो सकते हैं। नतीजतन, यह आक्रमणकारियों को नहीं सीखा सकता है। यदि पैटर्न को उनके लेबल को बदले बिना कुछ परिवर्तनों के अधीन किया जा सकता है, और प्रशिक्षण के नमूने में सभी स्वीकार्य तरीकों से रूपांतरित पैटर्न नहीं हैं, तो k-NN उन रूपांतरित पैटर्न को कभी नहीं पहचान पाएंगे, जो प्रशिक्षण के दौरान प्रस्तुत नहीं किए गए थे। यह सही है, उदाहरण के लिए, स्थानांतरित या घुमाए गए चित्रों के लिए, यदि उन्हें के-एनएन चलाने से पहले कुछ अपरिवर्तनीय रूप में प्रतिनिधित्व नहीं किया जाता है। k-NN अप्रासंगिक सुविधाओं से भी अमूर्त नहीं हो सकता है।

एक और कुछ कृत्रिम उदाहरण निम्नलिखित है। कल्पना कीजिए कि विभिन्न वर्गों से संबंधित पैटर्न समय-समय पर वितरित किए जाते हैं (जैसे साइन के अनुसार - यदि यह 0 से कम है, तो पैटर्न एक वर्ग से संबंधित है, और यह अधिक है, फिर पैटर्न दूसरे वर्ग के हैं)। प्रशिक्षण सेट परिमित है। तो, यह एक परिमित क्षेत्र में स्थित होगा। इस क्षेत्र के बाहर मान्यता त्रुटि 50% होगी। एक आवधिक आधार कार्यों के साथ लॉजिस्टिक प्रतिगमन की कल्पना कर सकता है जो इस मामले में बहुत बेहतर प्रदर्शन करेगा। अन्य तरीके पैटर्न वितरण और अतिरिक्त रूप से अच्छी तरह से अन्य नियमितताओं को सीखने में सक्षम होंगे।

इसलिए, यदि किसी को संदेह है कि उपलब्ध डेटा सेट प्रतिनिधि नहीं है, और पैटर्न के कुछ परिवर्तनों के लिए इनविरेंस प्राप्त किया जाना चाहिए, तो यह मामला है, जिसमें किसी को k-NN से आगे बढ़ना चाहिए।


आपके उत्तर के लिए धन्यवाद (और इसे सुधारने की कोशिश के लिए बार्टोज़ज़कपी धन्यवाद)। यह सच है कि knn उन पैटर्नों को नहीं खोज सकता है जिनमें परिवर्तन की आवश्यकता होती है (जब तक कि आप एक अजीब (और गलत) दूरी मीट्रिक का उपयोग करना शुरू नहीं करते)। एक और क्लासिफायरफ़ायर की कोशिश करने का यह एक अच्छा कारण है, मुझे लगता है कि svm एक स्पष्ट पसंद है। मैं कहने के लिए svm के साथ पर्याप्त रूप से परिचित नहीं हूं, लेकिन क्या यह उस पैटर्न के बारे में विशिष्ट ज्ञान की आवश्यकता नहीं होगी जिसे आप कर्नेल को परिभाषित करने के लिए देख रहे हैं?

हाँ। कर्नेल का विकल्प पैटर्न पर निर्भर करेगा। गाऊसी कर्नेल में k-NN विधि के समान गुण होंगे। अन्य मानक गुठली भी अनुचित प्रतीत हो सकती है। हालांकि, कम से कम, कोई भी उनका उपयोग करने की कोशिश कर सकता है।

जैसा कि @ Necro0x0Der द्वारा इन पंक्तियों में कोई सुधार किया गया है, पैटर्न (साइन उदाहरण में, आवधिकता) पैरामीरिजेशन के लिए स्वाभाविक है। यही है, पैरामीयराइजेशन (कर्नेल पसंद) प्रतिनिधित्व स्थान की संरचना (प्रभावी रूप से, मीट्रिक) को परिभाषित करता है। यदि आप कुछ तरीकों से कुछ उपयुक्त संरचना निर्धारित कर सकते हैं (शायद शिक्षित अनुमान लगाकर), तो पैटर्न को उसी के अनुसार बनाने की कोशिश करें। ध्यान दें कि अंत में, यह आपके क्लासिफायरियर को कुछ प्रकार की प्रासंगिक विशेषताओं को आसानी से खोजने की अनुमति देता है।

3

यदि आप कम्प्यूटेशनल जटिलता से विवश होंगे, तो निर्णय के पेड़ (क्विनल, 1986) को हराना मुश्किल होता है (विशेषकर जब एक फ्रेमवर्क DT मॉडल को ifबयानों के एक समूह में सीधे रूपांतरण प्रदान करता है - जैसे Accord.NET )।

उच्च आयामी डेटा के लिए दूरी की धारणा, जिस पर k-NN आधारित है, बेकार हो जाती है (क्रिएगेल, क्रोगर, ज़िमेक, 2009) (यह भी: विकिपीडिया लेख )। एसवीएम (कोर्टर, वापनिक, 1995) या रैंडम फॉरेस्ट (ब्रेइमन, 2001) जैसे अन्य क्लासीफायर बेहतर प्रदर्शन कर सकते हैं।

संदर्भ:


उच्च आयाम निश्चित रूप से निश्चित सीमा नहीं है, ज्यादातर मामलों में हमारी विशेषताएं पर्याप्त रूप से व्यक्त होती हैं कि दूरी काम करती है। बेशक यह एक महत्वपूर्ण बिंदु हो सकता है। शायद मुझे एक उदाहरण के साथ स्पष्ट करना चाहिए था। मान लें कि हमारे पास एक क्लासिफायरियर है, जिसकी सटीकता 93% है, यह स्वीकार्य है, लेकिन अब हम या तो क्लासिफायरियर को बेहतर बनाने का प्रयास कर सकते हैं या अन्य विशेषताओं को खोज सकते हैं। यह सब नई संभव सुविधाओं और डेटा पर निर्भर करता है, लेकिन मैं इस निर्णय पर दिशानिर्देशों की तलाश कर रहा था।

@ खंड मुझे लगता है कि यह एक परियोजना प्रबंधन स्तर का निर्णय है। यदि वर्तमान समाधान स्वीकार्य है, तो इसके साथ टिंकर क्यों? यह समय की बर्बादी है। यदि यह स्वीकार्य नहीं है, तो अधिक सटीक रूप से परिभाषित करें कि आप क्या सुधार करना चाहते हैं (गति, सटीकता, आदि)।
बार्टोसजप

यह केवल परियोजना प्रबंधन नहीं है, सवाल यह है कि अधिकतम सटीकता कैसे प्राप्त की जाए (यह मेरे प्रश्न में है) और किस दिशा में ले जाना सबसे अच्छा है। आप svm और यादृच्छिक वन का सुझाव देते हैं क्योंकि आयामीता बहुत अधिक हो सकती है, एक संभावना यह है कि मैं यह देखने के लिए प्रयोग कर सकता हूं कि क्या सटीकता में सुधार होता है और इस तरह का उत्तर मुझे मिल रहा है।

दूसरी ओर, यह एक बहुत व्यापक प्रश्न है। कोई सामान्य नियम नहीं हैं कि क्लासिफायर एक्स वाई से बेहतर है। आपको बस कुछ संख्या में क्लासिफायर की कोशिश करनी चाहिए और फिर उदाहरण के लिए मॉडल चयन के लिए क्रॉस-सत्यापन करना चाहिए ।
बार्टोज़केपी

3

kNN बड़े डेटा नमूनों के लिए उपयोगी है

हालांकि इसके नुकसान हैं:

  1. K के मान से बायस्ड।
  2. संगणना जटिलता
  3. स्मृति की सीमा
  4. एक आलसी एल्गोरिथ्म का पर्यवेक्षण किया जा रहा है
  5. आसानी से अप्रासंगिक विशेषताओं द्वारा मूर्ख बनाया गया।
  6. जब विशेषताओं की संख्या बढ़ जाती है तो भविष्यवाणी सटीकता जल्दी से कम हो सकती है।

यह आमतौर पर केवल तभी प्रभावी होता है जब प्रशिक्षण डेटा बड़ा हो, और प्रशिक्षण बहुत तेज़ हो।


मैं क्लस्टरिंग नहीं देख रहा हूं, लेकिन वर्गीकरण में

@ यहाँ हम चलते हैं, नोट के लिए धन्यवाद iliasfl
Iancovici
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.