आपको KNN में डेटा स्केल करने की आवश्यकता क्यों है


15

क्या कोई कृपया मुझे समझा सकता है कि K के निकटतम पड़ोसियों का उपयोग करते समय आपको डेटा को सामान्य करने की आवश्यकता क्यों है।

मैंने इसे देखने की कोशिश की है, लेकिन मैं अभी भी इसे समझ नहीं पा रहा हूं।

मुझे निम्न लिंक मिला:

https://discuss.analyticsvidhya.com/t/why-it-is-necessary-to-normalize-in-knn/2715

लेकिन इस स्पष्टीकरण में, मुझे समझ में नहीं आता है कि किसी एक फीचर में बड़ी रेंज भविष्यवाणियों को प्रभावित क्यों करती है।


मुझे लगता है कि सामान्यीकरण को विषय-वस्तु की दृष्टि से उचित ठहराया जाना चाहिए। अनिवार्य रूप से, जो मायने रखता है वह बिंदुओं के बीच की दूरी को परिभाषित करता है। आपको दूरी की एक सुविधाजनक अंकगणित परिभाषा ढूंढनी होगी जो दूरी की विषय-वस्तु की परिभाषा को दर्शाती हो। अपने सीमित अनुभव में, मैंने विषय-वस्तु के विचारों के आधार पर सभी दिशाओं में कुछ को सामान्य नहीं किया है।
रिचर्ड हार्डी

1
एक शिक्षाप्रद उदाहरण के लिए, कृपया आंकड़े .stackexchange.com/questions/140711 देखें ।
whuber

जवाबों:


27

K- निकटतम पड़ोसी एल्गोरिथ्म किसी दिए गए परीक्षण बिंदु के लिए निकटतम नमूनों के 'k' वर्ग की सदस्यता के आधार पर बहुसंख्यक मतदान पर निर्भर करता है। नमूनों की महंगाई आमतौर पर यूक्लिडियन दूरी पर आधारित होती है।

एक साधारण दो वर्ग वर्गीकरण समस्या पर विचार करें, जहाँ कक्षा 1 का नमूना (काला) चुना जाता है, इसके साथ ही 10-निकटतम पड़ोसी (भरे हुए हरे) हैं। पहले आंकड़े में, डेटा सामान्यीकृत नहीं है, जबकि दूसरे में यह है।

सामान्यीकरण के बिना डेटा सामान्यीकरण के साथ डेटा

ध्यान दें, बिना सामान्यीकरण के, सभी निकटतम पड़ोसियों को धुरी की दिशा में छोटी श्रेणी के साथ संरेखित किया जाता है, अर्थात गलत वर्गीकरण के लिए ।x1

सामान्यीकरण इस समस्या को हल करता है!


1
यह उत्तर बिल्कुल सही है, लेकिन मुझे डर है कि इसमें शामिल विकृतियों के कारण चित्रण भ्रामक हो सकता है। इस बिंदु को उन दोनों को खींचकर बेहतर बनाया जा सकता है ताकि प्रत्येक में दो कुल्हाड़ियां समान पैमाने पर हों।
whuber

1
मैंने दोनों आंकड़ों के लिए सभी डेटा बिंदुओं को एक ही पैमाने पर फिट करना मुश्किल पाया। इसलिए, मैंने एक नोट में उल्लेख किया है कि कुल्हाड़ियों के पैमाने अलग हैं।
केदारप्स

1
वह कठिनाई वास्तव में आपकी प्रतिक्रिया का बिंदु है! इसे दूर करने का एक तरीका है कि इस तरह की चरम सीमा का उपयोग न किया जाए। तराजू में 5: 1 का अंतर, 1000: 1 का अंतर होता है, फिर भी आपकी बात अच्छी तरह से हो जाएगी। एक और तरीका यह है कि तस्वीर को ईमानदारी से खींचना है: शीर्ष स्कैटरप्लॉट बिंदुओं की एक ऊर्ध्वाधर रेखा प्रतीत होगी।
व्हीबर

2
@ शुभंकर, मैंने आपकी पहली टिप्पणी को गलत समझा। भूखंडों को तय किया, उम्मीद है कि अब यह बेहतर है!
केदारप्स

1
@Undertherainbow यह सही है!
केदारप्स

6

मान लीजिए कि आपके पास एक डेटासेट था (n "फीचर्स" द्वारा "m" उदाहरण ") और सभी लेकिन एक फ़ीचर आयाम में 0 और 1 के बीच कड़ाई से मान थे, जबकि एकल फ़ीचर आयाम में मान -1000000 से लेकर 1000000 तक थे। यूक्लिडियन दूरी लेते समय "उदाहरण" के जोड़े के बीच, 0 और 1 के बीच की सीमा वाले फीचर आयामों के मूल्य एकरूप हो सकते हैं और एल्गोरिथम अनिवार्य रूप से एकल आयाम पर निर्भर करेगा जिनके मूल्य काफी बड़े हैं। बस कुछ उदाहरण यूक्लिडियन दूरी गणनाओं पर काम करें और आप समझ सकते हैं कि पैमाने कैसे निकटतम पड़ोसी गणना को प्रभावित करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.