KNN के साथ किस प्रकार के डेटा को सामान्य बनाना चाहिए?


9

मुझे पता है कि सामान्यीकरण के दो से अधिक प्रकार हैं।

उदाहरण के लिए,

1- एक जेड-स्कोर या टी-स्कोर का उपयोग करके डेटा ट्रांसफ़ॉर्म करना। इसे आमतौर पर मानकीकरण कहा जाता है।

2- 0 और 1 के बीच मान रखने के लिए डेटा को परिवर्तित करना।

यदि मुझे सामान्य करने की आवश्यकता है तो अब सवाल

KNN के साथ किस प्रकार के डेटा को सामान्य बनाना चाहिए? और क्यों?

जवाबों:


11

K-NN के लिए, मैं 0 और 1 के बीच डेटा को सामान्य करने का सुझाव दूंगा01

एक्स1=(11,12,,1)एक्स2=(21,22,,2)1मैंमैंएक्स1

(एक्स1,एक्स2)=(11-21)2+(12-22)2++(1-2)2

सभी के लिए आदेश में सुविधाओं के के होने की बराबर जब दूरी की गणना के महत्व, सुविधाओं चाहिए मूल्यों का एक ही श्रृंखला है। यह केवल सामान्यीकरण के माध्यम से प्राप्त करने योग्य है।

यदि उन्हें सामान्य नहीं किया गया था और उदाहरण के लिए फ़ीचर में मानों की एक सीमा थी [ 0 , 1 ), जबकि f 2 में [ 1 , 10 ) मानों की एक श्रृंखला थी । दूरी की गणना करते समय, दूसरा शब्द 10 होगा1[0,12[1,10)10 पहले की तुलना में गुना महत्वपूर्ण , जिससे की-एनएन पहले की तुलना में दूसरी विशेषता पर अधिक भरोसा करेगा। सामान्यीकरण यह सुनिश्चित करता है कि सभी सुविधाओं को समान मूल्यों की श्रेणी में मैप किया जाए ।

दूसरी ओर, मानकीकरण में कई उपयोगी गुण हैं, लेकिन यह सुनिश्चित नहीं कर सकता है कि सुविधाओं को एक ही श्रेणी में मैप किया जाए। जबकि मानकीकरण अन्य सहपाठियों के लिए सबसे उपयुक्त हो सकता है, यह k-NN या किसी अन्य दूरी-आधारित वर्गीकरण के लिए ऐसा नहीं है।


4
क्या आपका उत्तर एक ही होगा यदि मैंने यूक्लिडियन दूरी (उदाहरण के लिए मैनहट्टन दूरी या अन्य दूरी भी आंशिक दूरी) के बजाय अलग-अलग दूरी का उपयोग किया है? इसके अलावा, अगर चर की सीमा लगभग एक दूसरे के करीब है।
जीजा

7
1[0,1)2[0,1.2)2 अभी भी होगा 20% से ज्यादा महत्वपूर्ण 1। एक बात जिसका मैं उल्लेख करना भूल गया था, वह यह था कि मानकीकरण, जाहिर है, किसी भी सुविधा को बढ़ाने के लिए बेहतर नहीं है; यह सामान्यीकरण से बस बदतर है।
Djib2011

ओह समझा। "यह सामान्यीकरण से भी बदतर है"!
Jeza
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.