प्रतिगमन के लिए कोई KNN का उपयोग क्यों करेगा?


26

जो मैं समझता हूं, हम केवल एक प्रतिगमन फ़ंक्शन का निर्माण कर सकते हैं जो प्रशिक्षण डेटा के अंतराल के भीतर है।

उदाहरण के लिए (केवल एक पैनल आवश्यक है): यहाँ छवि विवरण दर्ज करें

मैं भविष्य में KNN प्रतिगामी का उपयोग करने की भविष्यवाणी कैसे करूंगा? फिर से, यह केवल एक फ़ंक्शन को अनुमानित करता है जो प्रशिक्षण डेटा के अंतराल के भीतर है।

मेरा प्रश्न: केएनएन रजिस्ट्रार का उपयोग करने के क्या फायदे हैं? मैं समझता हूं कि यह वर्गीकरण के लिए एक बहुत शक्तिशाली उपकरण है, लेकिन ऐसा लगता है कि यह प्रतिगमन परिदृश्य में खराब प्रदर्शन करेगा।


क्या आप स्पष्ट कर सकते हैं कि "भविष्य में भविष्यवाणी" से आपका क्या मतलब है? क्या आपके पास समय-श्रृंखला है और आप पूर्वानुमान करना चाहते हैं, या क्या आप 2 चर के बीच के संबंध को फिट करने की कोशिश कर रहे हैं और भविष्य में किसी ज्ञात मूल्य से Y मान का उपयोग करना चाहते हैं?
गंग -

1
उदाहरण के लिए, अगर मैं मूल्य Y की भविष्यवाणी करना चाहता था जैसे कि ऊपर की छवि से X = 15। एक KNN-regressor यह सही कटौती नहीं होगी?

1
मैं आपसे सहमत हूं कि यदि आपने साथ एक सेट पर प्रशिक्षण लिया है, लेकिन उम्मीद है कि आप मूल्यों को अपने डेटा में जो है उससे परे देख सकते हैं तो गैर-पैरामीट्रिक स्थानीय तरीके आदर्श नहीं हो सकते हैं। इसके बजाय आप उस डोमेन ज्ञान का उपयोग करना चाहते हैं और एक पैरामीट्रिक मॉडल को परिभाषित कर सकते हैं, जिसमें आपके ज्ञान को शामिल किया गया है कि 'अनिर्दिष्ट' व्यवहार की अपेक्षा कैसे की जाती है। एक्स एक्सx[0,5]xएक्स
मेदोवलकर ब्रेडशेर

1
प्रतिगमन के लिए सफलतापूर्वक उपयोग किए जा रहे KNN का एक उदाहरण नैट सिल्वर की PECOTA बेसबॉल भविष्यवाणी की बात है। आप PECOTA
Flounderer

6
अधिक सामान्य बिंदु बनाने के लिए, जैसा कि आप आंकड़ों (या डेटा माइनिंग / मशीन लर्निंग आदि) के जानकार बन जाते हैं, आपको पता चलेगा कि आपके जैसे बहुत सामान्य प्रश्नों के उत्तर अक्सर 'यह निर्भर करता है' का एक पैराफ्रेस्ड संस्करण होगा। यह जानना कि यह 'किस पर निर्भर करता है' और क्यों ज्ञान है।
मेदोवलकर ब्रेडशेर

जवाबों:


17

के-एनएन जैसे स्थानीय तरीके कुछ स्थितियों में समझ में आते हैं।

एक उदाहरण जो मैंने स्कूल के काम में किया था, वह सीमेंट सामग्री के विभिन्न मिश्रणों की संपीड़ित शक्ति की भविष्यवाणी के साथ करना था। ये सभी सामग्रियां प्रतिक्रिया या एक-दूसरे के संबंध में अपेक्षाकृत गैर-वाष्पशील थीं और केएनएन ने इस पर विश्वसनीय भविष्यवाणियां कीं। दूसरे शब्दों में, स्वतंत्र चर में से किसी में भी वैयक्तिकृत रूप से या संभवत: पारस्परिक संपर्क द्वारा मॉडल को प्रदान करने के लिए बड़े पैमाने पर भिन्नता नहीं थी।

इसे नमक के एक दाने के साथ लें क्योंकि मुझे एक डेटा जांच तकनीक के बारे में नहीं पता है जो निर्णायक रूप से यह दिखाता है लेकिन सहज रूप से यह उचित लगता है कि यदि आपकी विशेषताओं में कुछ अनुपातों की भिन्नता है, तो मुझे नहीं पता कि क्या अनुपात है, आपके पास एक हो सकता है केएनएन उम्मीदवार। मैं निश्चित रूप से जानना चाहता हूं कि क्या इस प्रभाव के लिए कुछ अध्ययन और परिणामी तकनीकें विकसित हुईं।

यदि आप इसके बारे में सामान्यीकृत डोमेन के दृष्टिकोण से सोचते हैं, तो अनुप्रयोगों का एक व्यापक वर्ग है जहां 'समान' व्यंजनों के समान परिणाम मिलते हैं। यह निश्चित रूप से मिश्रण सीमेंट के परिणामों की भविष्यवाणी करने की स्थिति का वर्णन करने के लिए लग रहा था। मैं कहूंगा कि यदि आपके पास इस विवरण के अनुसार व्यवहार किया गया डेटा है और इसके अलावा आपकी दूरी को मापना भी हाथ में डोमेन के लिए स्वाभाविक था और अंतिम रूप से आपके पास पर्याप्त डेटा था, तो मुझे लगता है कि आपको KNN या किसी अन्य स्थानीय विधि से उपयोगी परिणाम प्राप्त करना चाहिए ।

जब आप स्थानीय तरीकों का उपयोग करते हैं तो आपको बेहद कम पूर्वाग्रह का लाभ मिल रहा है। कभी-कभी सामान्यीकृत योज्य मॉडल (GAM) संतुलन और भिन्नता को अलग-अलग रूप में KNN का उपयोग करके अलग-अलग करके फिटिंग करते हैं:

y^=1(एक्स1)+2(एक्स2)++n(एक्सn)+ε

योज्य भाग (प्लस प्रतीक) उच्च विचरण से बचाता है जबकि स्थान पर KNN का उपयोग उच्च पूर्वाग्रह से बचाता है।n(एक्सn)

मैं इतनी जल्दी KNN नहीं लिखूंगा। इसकी जगह है।


1
घुटने के लिए डेटा स्केलिंग पर यह जवाब व्यक्त करने में मदद कर सकता है कि आप "variances के आनुपातिक डिग्री" से क्या मतलब है। आंकड़े.स्टैकएक्सचेंज.com
questions/

5

मुझे यह कहना पसंद नहीं है लेकिन वास्तव में संक्षिप्त जवाब है, कि "भविष्य में भविष्यवाणी करना" वास्तव में न तो एक न तो संभव है और न ही किसी अन्य मौजूदा क्लासिफायर या रजिस्ट्रर के साथ।

सुनिश्चित करें कि आप एक रेखीय प्रतिगमन या एसवीएम के हाइपर प्लेन की लाइन को एक्सट्रपलेशन कर सकते हैं, लेकिन अंत में आप नहीं जानते कि भविष्य क्या होगा, हम सभी जानते हैं, लाइन एक सुडौल वास्तविकता का एक छोटा हिस्सा हो सकती है। यह तब स्पष्ट हो जाता है जब आप उदाहरण के लिए गौसियन प्रक्रियाओं जैसी बेसेसियन विधियों को देखते हैं, जैसे ही आप "ज्ञात इनपुट डोमेन" छोड़ते हैं, आपको एक बड़ी अनिश्चितता दिखाई देगी।

बेशक आप इस बात का सामान्यीकरण करने की कोशिश कर सकते हैं कि आज जो हुआ वह कल हो सकता है, जो कि आसानी से किया जा सकता है, जो कि आसानी से हो सकता है। निश्चित रूप से अन्य विधियां रुझानों और इतने पर शामिल हो सकती हैं, लेकिन अंत में आप देख सकते हैं कि स्टॉक मार्केट या लंबी अवधि के मौसम की भविष्यवाणियों के दौरान यह कितनी अच्छी तरह काम करता है।


एक्सट्रपलेशन के खिलाफ सावधानी बरतने और एक्सट्रपलेशन करते समय KNN के (अपेक्षाकृत रूढ़िवादी) व्यवहार पर चर्चा करने के लिए।
eric_kernfeld

ओएन द्वारा नोट किए गए व्यवहार के कारण एक्सट्रपलेशन करते समय केएनएन रैखिक प्रतिगमन की तुलना में अधिक रूढ़िवादी है: यह केवल पहले से ही देखे गए वाई मानों की सीमा के भीतर भविष्यवाणियां कर सकता है। यह बहुत सारी स्थितियों में एक फायदा हो सकता है।
eric_kernfeld

1

पहले एक उदाहरण के लिए "मैं KNN regressor का उपयोग करके भविष्य में कैसे भविष्यवाणी करूंगा?"।

रोंयूnटी+1रोंयूnटीरोंयूnटी-6
रोंयूnटी

wकश्मीरटीरोंयूnटीरोंयूnटी-6टीमीटरआरआरw(wकश्मीरटी))रोंयूnटी+1

wकश्मीरटी
wकश्मीर
टीमीटरआरआरw0टीमीटरआरआरw9
पीआरमैंसीटी(wकश्मीर)टीमीटरआरआरw0टीमीटरआरआरw9

वजन को ट्यून करें, उदाहरण के लिए 7 डी में "निकटतम पड़ोसी" के लिए उलटा-दूरी-भारित-आईडी-इंटरपोलेशन-के साथ अजगर ,
और दूरी मीट्रिक देखें।

"केएनएन रजिस्ट्रार का उपयोग करने के क्या फायदे हैं?"
दूसरों की अच्छी टिप्पणियों के लिए मैं कोड को समझना और समझना आसान बनाऊंगा, और बड़े डेटा तक ले जाऊंगा।
नुकसान: डेटा और ट्यूनिंग के प्रति संवेदनशील, ज्यादा समझ नहीं ।




एक्सY
Yटी=0एक्सटी+1एक्सटी-1+
Yटी+1
Yटी+1=0Yटी+1Yटी-1+

तो आपकी पहली पंक्ति "हम केवल एक प्रतिगमन फ़ंक्शन का निर्माण कर सकते हैं जो प्रशिक्षण डेटा के अंतराल के भीतर है" भ्रामक शब्द "प्रतिगमन" के बारे में लगता है।)


1

से सांख्यिकीय लर्निंग के लिए एक परिचय , खंड 3.5:

एक वास्तविक जीवन की स्थिति में जिसमें सच्चा रिश्ता अज्ञात है, कोई भी निष्कर्ष निकाल सकता है कि KNN को रैखिक प्रतिगमन पर इष्ट होना चाहिए क्योंकि यह वास्तव में रैखिक संबंधों की तुलना में रैखिक प्रतिगमन की तुलना में सबसे कम हीन होगा, और काफी हद तक बेहतर दे सकता है परिणाम अगर सच्चा संबंध गैर-रैखिक है।

लेकिन अड़चनें हैं (पाठ्यपुस्तक से नहीं, बस मैंने जो निष्कर्ष निकाला है):

  1. प्रति भविष्यवक्ता की पर्याप्त संख्या।
  2. भविष्यवक्ताओं की संख्या बहुत बड़ी नहीं होनी चाहिए।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.