परिकल्पना और इनपुट डेटा बिंदु के बीच ऊर्ध्वाधर दूरी के आधार पर रैखिक प्रतिगमन एक लागत फ़ंक्शन का उपयोग क्यों करता है?


14

मान लीजिए कि हमारे पास इनपुट (प्रेडिक्टर) और आउटपुट (प्रतिक्रिया) डेटा बिंदु A, B, C, D, E हैं और हम बिंदुओं के माध्यम से एक पंक्ति फिट करना चाहते हैं। यह प्रश्न को स्पष्ट करने के लिए एक सरल समस्या है, लेकिन इसे उच्च आयामों तक भी बढ़ाया जा सकता है।

समस्या का विवरण

यहाँ छवि विवरण दर्ज करें

वर्तमान सर्वश्रेष्ठ फिट या परिकल्पना को ऊपर काली रेखा द्वारा दर्शाया गया है। नीला तीर ( ) डेटा बिंदु और वर्तमान सबसे अच्छा फिट के बीच ऊर्ध्वाधर दूरी का प्रतिनिधित्व करता है, बिंदु से एक ऊर्ध्वाधर रेखा खींचकर जब तक यह रेखा को पार नहीं करता है।

हरा तीर ( ) इस तरह खींचा जाता है कि यह चौराहे के बिंदु पर वर्तमान परिकल्पना के लंबवत है, और इस प्रकार डेटा बिंदु और वर्तमान परिकल्पना के बीच कम से कम दूरी का प्रतिनिधित्व करता है। अंक ए और बी के लिए, एक रेखा ऐसी खींची जाती है कि यह वर्तमान सबसे अच्छे अनुमान के लिए लंबवत हो और एक रेखा के समान हो जो x अक्ष पर लंबवत हो। इन दो बिंदुओं के लिए, नीली और हरी रेखाएँ ओवरलैप होती हैं, लेकिन वे अंक C, D और E के लिए नहीं होती हैं।

कम से कम वर्ग सिद्धांत किसी भी दिए गए प्रशिक्षण चक्र पर डेटा परिकल्पना (ए, बी, सी, डी या ई) के माध्यम से अनुमानित परिकल्पना ( ) के माध्यम से एक ऊर्ध्वाधर रेखा खींचकर रैखिक प्रतिगमन के लिए लागत फ़ंक्शन को परिभाषित करता है, और इसका प्रतिनिधित्व करता है

CostFunction=i=1N(yihθ(xi))2

यहाँ डेटा बिंदुओं का प्रतिनिधित्व करता है, और θ ( एक्स मैं ) का प्रतिनिधित्व करता है सबसे अच्छा फिट।(xi,yi)hθ(xi)

एक बिंदु (ए, बी, सी, डी या ई) के बीच की न्यूनतम दूरी को उस बिंदु से खींची गई एक लंबवत रेखा द्वारा दर्शाया गया है जो वर्तमान सर्वोत्तम अनुमान (हरे तीर) पर है।

कम से कम स्क्वायर फंक्शन का लक्ष्य एक उद्देश्य फ़ंक्शन को परिभाषित करना है, जब कम से कम परिकल्पना और सभी बिंदुओं के बीच कम से कम दूरी को जन्म देगा, लेकिन जरूरी नहीं कि परिकल्पना और एक एकल इनपुट बिंदु के बीच की दूरी को कम करेगा।

**सवाल**

इनपुट डेटा बिंदु और परिकल्पना के बीच कम से कम दूरी के रूप में रैखिक प्रतिगमन के लिए लागत फ़ंक्शन को हम परिभाषित क्यों नहीं करते हैं (परिकल्पना के लिए लंबवत एक रेखा द्वारा परिभाषित) इनपुट डेटापॉइन से गुजर रहा है, जैसा कि ( ) द्वारा दिया गया है ?


5
सरल रैखिक प्रतिगमन मानता है कि टिप्पणियों के एक्स-निर्देशांक (जैसे कि वे प्रयोगात्मक जोड़तोड़ हैं) के मूल्यों में कोई त्रुटि नहीं है। यदि x- अक्ष पर त्रुटियां हैं, तो कोई आपके द्वारा प्रस्तावित प्रस्ताव के समान लागत फ़ंक्शन को कम करके उनके लिए जिम्मेदार हो सकता है; इसके लिए x और y अक्ष पर त्रुटियों के विचरण के बीच अनुपात सेट करना होगा। यदि अनुपात , यह अंक और रेखा (ऑर्थोगोनल रिग्रेशन) के बीच लंबवत दूरी को कम करने के लिए है। अनुपात यदि 1 यह कहा जाता है deeming प्रतिगमन=11
Matteo

इस पोस्ट को पीसीए पर देखें: cerebralmastication.com/2010/09/…
James

जवाबों:


13

जब आपके पास निर्भर चर (ऊर्ध्वाधर त्रुटियों) और स्वतंत्र चर (क्षैतिज त्रुटियों) दोनों में शोर होता है, तो इन क्षैतिज त्रुटियों को शामिल करने के लिए कम से कम वर्ग उद्देश्य फ़ंक्शन को संशोधित किया जा सकता है। इन दो प्रकार की त्रुटियों का वजन करने में समस्या। यह वेटिंग आमतौर पर दो त्रुटियों के प्रकार के अनुपात पर निर्भर करता है:

  1. यदि ऊर्ध्वाधर त्रुटि का विचरण क्षैतिज त्रुटि के विचरण के सापेक्ष बहुत बड़ा है, तो ओएलएस सही है।
  2. xyyβ
  3. यदि क्षैतिज त्रुटि के विचरण के लिए लंबवत त्रुटि के विचरण का अनुपात निर्भर और स्वतंत्र चर के रूपांतरों के अनुपात के बराबर है, तो हमारे पास "विकर्ण" प्रतिगमन का मामला है, जिसमें एक सुसंगत अनुमान निकलता है ओएलएस का ज्यामितीय माध्य हो और कम से कम वर्गों का अनुमान लगाता हो।
  4. यदि इन त्रुटि भिन्नताओं का अनुपात एक है, तो हमारे पास "ऑर्थोगोनल" प्रतिगमन का मामला है, जिसमें अनुमानित रेखा के लिए लंबवत रेखा के साथ मापा गया चुकता त्रुटियों का योग कम से कम है। यह आपके दिमाग में था।

व्यवहार में, इस प्रक्रिया का बड़ा दोष यह है कि त्रुटि भिन्नताओं का अनुपात आमतौर पर ज्ञात नहीं है और आमतौर पर अनुमान नहीं लगाया जा सकता है, इसलिए आगे का रास्ता स्पष्ट नहीं है।


मैंने पहले वाक्य में "निर्भर" को "स्वतंत्र" में बदलने के लिए संपादित करने की कोशिश की, लेकिन संपादन 6 वर्ण का होना चाहिए। शायद टाइपो को ठीक करने के लिए उत्तर अपडेट करें?
रयान स्टाउट

@RyanStout धन्यवाद, और किया। मुझे लगता है कि रिक्त स्थान डालने से आपको वह मिल जाएगा।
दिमित्री वी। मास्टरोव

अब मैं थोड़ा उलझन में हूँ: आश्रित चर (y) में त्रुटियों और स्वतंत्र चर (x) में क्षैतिज त्रुटियों की ऊर्ध्वाधर त्रुटियाँ नहीं हैं?
रयान स्टाउट

@RyanStout मैंने इसे फिर से गड़बड़ कर दिया
दिमित्री वी। मास्टरोव

9

एक कारण यह है कि , अपेक्षाकृत आसान गणना और अनुकूलन करने के लिए है, जबकि प्रस्तावित लागत एन Σ मैं = 1 मिनट एक्स , वाई [ ( y मैं - θ ( x ) ) 2 + ( एक नेस्टेड मिनिमाइजेशन समस्या है जो h के लिए परिवार की पसंद के आधार पर काफी कठिन हो सकती है

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)

ये एक अच्छा बिंदु है। मैं सोच रहा था कि सामान्य रूप से लागत फ़ंक्शन की गणना कैसे की जाए।
अल्फा_989

मैं नहीं कर रहा हूँ जरूरी यकीन है कि कैसे बिंदु और एक गैर रेखीय विमान / सतह के बीच की दूरी का मूल्यांकन करने के लिए, लेकिन एक बिंदु और एक रेखीय सतह / विमान के बीच की दूरी का मूल्यांकन करने के लिए, हम नेस्टेड न्यूनीकरण की जरूरत नहीं हो सकता है: mathinsight.org/distance_point_plane
19_19 को अल्फा_989

दूसरे, जब हम प्रतिगमन का उपयोग करते हैं, तो हमारा लक्ष्य सबसे अच्छा फिट खोजने के लिए वजन का मूल्यांकन करना है। वास्तविक गणना के दौरान मुझे जो समझ में आता है, हम लागत फ़ंक्शन का मूल्यांकन शायद ही कभी करते हैं, लेकिन लागत फ़ंक्शन के कुछ व्युत्पन्न?
अल्फा_989

1
@whuber। समझा। एक बार जब हम उन दो शब्दों के लिए उन अर्थों को स्थापित करते हैं, तो मैं मानता हूं कि हल की जा रही समस्याएं अलग हैं (क्या वहाँ है या एक्स में त्रुटि होने की संभावना नहीं है)। मुझे नहीं लगता कि आपको उन शर्तों के अर्थ पर जानकार व्यक्तियों से व्यापक सहमति मिलेगी, लेकिन यह एक पक्ष बिंदु है।
स्टोकेस्टिक

1
@ स्टोचस्टिक मैं सहमत हूं कि "कर्व फिटिंग" की अवधारणा के बारे में फजीहत हो सकती है, लेकिन मैं जिस प्रतिगमन की बात कर रहा हूं, उसकी अवधारणा सर्वोत्तम अधिकारियों द्वारा लिखी गई है।
whuber

2

ओवरसाइम्पलाइज़्ड संस्करण यह है कि X में कोई त्रुटि नहीं है। इसलिए यदि आप उदाहरण के लिए अपने भूखंड में बिंदु E को देखते हैं, तो यह माना जाता है कि इसका X निर्देशांक सटीक रूप से सटीक है। आमतौर पर यही स्थिति होती है जब हम एक्स को नियंत्रित कर सकते हैं, दूसरे शब्दों में जब हम इसे एक विशिष्ट मूल्य पर सेट कर सकते हैं। उस स्थिति में, केवल मौजूद त्रुटि Y दिशा में हो सकती है, और इसीलिए त्रुटि / लागत फ़ंक्शन में केवल Y दिशा शामिल होती है।

जब भी ऐसा नहीं होता है, जब भी हम X और X को नियंत्रित नहीं करते हैं तो त्रुटि हो सकती है, लोग X दिशा में II या मॉडल II प्रतिगमन और इसके वेरिएंट नामक कुछ में त्रुटि फ़ंक्शन में शामिल करते हैं। ऐसा करना मुश्किल हो सकता है यदि एक्स और वाई में अलग-अलग पैमाने हैं, तो आपको सामान्यीकरण और इस तरह के बारे में सोचना होगा।


1

प्रॉसिकैस होने के खतरे में, त्रुटि फ़ंक्शन का कारण यह है कि मानक व्याख्या यह है कि x दिया गया है और एक y घटक का सर्वोत्तम वर्णन (या पूर्वानुमान) करने की कोशिश कर रहा है। इसलिए 'x' में कोई त्रुटि नहीं है। उदाहरण के लिए, आप आज के समापन मूल्य के आधार पर कल के स्टॉक के समापन मूल्य की कोशिश और समझ (या भविष्यवाणी) कर सकते हैं। इसी प्रकार आज के औसत तापमान के संदर्भ में कल के औसत तापमान को समझने और समझने की कोशिश की जा सकती है। जाहिर है कि ये उदाहरण सरल हैं, लेकिन यह विचार है। संयोग से कुछ लोगों को एहसास नहीं है, लेकिन मुझे लगता है कि आपके उदाहरणों से स्पष्ट है, कि यदि कोई व्यक्ति x के विरुद्ध प्रतिगमन करता है तो प्रतिगमन रेखा को y के विरुद्ध x के प्रतिगमन के लिए कोई विशेष समानता नहीं है। ऑर्थोगोनल रिग्रेशन एक रिग्रेशन के लिए शब्द है जहां कोई उस लाइन को खोजने की कोशिश करता है जो एक लाइन से बिंदुओं की दूरी को कम करता है। उदाहरण के लिए यदि कोई आईबीएम स्टॉक की कीमत और एएपीएल स्टॉक की कीमत के बीच के संबंध को समझने की कोशिश कर रहा है, तो यह उचित तरीका होगा।


1

आप सही हैं कि, जब बिंदुओं के माध्यम से एक लाइन फिटिंग करते हैं, तो ऑर्थोगोनल दूरी सबसे प्राकृतिक नुकसान फ़ंक्शन है जिसे मनमाना लाइनों पर लागू किया जा सकता है (ध्यान दें कि x- अक्ष पर लंबवत लाइनों के लिए y-दूरी अर्थहीन हो जाती है)। इस समस्या को कई नामों के तहत जाना जाता है, जैसे "ऑर्थोगोनल रिग्रेशन", या (सबसे अधिक इस्तेमाल किया जाने वाला शब्द, AFAIK) "प्रिंसिपल कंपोनेंट एनालिसिस" (PCA)। इस समस्या की एक चर्चा के लिए मनमाने ढंग से मंदीकरण में, देखें

Späth: "रैखिक कई गुना के साथ ऑर्थोगोनल कम से कम वर्ग फिटिंग।" न्यूमेरिस गणित 48, पीपी। 441–445, 1986

जैसा कि @aginensky ने पहले ही इंगित किया था, रैखिक प्रतिगमन के पीछे का विचार बिंदुओं के माध्यम से एक पंक्ति को फिट करना नहीं है, बल्कि भविष्यवाणी करना है दिए गए x- मानों के लिए y- मानों की करना है। इसलिए केवल y में दूरी का उपयोग किया जाता है, जो कि भविष्यवाणी सटीकता है।

एक्स(टी)पीमैंमैं=1...एनटी

वांग, पोट्टमन, लियू: "वक्रता-आधारित स्क्वेयर्ड दूरी के बादलों को इंगित करने के लिए फिटिंग बी-स्प्लिट घटता है।" ग्राफिक्स 25.2 पर एसीएम लेनदेन, पीपी। 214-238, 2006

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.