आगे की स्टेजवाइज़ रिग्रेशन अल्गोरिदम क्या है?


14

शायद यह सिर्फ इतना है कि मैं थका हुआ हूं, लेकिन मुझे आगे की स्टेजवाइज रिग्रेशन एल्गोरिदम को समझने में परेशानी हो रही है। से "सांख्यिकीय लर्निंग के तत्वों" पृष्ठ 60:

फ़ॉरवर्ड-स्टेजवाइज़ रिग्रेशन (FS) आगे-स्टेपवाइज़ रिग्रेशन की तुलना में और भी अधिक विवश है। यह आगे-स्टेपवाइज रिग्रेशन की तरह शुरू होता है, जिसमें [y] के बराबर एक अवरोधन होता है, और कोए e के साथ सेंटेड प्रेडिक्टर्स शुरू में सभी 0 होते हैं।

प्रत्येक चरण में एल्गोरिथ्म आइडेंटी step वर्तमान अवशिष्ट के साथ सबसे अधिक सहसंबंधित चर से बचता है। यह इस चुने हुए चर पर अवशिष्ट के सरल रेखीय प्रतिगमन coe the cient की गणना करता है, और फिर उस चर के लिए इसे वर्तमान co-e for cient में जोड़ता है। यह तब तक जारी रखा जाता है जब तक कि कोई भी चर अवशेषों के साथ सहसंबंध नहीं रखता है - यानी जब एन> पी।

तो, क्या यह एल्गोरिथम है? "

b[1]=mean(y)
b[2..n]=0
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
while(abs(maxCorr) > someThreshold)
  b[index]=b[index]+regress(r,X[1..n][index])
  r=(y-X*b)
  index, maxCorr = max(transpose(r)*X)

जहां बी गुणांक के एक स्तंभ-सदिश है, एक्स इनपुट का एक मैट्रिक्स है, और y आउटपुट का एक कॉलम-वेक्टर है। Ie y = X * b + त्रुटि।

यह पूछने के कारण कि यह एल्गोरिथ्म मुझे डेटासेट पर केवल कुछ गैर-शून्य गुणांक देता है जो मैं इसे (दहलीज = .0001 के साथ) पर परीक्षण कर रहा हूं, और भविष्यवाणी सटीकता बिल्कुल भी अच्छा नहीं है।

जवाबों:


5

वे लेखक अपनी पुस्तक में एल्गोरिथ्म की व्याख्या करने का एक घटिया काम करते हैं। यदि आप उनके पेपर में 1.6 और 1.7 के समीकरणों को देखते हैं , तो यह स्पष्ट हो जाता है। कागज में थोड़ा अलग सूत्रीकरण होता है (यह गुणांक वेक्टर के बजाय अवशिष्ट का निर्माण करता है), लेकिन मुख्य बिंदु यह है कि यह बहुत छोटे चरणों में बहुत कम फिट बैठता है (यही कारण है कि पुस्तक एल्गोरिदम का उल्लेख कर सकती है "और भी बहुत कुछ" पी चरणों से "समाप्त करने के लिए)। आप या तो "regress (...)" को कुछ छोटी संख्या के साथ बदल सकते हैं, या आप इसे 0.05 जैसी किसी चीज़ से गुणा कर सकते हैं। इसके साथ चारों ओर खेलते हैं और देखें कि क्या काम करता है।

साथ ही, आपकी दहलीज छोटी लगती है। r '* X संख्याओं को आनुपातिक देने वाला है लेकिन वास्तविक सहसंबंधों की तुलना में बहुत बड़ा है (उदाहरण के लिए कागज में मधुमेह के आंकड़े सहसंबंध ~ 70-900 हैं)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.