शायद यह सिर्फ इतना है कि मैं थका हुआ हूं, लेकिन मुझे आगे की स्टेजवाइज रिग्रेशन एल्गोरिदम को समझने में परेशानी हो रही है। से "सांख्यिकीय लर्निंग के तत्वों" पृष्ठ 60:
फ़ॉरवर्ड-स्टेजवाइज़ रिग्रेशन (FS) आगे-स्टेपवाइज़ रिग्रेशन की तुलना में और भी अधिक विवश है। यह आगे-स्टेपवाइज रिग्रेशन की तरह शुरू होता है, जिसमें [y] के बराबर एक अवरोधन होता है, और कोए e के साथ सेंटेड प्रेडिक्टर्स शुरू में सभी 0 होते हैं।
प्रत्येक चरण में एल्गोरिथ्म आइडेंटी step वर्तमान अवशिष्ट के साथ सबसे अधिक सहसंबंधित चर से बचता है। यह इस चुने हुए चर पर अवशिष्ट के सरल रेखीय प्रतिगमन coe the cient की गणना करता है, और फिर उस चर के लिए इसे वर्तमान co-e for cient में जोड़ता है। यह तब तक जारी रखा जाता है जब तक कि कोई भी चर अवशेषों के साथ सहसंबंध नहीं रखता है - यानी जब एन> पी।
तो, क्या यह एल्गोरिथम है? "
b[1]=mean(y)
b[2..n]=0
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
while(abs(maxCorr) > someThreshold)
b[index]=b[index]+regress(r,X[1..n][index])
r=(y-X*b)
index, maxCorr = max(transpose(r)*X)
जहां बी गुणांक के एक स्तंभ-सदिश है, एक्स इनपुट का एक मैट्रिक्स है, और y आउटपुट का एक कॉलम-वेक्टर है। Ie y = X * b + त्रुटि।
यह पूछने के कारण कि यह एल्गोरिथ्म मुझे डेटासेट पर केवल कुछ गैर-शून्य गुणांक देता है जो मैं इसे (दहलीज = .0001 के साथ) पर परीक्षण कर रहा हूं, और भविष्यवाणी सटीकता बिल्कुल भी अच्छा नहीं है।