ग्रैडिएंट बूस्टिंग के साथ वर्गीकरण: भविष्यवाणी को कैसे रखें [0,1]


17

प्रश्न

मैं यह समझने के लिए संघर्ष कर रहा हूं कि कैसे ग्रैडिएंट बूस्टिंग के साथ द्विआधारी वर्गीकरण करते समय भविष्यवाणी अंतराल के भीतर रखी जाती है ।[0,1]

मान लें कि हम एक द्विआधारी वर्गीकरण समस्या पर काम कर रहे हैं, और हमारे उद्देश्य समारोह लॉग नुकसान हुआ है, , जहां y लक्ष्य चर रहा है { 0 , 1 } और एच हमारे वर्तमान मॉडल है।yilog(Hm(xi))+(1yi)log(1Hm(xi))y{0,1}H

अगले कमजोर शिक्षार्थी प्रशिक्षित करते समय हमारा नया मॉडल H i = H i - 1 + h i होता है , वह कौन सा तंत्र है जो H i[ 0 , 1 ] को रखने वाला है ? या, शायद एक अधिक प्रासंगिक प्रश्न, क्या ऐसा कोई तंत्र है?hiHi=Hi1+hiHi[0,1]


मैं क्या कर रहा हूँ पर अधिक जानकारी

मैं रिग्रेशन ट्री का इस्तेमाल करते हुए ग्रेडिएंट बूस्टिंग को लागू करने की कोशिश कर रहा हूं। क्या मैं इसे से बचने के लिए करते हैं कि एक गुणा है एक पहलू से [ 0 , अधिकतम ] , ऐसा है कि एच + अधिकतम शून्य से नीचे या ऊपर जाना नहीं है, और मैं चयन इस श्रेणी में है कि कम करता है नुकसान समारोह।hic[0,cmax]H+cmaxhc

यह निम्नलिखित समस्या लाता है: कुछ राउंड के बाद, मेरे पास एक बिंदु है जो पूरी तरह से वर्गीकृत है, और ग्रेडिएंट को ढाल की दिशा में धकेलने के लिए सबसे अच्छा विभाजन उपलब्ध है जो इस बिंदु को एक से ऊपर धकेलना चाहता है, जो मुझे यकीन नहीं होता है सेटिंग । इस प्रकार सभी अगले पुनरावृत्ति समान विभाजन और समान c = 0 का चयन करेंगे ।c=0c=0

मैंने सामान्य नियमितीकरण की कोशिश की

  • गुणा करके सीखने दर घटाना द्वारा μ = 0.01 । यह सिर्फ समस्या को दूर करता है।cμ=0.01
  • फीचर स्पेस को सब्स्क्राइब करना, लेकिन कुछ बिंदुओं को वर्गीकृत करना बहुत आसान है, वे लगभग हर बॉक्स को "क्या यह सकारात्मक है?" फार्म, और लगभग हर "अच्छा विभाजन" इस व्यवहार को दर्शाता है।

मुझे लगता है कि यह मापदंडों की समस्या नहीं है, और इसे ठीक करने के लिए अधिक ध्वनि तरीका होना चाहिए । मैं इस संभावना को खारिज नहीं कर रहा हूं कि मेरा कार्यान्वयन टूट गया है, लेकिन मैंने इस समस्या को स्वीकार नहीं किया है।

लॉजिस्टिक लॉस के संदर्भ में हम जो हेरफेर कर रहे हैं, वह एक संभावना होनी चाहिए, तो हम इससे कैसे बचें?


मेरा अंतर्ज्ञान उस मॉडल को बनाने का होगा, जो , एक सिग्मोइड फ़ंक्शन में ऐसा है कि यह [ 0 , 1 ] से घिरा है , और मुझे लगता है कि यह काम करेगा, लेकिन मैं जानना चाहता हूं कि क्या अन्य समाधान हैं। चूंकि धीरे-धीरे बूस्टिंग का उपयोग वर्गीकरण कार्यों में सफलतापूर्वक किया जाता है, इसलिए एक "सही" (यानी, औचित्य के साथ) समाधान मौजूद होना चाहिए।H[0,1]


आप की आवश्यकता हो सकती है कि गुणक है, उस में ln ( H ) आपके अन्य विशेषज्ञों के साथ additively व्यवहार करता है। Hln(H)
एलेक्स आर।

जवाबों:


22

मुझे रैखिक मॉडल के मामले के साथ समानता में यह सोचना पसंद है, और जीएलएम (सामान्यीकृत रैखिक मॉडल) के लिए उनका विस्तार।

एक रैखिक मॉडल में, हम अपनी प्रतिक्रिया की भविष्यवाणी करने के लिए एक रेखीय कार्य करते हैं

y^=β0+β1x1+βnxn

अन्य स्थितियों को सामान्य बनाने के लिए, हम एक लिंक फ़ंक्शन शुरू करते हैं, जो प्रतिक्रिया के पैमाने पर मॉडल के रैखिक हिस्से को बदल देता है (तकनीकी रूप से यह एक उलटा लिंक है, लेकिन मुझे लगता है कि इस तरह से सोचना आसान है, रैखिक भविष्यवक्ता को बदलना एक प्रतिक्रिया में, एक रैखिक भविष्यवक्ता में प्रतिक्रिया को बदलने से)।

उदाहरण के लिए, लॉजिस्टिक मॉडल सिग्मॉइड (या लॉगिट) फ़ंक्शन का उपयोग करता है

y^=11+exp((β0+β1x1+βnxn))

और पॉसन प्रतिगमन एक घातीय फ़ंक्शन का उपयोग करता है

y^=exp(β0+β1x1+βnxn)

ग्रेडिएंट बूस्टिंग के साथ एक सादृश्य का निर्माण करने के लिए, हम इन मॉडलों के रैखिक हिस्से को बढ़े हुए पेड़ों के योग से प्रतिस्थापित करते हैं। इसलिए, उदाहरण के लिए, गाऊसी मामला (रैखिक प्रतिगमन के अनुरूप) प्रसिद्ध हो जाता है

y^=ihi

hi

y^=11+exp(ihi)

और पॉइज़न बूस्टिंग पोइज़न रिग्रेशन के अनुरूप है

y^=exp(ihi)

iβixi

उदाहरण के लिए, द्विपद हानि आमतौर पर के रूप में सामना किया जाता है

iyilog(pi)+(1yi)log(1pi)

pipiLiLi

iyiLilog(1+exp(Li))

L

केवल बहुत ही अंत में, जब हम उपयोगकर्ता के लिए भविष्यवाणियों का उत्पादन करना चाहते हैं, तो क्या हम भविष्यवाणियों को प्रतिक्रिया के रूप में उसी पैमाने पर रखने के लिए कमजोर शिक्षार्थियों के अंतिम अनुक्रम में लिंक फ़ंक्शन को लागू करते हैं। मॉडल को फिट करते समय, हम आंतरिक रूप से पूरे समय रैखिक पैमाने पर काम करते हैं।


2
r(,)i(yilog11+er+(1yi)log(111+er))r

@ मैथ्यू-ड्र्यू क्या आप कृपया उसी एल्गोरिथ्म के K- वर्ग बहुराष्ट्रीय खंड पर कुछ प्रकाश जोड़ सकते हैं जहां समान विचार इसके लिए काम करने के लिए विस्तारित है?
मिक्सकैप्ड

6

कुछ शोध के बाद, ऐसा लगता है कि मेरी अंतर्ज्ञान और एलेक्स आर की टिप्पणी सही है।

[0,1]HHR

11+eH[0,1]
H

इस पत्र में सुझाव दिया गया है Additive रसद प्रतिगमन: बढ़ाने का एक सांख्यिकीय दृश्य , फ्राइडमैन, Hastie और Tibshirani, द्वारा निर्माण करने के लिए LogitBoost (विकिपीडिया) , का एक रूपांतर AdaBoost (विकिपीडिया) उपस्कर घटाने के लिए।

बहुत ही मूल शब्दों में, यदि एक सिग्मॉइड के अतिरिक्त रैखिक प्रतिगमन से लॉजिस्टिक रिग्रेशन तक जाना संभव है, तो यह रिग्रेशन बूस्टिंग को वर्गीकरण बूस्टिंग में बदलने के लिए भी काम करता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.