Xgboost के अनुमानित विभाजन बिंदु प्रस्ताव को समझने में सहायता की आवश्यकता है


12

पृष्ठभूमि:

में xgboost यात्रा की कोशिश करता एक पेड़ फिट करने के लिए टी सब कुछ खत्म n उदाहरण जो उद्देश्य निम्नलिखित को कम करता है:tftn

i=1n[gift(xi)+12hift2(xi)]

जहां पहले के आदेश और हमारे पिछले श्रेष्ठ अनुमान से अधिक दूसरा आदेश डेरिवेटिव हैं y (पुनरावृत्ति से टी - 1 ):gi,hiy^t1

  • gi=dy^l(yi,y^)
  • मैं=y^2एल(yमैं,y^)

और हमारे नुकसान का कार्य है।एल


प्रश्न (अंत में):

जब निर्माण और एक विशिष्ट सुविधा पर विचार कश्मीर एक विशिष्ट विभाजन में, वे केवल कुछ विभाजन उम्मीदवारों का आकलन करने के लिए निम्न अनुमानी का उपयोग: वे तरह उनके द्वारा सभी उदाहरणों एक्स कश्मीर , क्रमबद्ध सूची के ऊपर से गुजरती हैं और उनके दूसरा व्युत्पन्न योग मैं । वे एक विभाजन उम्मीदवार पर विचार केवल जब योग से अधिक में परिवर्तन ε । ऐसा क्यों है???टीएक्समैंε

वे स्पष्टीकरण मुझे देते हैं:

वे दावा करते हैं कि हम पिछले समीकरण को फिर से लिख सकते हैं:

Σमैं=1n12मैं[टी(एक्समैं)-जीमैं/मैं]2+सीnरोंटीnटी

और मैं बीजगणित का पालन करने में विफल रहता हूं - क्या आप दिखा सकते हैं कि यह समान क्यों है?

और फिर वे दावा करते हैं कि "यह लेबल और वेट h i के साथ बिल्कुल भारित वर्गीय नुकसान है " - एक कथन जिससे मैं सहमत हूं, लेकिन मुझे समझ में नहीं आता कि यह विभाजित उम्मीदवार एल्गोरिदम से कैसे संबंधित है जो वे उपयोग कर रहे हैं। ..जीमैं/मैंमैं

धन्यवाद और क्षमा करें यदि यह इस मंच के लिए बहुत लंबा है।

जवाबों:


8

मैं विवरण में नहीं जाऊंगा, लेकिन निम्नलिखित को आपको विचार को समझने में मदद करनी चाहिए।

वे यह निर्धारित करने के लिए क्वांटाइल्स (विकिपीडिया) का उपयोग करते हैं कि कहां विभाजन करना है। आप 100 संभव विभाजन बिंदु हैं तो (क्रमबद्ध), तुम कोशिश कर सकते 10 -quantiles अंक विभाजित { x 10 , x 20 , , x 90 } और एक अच्छा सन्निकटन पहले से ही है। यह क्या है ε पैरामीटर कर रही है। वे एक विभाजन बिंदु है जब विभाजन है पर विचार ~ ε एन पिछले विभाजन बिंदु की तुलना में यह अधिक अंक के नीचे। यदि ε = 0.01{एक्स1,,एक्स100}10{एक्स10,एक्स20,,एक्स90}ε~εएनε=0.01, आप के साथ खत्म हो जाएगा , विभाजन अंक की तुलना में बड़ा किया जा रहा है { 1 % , 2 % , , अन्य बिंदुओं का 99 % } । वे एक नया विभाजन पर विचार नहीं है जब "योग से अधिक बदल जाता है ε " लेकिन वर्तमान बिंदु के तहत अंक की संख्या से बड़ा है जब ε पिछले एक की तुलना में।~100{1%,2%,,99%}εε

अब, यदि आपके पास बहुत सारे निरंतर बिंदु हैं जो पहले से ही अच्छी तरह से वर्गीकृत हैं, तो उनके बीच विभाजन करना बेकार हो सकता है। आप अपने डेटा सेट के हिस्सों को विभाजित करना चाहते हैं जो बहुत गलत हैं, जिन्हें सीखना मुश्किल है। ऐसा करने के लिए, वे भारित मात्राओं का उपयोग करते हैं। यह वह जगह है जहाँ भार एक भूमिका निभाता है। पहला -क्वेंटाइल पहला बिंदु नहीं होगा जो 10 % अंकों से बड़ा हो , लेकिन पहला बिंदु जो 10 % से अधिक वजन का हो।1010%10%


मैंने आपको केवल एक वोट देने के लिए लॉग इन किया। आसान व्याख्या के लिए धन्यवाद।
पाकपोम तिवकोर्नकिट

3

बस बीजगणितीय भाग को @ पेय उत्तर में जोड़ना है:

दूसरे समीकरण में इसका चिन्ह उल्टा होना चाहिए, जैसे:

Σमैं=1n12मैं[टी(एक्समैं)-(-जीमैं/मैं)]2+सीnरोंटीnटी=Σमैं=1n12मैं[टी2(एक्समैं)+2टी(एक्समैं)जीमैंमैं+(जीमैं/मैं)2]=Σमैं=1n[जीमैंटी(एक्समैं)+12मैंटी2(एक्समैं)+जीमैं22मैं]

अंतिम शब्द वास्तव में स्थिर है: याद रखें कि और h i पिछले पुनरावृत्ति द्वारा निर्धारित किए जाते हैं, इसलिए जब वे f t सेट करने का प्रयास कर रहे होते हैं तो वे स्थिर होते हैं ।जीमैंमैंटी

तो, अब हम दावा कर सकते हैं "लेबल के साथ वास्तव में यह दिया जाता है वर्ग हानि और वज़न मैं "-जीमैं/मैंमैं

मुझे यह समझाने के लिए मेरी टीम की ओर से श्रेय यारों और एवी को जाता है।


0

और फिर वे दावा करते हैं कि "यह बिल्कुल gi / higi / hi और weights hihi के लेबल के साथ कम वजन वाला वर्गीय नुकसान है" - एक कथन जिससे मैं सहमत हूं, लेकिन मुझे समझ में नहीं आता है कि यह उन विभाजित उम्मीदवार एल्गोरिदम से कैसे संबंधित है जो वे उपयोग कर रहे हैं .. ।

  1. यदि केवल एक नमूना है, और आप t - t h iteration पर w अनुकूलन कर रहे हैं , तो यह देखना आसान है कि मान w - = - g i / h i होगा , समझा ( f t - - - ( g i /)i ) ) टी-टीw*=-जीमैं/मैं(टी--(जीमैं/मैं))2

  2. अब आपके पास पूरा डेटा सेट है। एक मामले में जहां नुकसान समारोह एक समान दूसरा व्युत्पन्न है में, w* बन जाएगा -vजी(जीमैं)/सीnरोंटी के बजाय -रोंमैंजी(जीमैं)/रोंमैंजी(मैं) । मैं इस तरह से यह लिखा था, क्योंकि उस स्थिति में, w* के अंतर के लिए अप्रासंगिक हो जाएगा मैंनमूनों के बीच, चूंकि कोई अंतर नहीं है। हालांकि, वास्तव में, जब ध्यान में रखते हुए जीमैं अपरिवर्तित, w* के वितरण के साथ fluctuates मैं

मुझे लगता है कि यह बताता है कि यह क्यों काम करता है क्योंकि यह मैं द्वारा भारित है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.