वर्गीकरण और प्रतिगमन पेड़ों के पीछे गणित


14

क्या कोई CART में वर्गीकरण के पीछे के गणित को समझाने में मदद कर सकता है? मैं यह समझना चाहता हूं कि दो मुख्य चरण कैसे होते हैं। उदाहरण के लिए, मैंने एक डेटासेट पर एक कार्ट क्लास क्लासीफायर को प्रशिक्षित किया और अपने पूर्वानुमान के प्रदर्शन को चिह्नित करने के लिए एक परीक्षण डेटासेट का उपयोग किया लेकिन:

  1. पेड़ की प्रारंभिक जड़ को कैसे चुना जाता है?

  2. प्रत्येक शाखा क्यों और कैसे बनती है?

15 कॉलम और 23 वर्गों के साथ मेरे डेटासेट के 400 हजार रिकॉर्ड होने से एक भ्रम मैट्रिक्स से 100% सटीकता प्राप्त होती है, मैं डेटासेट पर 10-गुना क्रॉसवॉलिडेशन का उपयोग करता हूं। मैं वास्तव में बहुत अच्छा होगा अगर कोई CART वर्गीकरण के चरणों को समझाने में मदद कर सकता है?

जवाबों:


24

CART और निर्णय पेड़ जैसे एल्गोरिदम, एक निर्धारित लक्ष्य वर्ग के लिए जितना संभव हो उतना शुद्ध होने के लिए निर्धारित प्रशिक्षण के पुनरावर्ती विभाजन के माध्यम से काम करते हैं। पेड़ का प्रत्येक नोड रिकॉर्ड एक विशेष सेट से जुड़ा हुआ है जो एक विशेषता पर एक विशिष्ट परीक्षण द्वारा विभाजित है। उदाहरण के लिए, एक निरंतर विशेषता पर एक विभाजन परीक्षण द्वारा प्रेरित किया जा सकता है । रिकॉर्ड का सेट फिर दो सबसेट में विभाजित किया गया है जो पेड़ की बाईं शाखा और दाईं ओर जाता है।TAAxT

Tl={tT:t(A)x}

तथा

Tr={tT:t(A)>x}

इसी तरह, एक श्रेणीगत सुविधा का उपयोग इसके मूल्यों के अनुसार विभाजन को प्रेरित करने के लिए किया जा सकता है। उदाहरण के लिए, यदि प्रत्येक शाखा परीक्षण द्वारा प्रेरित किया जा सकता है ।BB={b1,,bk}iB=bi

निर्णय पेड़ को प्रेरित करने के लिए पुनरावर्ती एल्गोरिदम का विभाजन कदम प्रत्येक सुविधा के लिए सभी संभावित विभाजन को ध्यान में रखता है और एक चुने हुए गुणवत्ता उपाय के अनुसार सबसे अच्छा खोजने की कोशिश करता है: विभाजन की कसौटी। यदि आपका डेटासेट निम्न योजना पर प्रेरित है

A1,,Am,C

जहाँ विशेषताएँ हैं और लक्ष्य वर्ग है, सभी उम्मीदवार विभाजन विभाजित मानदंड से उत्पन्न और मूल्यांकन किए जाते हैं। निरंतर विशेषताओं और श्रेणीबद्ध लोगों पर विभाजन ऊपर वर्णित के रूप में उत्पन्न होते हैं। सबसे अच्छा विभाजन का चयन आमतौर पर अशुद्धता उपायों द्वारा किया जाता है। विभाजन द्वारा मूल नोड की अशुद्धता को कम करना होगा । आइए को रिकॉर्ड के सेट पर विभाजित किया जाए , एक विभाजन मानदंड जो अशुद्धता माप है:AjC(E1,E2,,Ek)EI()

Δ=I(E)i=1k|Ei||E|I(Ei)

मानक अशुद्धता के उपाय शैनन एन्ट्रापी या गनी इंडेक्स हैं। अधिक विशेष रूप से, CART निम्नलिखित के रूप में सेट लिए परिभाषित Gini सूचकांक का उपयोग करता है । चलो में अभिलेखों का अंश हो वर्ग के तो जहां कक्षाओं की संख्या है।EpjEcj

pj=|{tE:t[C]=cj}||E|
Gini(E)=1j=1Qpj2
Q

यह 0 अशुद्धता की ओर जाता है जब सभी रिकॉर्ड एक ही वर्ग के होते हैं।

एक उदाहरण के रूप में, मान लें कि हमारे पास रिकॉर्ड का बाइनरी क्लास सेट है जहाँ क्लास डिस्ट्रीब्यूशन - निम्नलिखित लिए एक अच्छा विभाजन हैT(1/2,1/2)T

अच्छा विभाजन हुआ

में अभिलेखों की संभावना वितरण है और के एक है । मान लीजिए कि और एक ही आकार के हैं, इस प्रकार । हम देख सकते हैं कि उच्च है:Tl(1,0)Tr(0,1)TlTr|Tl|/|T|=|Tr|/|T|=1/2Δ

Δ=11/221/2200=1/2

निम्नलिखित विभाजन पहले वाले से भी बदतर है और विभाजन मानदंड इस विशेषता को दर्शाता है। Δखराब फूट

Δ=11/221/221/2(1(3/4)2(1/4)2)1/2(1(1/4)2(3/4)2)=1/21/2(3/8)1/2(3/8)=1/8

पहले विभाजन को सर्वश्रेष्ठ विभाजन के रूप में चुना जाएगा और फिर एल्गोरिथ्म एक पुनरावर्ती फैशन में आगे बढ़ेगा।

निर्णय के पेड़ के साथ एक नया उदाहरण वर्गीकृत करना आसान है, वास्तव में यह रूट नोड से एक पत्ती तक के मार्ग का पालन करने के लिए पर्याप्त है। एक रिकॉर्ड को पत्ते के बहुमत वर्ग के साथ वर्गीकृत किया जाता है जो इसे पहुंचता है।

कहें कि हम इस आंकड़े पर वर्ग का वर्गीकरण करना चाहते हैं

दो फीचर डाटासेट

यह योजना , जहां लक्ष्य वर्ग है और और दो निरंतर विशेषताएं हैं प्रेरित एक प्रशिक्षण सेट का चित्रमय प्रतिनिधित्व है।सी बीA,B,CCAB

एक संभावित प्रेरित निर्णय वृक्ष निम्नलिखित हो सकता है: यहाँ छवि विवरण दर्ज करें

यह स्पष्ट है कि रिकॉर्ड स्क्वायर को निर्णय वृक्ष द्वारा एक सर्कल के रूप में वर्गीकृत किया जाएगा, यह देखते हुए कि रिकॉर्ड सर्कल के साथ एक पत्ती पर गिरता है।

इस खिलौना उदाहरण में प्रशिक्षण सेट पर सटीकता 100% है क्योंकि कोई भी रिकॉर्ड पेड़ द्वारा गलत तरीके से वर्गीकृत नहीं किया गया है। ऊपर दिए गए प्रशिक्षण के चित्रमय प्रतिनिधित्व पर हम सीमाओं (ग्रे धराशायी लाइनों) को देख सकते हैं जो पेड़ नए उदाहरणों को वर्गीकृत करने के लिए उपयोग करता है।

निर्णय वृक्षों पर बहुत साहित्य है, मैं सिर्फ एक संक्षिप्त परिचय लिखना चाहता था। एक और प्रसिद्ध कार्यान्वयन C4.5 है।


1
महान चित्र!
Cam.Davidson.Pilon

धन्यवाद, दुर्भाग्य से ऐसा लगता है कि संपादक पीडीएफ प्रारूप में अपलोड का समर्थन नहीं करता है। वे सदिश थे।
सिमोन

2

मैं कार्ट्स का विशेषज्ञ नहीं हूं, लेकिन आप "एलिमेंट ऑफ स्टैटिस्टिकल लर्निंग" पुस्तक की कोशिश कर सकते हैं, जो मुफ्त में ऑनलाइन उपलब्ध है (CARTs के लिए अध्याय 9 देखें)। मेरा मानना ​​है कि पुस्तक कार्ट एल्गोरिथ्म (फ्रीडमैन) के रचनाकारों में से एक द्वारा लिखी गई थी।


कि बहुत मदद की! +1 शानदार खोज!
जी ग्रां

@GarrithGraham कोई समस्या नहीं है, मैंने सोचा कि यह मुफ्त पुस्तक एक "प्रसिद्ध रहस्य" है।
बिटवाइस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.