एक आंशिक निर्भरता भूखंडों की वाई अक्ष की व्याख्या करना


22

मैंने आंशिक निर्भरता भूखंडों पर अन्य विषयों के माध्यम से पढ़ा है और उनमें से अधिकांश इस बात पर हैं कि आप वास्तव में उन्हें अलग-अलग पैकेजों के साथ कैसे प्लॉट करते हैं, न कि आप कैसे उनकी सही व्याख्या कर सकते हैं, इसलिए:

मैं आंशिक निर्भरता भूखंडों की उचित मात्रा में पढ़ रहा हूं और बना रहा हूं। मुझे पता है कि वे मेरे मॉडल से अन्य सभी चर ()c) के औसत प्रभाव के साथ फ़ंक्शन χS ()S) पर एक चर thes के सीमांत प्रभाव को मापते हैं। उच्च y मान का मतलब है कि उनका मेरी कक्षा की सटीक भविष्यवाणी करने पर अधिक प्रभाव है। हालाँकि, मैं इस गुणात्मक व्याख्या से संतुष्ट नहीं हूँ।

यह लिंक मेरे कई भूखंडों में से एक को दर्शाता है।  http://imgur.com/RXqlOky

मेरा मॉडल (यादृच्छिक वन) दो विचारशील वर्गों की भविष्यवाणी कर रहा है। "हाँ पेड़" और "पेड़ नहीं"। TRI एक ऐसा चर है जो इसके लिए एक अच्छा चर साबित हुआ है।

जो मैं सोचने लगा कि वाई मान सही वर्गीकरण के लिए एक संभावना दिखा रहा है। उदाहरण: y (0.2) दिखा रहा है कि ~ ~ 30 के TRI मानों में ट्रू पॉजिटिव वर्गीकरण की सही पहचान करने की 20% संभावना है।

जहां इसके विपरीत

y (-0.2) दिखा रहा है कि <~ 15 के TRI मानों में ट्रू निगेटिव वर्गीकरण की सही पहचान करने की 20% संभावना है।

सामान्य व्याख्याएं जो साहित्य में की जाती हैं, यह इस तरह की ध्वनि होगी "टीआरआई 30 से अधिक के मूल्य आपके मॉडल में वर्गीकरण के लिए सकारात्मक प्रभाव डालते हैं" और यही है। यह एक भूखंड के लिए इतना अस्पष्ट और व्यर्थ लगता है जो संभवतः आपके डेटा के बारे में इतना बोल सकता है।

इसके अलावा, मेरे सभी प्लॉट्स y- अक्ष के लिए -1 से 1 तक की सीमा में हैं। मैंने अन्य भूखंडों को देखा है जो -10 से 10 आदि हैं। क्या यह इस बात का एक कार्य है कि आप कितने वर्गों की भविष्यवाणी करने की कोशिश कर रहे हैं?

मैं सोच रहा था कि क्या कोई इस समस्या से बात कर सकता है। शायद मुझे दिखाओ कि कैसे मुझे इन भूखंडों या कुछ साहित्य की व्याख्या करनी चाहिए जो मेरी मदद कर सकते हैं। शायद मैं इसमें बहुत दूर पढ़ रहा हूँ?

मैंने बहुत अच्छी तरह से पढ़ा है सांख्यिकीय शिक्षा के तत्व: डेटा खनन, अनुमान और भविष्यवाणी और यह एक महान प्रारंभिक बिंदु रहा है लेकिन इसके बारे में है।


यह प्लॉट टीआरआई 30 तक औसत पेड़ की संभावना को दिखाता है और उसके बाद बढ़ता है। यह लिंक बताता है कि पीडीपी बाइनरी वर्गीकरण और निरंतर चर भूखंडों की व्याख्या कैसे करें।
LazyNearestNeigbour

जवाबों:


13

आंशिक निर्भरता की साजिश पर प्रत्येक बिंदु टीआरआई के एक निश्चित स्तर को देखते हुए सभी टिप्पणियों के पार "हां पेड़ों" वर्ग के पक्ष में औसत वोट प्रतिशत है।

यह सही वर्गीकरण की संभावना नहीं है। इसमें सटीकता, सच्ची नकारात्मकता और सच्ची सकारात्मकता से कोई लेना-देना नहीं है।

जब आप वाक्यांश देखते हैं

TRI 30 से अधिक के मान आपके मॉडल में वर्गीकरण के लिए सकारात्मक प्रभाव डालते हैं

कहने का एक उलझा हुआ तरीका है

टीआरआई 30 से अधिक का मान "हां पेड़ों" की भविष्यवाणी करना शुरू करता है जो कि टीआरआई 30 की तुलना में कम मूल्यों से अधिक दृढ़ता से है


2

आंशिक निर्भरता फ़ंक्शन मूल रूप से आपको उस चर की "औसत" प्रवृत्ति देता है (मॉडल में अन्य सभी को एकीकृत करता है)। यह उस प्रवृत्ति का आकार है जो "महत्वपूर्ण" है। आप इन प्लॉटों के सापेक्ष रेंज की व्याख्या अलग-अलग प्रेडिक्टर वैरिएबल से कर सकते हैं, लेकिन निरपेक्ष रेंज नहीं। उम्मीद है की वो मदद करदे।


2

Y अक्ष मूल्यों को देखने का एक तरीका यह है कि वे दूसरे भूखंडों में एक दूसरे के सापेक्ष हैं। जब यह संख्या पूर्ण मूल्यों में अन्य भूखंडों की तुलना में अधिक है, तो इसका मतलब है कि यह अधिक महत्वपूर्ण कारण है कि आउटपुट पर उस चर का प्रभाव बड़ा है।

यदि आप आंशिक निर्भरता भूखंडों के पीछे गणित में रुचि रखते हैं और उस संख्या का अनुमान कैसे लगाया जाता है, तो आप इसे यहां पा सकते हैं: http://statweb.stanford.edu/~jhf/ftp/RuleFit.pdf खंड 8.1

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.