भविष्यवाणी का प्रदर्शन विधि की तुलना में डेटा विश्लेषक की विशेषज्ञता पर अधिक निर्भर करता है?


14

मैं एक अफवाह पर आया हूं कि कुछ अध्ययनों से पता चला है कि भविष्यवाणी करने वाले मॉडल का प्रदर्शन डेटा विश्लेषक की विशेषज्ञता पर विधि की पसंद पर चुने गए विधि के साथ अधिक निर्भर करता है।
दूसरे शब्दों में, यह दावा है कि यह अधिक महत्वपूर्ण है कि डेटा विश्लेषक चुने हुए विधि से परिचित है कि "सैद्धांतिक" विधि से अधिक सैद्धांतिक दृष्टिकोण से समस्या कैसे होगी।

यह केमोमेट्रिक्स के संदर्भ में उल्लेख किया गया था, जिसमें आम तौर पर कई वेरिएट्स (100s - प्लस), एकाधिक कोलिनियरिटी और निश्चित रूप से बहुत कम नमूनों की समस्याएं शामिल हैं। भविष्यवाणी वर्गीकरण या प्रतिगमन हो सकता है।

मेरा व्यक्तिगत अनुभव बताता है कि यह प्रशंसनीय है , लेकिन एक अध्ययन का उल्लेख किया गया था (मैंने उस व्यक्ति से पूछा, जिसने उल्लेख किया था कि त्वरित लेकिन असफल खोज के बाद ईमेल द्वारा, लेकिन कभी कोई जवाब नहीं मिला)। हालाँकि, एक अधिक विस्तृत खोज के साथ, मैं किसी भी पत्र को ट्रैक करने में सक्षम नहीं था।

क्या किसी को इस तरह के निष्कर्षों के बारे में पता है? यदि नहीं, तो यहां बिग गियर्स के व्यक्तिगत अनुभव क्या कहते हैं?


1
मैं इधर-उधर लिटिल गाइ से अधिक हूं, लेकिन मैंने न्यूरल नेटवर्क्स में जो देखा है, वह इस परिकल्पना का समर्थन करता है: "आउट ऑफ द बॉक्स" टूल होने से जहां "मशीन सीखती है" कुछ, सफल वर्गीकरण या भविष्यवाणी एक पर निर्भर लगती है बहुत preprocessing डेटा के मामले में सबसे महत्वपूर्ण बात, लेकिन यह भी नेटवर्क वास्तुकला आदि के संदर्भ में - कैसे व्यक्ति स्मार्ट पर है कि नेटवर्क कैसे डेटा से जानने के लिए बताता है
स्टीफ़न Kolassa

1
मुझे लगता है कि द स्टैटिस्टिकल ऑफ स्टैटिस्टिकल लर्निंग से यह आंकड़ा 2.4 है जहां वे निकटतम पड़ोसियों की तुलना रीजेंसी-प्रकार के तरीकों से करते हैं (और निश्चित रूप से वे पूरे पुस्तक में कई तुलनात्मक बिंदु भी प्रदान करते हैं)।
15

@StasK: रिमाइंडर के लिए धन्यवाद (याद न रखने के लिए मुझ पर शर्म करो)। उन्होंने यह भी बताया कि व्यवहार में पीसीआर, पीएलएस और रिज प्रतिगमन बहुत समान हैं, और एलडीए और लॉजिस्टिक प्रतिगमन भी। हालांकि, बाद के तरीके भी सैद्धांतिक दृष्टिकोण से बहुत समान हैं।
केलीलाइट्स मोनिका

जवाबों:


1

वास्तव में, मैंने एक अफवाह सुनी है कि सभ्य शिक्षण मशीनें आमतौर पर विशेषज्ञों की तुलना में बेहतर होती हैं, क्योंकि मानव झुकाव पूर्वाग्रह (ओवरस्म्यूट) की कीमत पर विचरण को कम करना है, जिससे नए डेटासेट में खराब भविष्य कहनेवाला प्रदर्शन होता है। MSE को कम करने के लिए मशीन को कैलिब्रेट किया जाता है, और इस तरह एक नए डेटासेट में भविष्यवाणी के संदर्भ में बेहतर करने की कोशिश की जाती है ।


1
मेरे अनुभव में यह निश्चित रूप से सच है कि मनुष्य अधिक उपद्रव करते हैं। हालाँकि, मेरे अनुभव में आपको एक अच्छे विशेषज्ञ की भी जरूरत है जो नॉट-ओवरफिटिंग लर्निंग मशीन का चुनाव करता है। अन्यथा कोई व्यक्ति केवल एक सीखने की मशीन चुनता है जो ओवरफिट करता है।
केबेलाइट्स मोनिका

1
सामान्य तौर पर MSE ओवरफिटिंग से तब तक बचाव नहीं करता है जब तक आप मॉडल को बहुत सीमित नहीं करते हैं - और वहां विशेषज्ञ फिर से आते हैं। फिर भी लोग उदाहरण के लिए मॉडल हाइपरपरमेटर्स को अनुकूलित करने का प्रयास करते हैं। विशेष रूप से पुनरावृत्ति अनुकूलन रणनीतियाँ ओवरफिट, (MSE या नहीं), जब तक कि आप प्रत्येक पुनरावृत्ति के लिए स्वतंत्र परीक्षण डेटा का पूरी तरह से नया सेट नहीं ले सकते। शायद मुझे कहना चाहिए कि मैं एक ऐसे क्षेत्र से आता हूं जहां परीक्षण के मामले बहुत कम हैं। और, किसी भी मामले में आप तर्क दे सकते हैं कि यह एक सभ्य सीखने की मशीन नहीं है।
क्लेबाइट्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.