उपयुक्त मशीन लर्निंग एल्गोरिदम चुनने के लिए खोजपूर्ण डेटा विश्लेषण कैसे करें


16

हम मशीन लर्निंग के माध्यम से मशीन लर्निंग का अध्ययन कर रहे हैं: ए प्रोबेबिलिस्टिक पर्सपेक्टिव (केविन मर्फी)। जबकि पाठ प्रत्येक एल्गोरिथ्म की सैद्धांतिक नींव की व्याख्या करता है, यह शायद ही कभी कहता है कि कौन सा एल्गोरिथ्म बेहतर है, और जब यह होता है, तो यह नहीं कहता कि मैं किस मामले में बताऊं।

उदाहरण के लिए, कर्नेल की पसंद के लिए, मुझे यह पता लगाने के लिए खोजपूर्ण डेटा विश्लेषण करने के लिए कहा गया है कि मेरा डेटा कितना जटिल है। सरल 2 आयामी डेटा में, मैं एक रेखीय या रेडियल कर्नेल को प्लॉट और देख सकता हूं। लेकिन उच्च आयाम में क्या करना है?

आम तौर पर, एल्गोरिथ्म चुनने से पहले लोग कहते हैं कि "आपके डेटा को जानने के लिए" का क्या मतलब है? अभी मैं केवल वर्गीकरण बनाम प्रतिगमन एल्गोरिथ्म, और रैखिक बनाम गैर-रैखिक एल्गोरिथ्म (जिसे मैं जांच नहीं कर सकता) को भेद कर सकता हूं।

संपादित करें: यद्यपि मेरा मूल प्रश्न अंगूठे के सार्वभौमिक नियम के बारे में है, मुझे अपनी विशेष समस्या के बारे में अधिक जानकारी प्रदान करने के लिए कहा गया है।

डेटा: प्रत्येक पंक्ति में एक देश-माह (~ 30,000 पंक्तियाँ), ~ 165 देशों को ~ 15 वर्षों में कवर करती है।

प्रतिक्रिया: ब्याज के 5 द्विआधारी चर (यानी विरोध / तख्तापलट / संकट, आदि उस महीने में होते हैं)।

विशेषताएं: ~ 400 चर (निरंतर, श्रेणीबद्ध, बाइनरी का मिश्रण) 2 पिछले देश-महीनों (अब अंतराल बनाया जा सकता है) की विशेषता का एक गुच्छा का विवरण। हम केवल लैग्ड चर का उपयोग करते हैं क्योंकि लक्ष्य भविष्यवाणी है।

उदाहरणों में शामिल हैं, विनिमय दर, जीडीपी विकास (निरंतर), मुक्त प्रेस का स्तर (श्रेणीबद्ध), लोकतंत्र, चाहे पड़ोसी होने वाला संघर्ष (बाइनरी)। ध्यान दें कि इन 400 सुविधाओं में से बहुत से परिवर्तनशील चर हैं।

जवाबों:


15

यह एक सरल उत्तर के बिना एक व्यापक प्रश्न है। सीएमयू में मैंने इस विषय पर 3 महीने का पाठ्यक्रम पढ़ाया । यह इस तरह के मुद्दों को कवर किया:

  1. चर और समग्र वितरण संरचना के बीच सहसंबंध को समझने के लिए अनुमानों का उपयोग करना ।
  2. कैसे क्रमिक रूप से अवशिष्ट मॉडलिंग करके एक प्रतिगमन मॉडल का निर्माण करें ।
  3. निर्धारित करते हैं कि एक रैखिक मॉडल में nonlinear इंटरैक्शन शब्द कब जोड़े जाएं।
  4. कैसे एक निर्णय पेड़ बनाम एक लॉजिस्टिक क्लासिफायर बनाम knn के बीच तय करने के लिए । मैं कई यूसीआई डेटासेटों के माध्यम से गया और दिखाया कि आप कैसे बता सकते हैं कि उन्हें चलाने से पहले कौन सा क्लासिफायर जीतेगा।

अफसोस की बात है कि पाठ्यक्रम के लिए कोई वीडियो या पाठ्यपुस्तक नहीं है, लेकिन मैंने एक बात दी जो मुख्य बिंदुओं को कक्षा से सारांशित करती है। मैं किसी भी पाठ्यपुस्तक से अवगत नहीं हूँ जो एक ही मैदान को कवर करती है।


मुझे इन सहायक सामग्रियों को पचाने में एक या दो दिन लगेंगे, लेकिन जब मेरा ध्यान होगा: तो हमारे पास इस विषय को कवर करने वाली पाठ्यपुस्तक / संसाधन क्यों नहीं हैं? क्या यह महत्वपूर्ण नहीं है क्योंकि जब भी कोई परियोजना में संलग्न होता है तो उन्हें इस प्रश्न के बारे में सोचना पड़ता है?
हाइजेनबर्ग

1
अच्छा प्रश्न (+1) और उत्तर (+1)। @ हाइज़ेनबर्ग: मैं इस विषय पर एक विशिष्ट पाठ्यपुस्तक को नहीं देखने के लिए टॉम से सहमत हूं। हालाँकि, उनके संसाधनों के अलावा, मैं दो ऑनलाइन संसाधनों (उन्हें एमएल अनुप्रयोगों पर ध्यान केंद्रित नहीं किए जाने के बावजूद): 1) NIST इंजीनियरिंग सांख्यिकी पुस्तिका का EDA अनुभाग सुझाऊंगा; 2) जटिल मॉडल के लिए EDA पर प्रो एंड्रयू एंड्रयूमैन द्वारा एक दिलचस्प पेपर
अलेक्जेंडर ब्लेक

0

कुछ चीजें हैं जो आप अपने डेटा में जांच सकते हैं।

1 - correlation between variables
2 - categorical variables or continuous variables?
3 - relation between number of samples and number of variables
4 - are the samples independent or is it a time series? 

इन बिंदुओं के अनुसार और जिस तरह की जानकारी आप अपने डेटा से निकालना चाहते हैं, आप तय कर सकते हैं कि किस एल्गोरिदम का उपयोग करना है।


क्या आप विस्तृत कर सकते हैं कि इन 4 सूचनाओं में से प्रत्येक मेरी एल्गोरिथम पसंद को कैसे प्रभावित करती है? मुझे केवल इतना पता है कि 2 वर्गीकरण बनाम प्रतिगमन का फैसला करेगा। अन्य 3 के बारे में क्या? (विशेष रूप से # 4 - मेरे पास 10 वर्षों में 165 देशों का पैनल डेटा है)
हेइज़ेनबर्ग

2- मैं इनपुट के रूप में श्रेणीबद्ध चर के बारे में सोच रहा था। एल्गोरिथ्म पर अंतिम निर्णय उस समस्या पर निर्भर करता है जिसे आप हल करने की कोशिश कर रहे हैं। अब यह जानने का तरीका है कि पहले। 2- शायद कोई फैसला पेड़ आपकी मदद कर सकता है। 3 में आपको ओवरफिटिंग से सावधान रहना होगा। 4- आपको यह तय करना होगा कि अपने प्रदर्शन का मूल्यांकन कैसे करें। केवल अगर आप किसी विशेष समस्या की व्याख्या करते हैं, तो हम आपको यह तय करने में मदद कर सकते हैं कि किस एल्गोरिदम का उपयोग करना है।
डोनेबो

मैंने अपने प्रश्न को अपनी विशेष समस्या के बारे में अधिक विवरण के लिए संपादित किया है।
हेइज़ेनबर्ग
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.