हम मशीन लर्निंग के माध्यम से मशीन लर्निंग का अध्ययन कर रहे हैं: ए प्रोबेबिलिस्टिक पर्सपेक्टिव (केविन मर्फी)। जबकि पाठ प्रत्येक एल्गोरिथ्म की सैद्धांतिक नींव की व्याख्या करता है, यह शायद ही कभी कहता है कि कौन सा एल्गोरिथ्म बेहतर है, और जब यह होता है, तो यह नहीं कहता कि मैं किस मामले में बताऊं।
उदाहरण के लिए, कर्नेल की पसंद के लिए, मुझे यह पता लगाने के लिए खोजपूर्ण डेटा विश्लेषण करने के लिए कहा गया है कि मेरा डेटा कितना जटिल है। सरल 2 आयामी डेटा में, मैं एक रेखीय या रेडियल कर्नेल को प्लॉट और देख सकता हूं। लेकिन उच्च आयाम में क्या करना है?
आम तौर पर, एल्गोरिथ्म चुनने से पहले लोग कहते हैं कि "आपके डेटा को जानने के लिए" का क्या मतलब है? अभी मैं केवल वर्गीकरण बनाम प्रतिगमन एल्गोरिथ्म, और रैखिक बनाम गैर-रैखिक एल्गोरिथ्म (जिसे मैं जांच नहीं कर सकता) को भेद कर सकता हूं।
संपादित करें: यद्यपि मेरा मूल प्रश्न अंगूठे के सार्वभौमिक नियम के बारे में है, मुझे अपनी विशेष समस्या के बारे में अधिक जानकारी प्रदान करने के लिए कहा गया है।
डेटा: प्रत्येक पंक्ति में एक देश-माह (~ 30,000 पंक्तियाँ), ~ 165 देशों को ~ 15 वर्षों में कवर करती है।
प्रतिक्रिया: ब्याज के 5 द्विआधारी चर (यानी विरोध / तख्तापलट / संकट, आदि उस महीने में होते हैं)।
विशेषताएं: ~ 400 चर (निरंतर, श्रेणीबद्ध, बाइनरी का मिश्रण) 2 पिछले देश-महीनों (अब अंतराल बनाया जा सकता है) की विशेषता का एक गुच्छा का विवरण। हम केवल लैग्ड चर का उपयोग करते हैं क्योंकि लक्ष्य भविष्यवाणी है।
उदाहरणों में शामिल हैं, विनिमय दर, जीडीपी विकास (निरंतर), मुक्त प्रेस का स्तर (श्रेणीबद्ध), लोकतंत्र, चाहे पड़ोसी होने वाला संघर्ष (बाइनरी)। ध्यान दें कि इन 400 सुविधाओं में से बहुत से परिवर्तनशील चर हैं।