डेटा सेट पर सबसे अच्छा प्रदर्शन संभव है


9

कहो कि मेरे पास एक वर्गीकरण की तरह एक साधारण मशीन सीखने की समस्या है। दृष्टि या श्रव्य मान्यता में कुछ बेंचमार्क के साथ, मैं, एक मानव के रूप में, एक बहुत अच्छा क्लासिफायरियर हूं। इसलिए मेरा एक अंतर्ज्ञान है कि एक क्लासिफायरियर को कितना अच्छा मिल सकता है।

लेकिन बहुत सारे डेटा के साथ एक बिंदु यह है कि मुझे नहीं पता कि मैं जिस क्लासिफायर ट्रेन को प्राप्त करना संभव है वह कितना अच्छा है। यह वह डेटा है जहां मैं व्यक्तिगत रूप से एक बहुत अच्छा क्लासिफायरियर नहीं हूं (कहते हैं, ईईजी डेटा से किसी व्यक्ति के मूड को वर्गीकृत करें)। मेरी समस्या कितनी कठिन है, इस पर अंतर्ज्ञान प्राप्त करना वास्तव में संभव नहीं है।

अब, अगर मुझे मशीन सीखने की समस्या के साथ प्रस्तुत किया जाता है, तो मैं यह पता लगाना चाहूंगा कि मुझे कितना अच्छा मिल सकता है। क्या इसके लिए कोई राजसी दृष्टिकोण है? आप यह कैसे करेंगे?

डेटा की कल्पना करें? सरल मॉडल से शुरू करें? बहुत जटिल मॉडल से शुरू करें और देखें कि क्या मैं ओवरफिट कर सकता हूं? यदि आप इस प्रश्न का उत्तर देना चाहते हैं तो आप क्या देख रहे हैं? आप कोशिश करना कब बंद करते हैं?

जवाबों:


6

मुझे नहीं पता कि यह जवाब के रूप में गिना जाता है ...

यह एक समस्या है जो आपको रात में बांधे रखती है। क्या आप एक बेहतर मॉडल बना सकते हैं? पीएचडी-कॉमिक्स इसे अच्छी तरह से गाया जाता है (मुझे नहीं पता कि मुझे कॉमिक्स अपलोड करने की अनुमति है या नहीं, इसलिए मैंने अभी उन्हें लिंक किया है)

मेरे व्यक्तिगत अनुभव से, मशीन लर्निंग प्रतियोगिताओं में भाग लेने से, यहाँ एक नियम है।

कल्पना कीजिए कि आपको एक वर्गीकरण कार्य दिया गया है। बैठो, एक घंटे या उससे कम समय में विचार करें कि आप इस समस्या से कैसे निपटेंगे और इस क्षेत्र में कला की स्थिति की जांच करेंगे। इस शोध के आधार पर एक मॉडल बनाएं, अधिमानतः एक जिसे बहुत अधिक पैरामीटर ट्वीकिंग के बिना स्थिर होना जाना जाता है। परिणामी प्रदर्शन लगभग अधिकतम प्राप्त करने योग्य प्रदर्शन का लगभग 80% होगा।

यह नियम तथाकथित पारेतो सिद्धांत पर आधारित है , जो अनुकूलन पर भी लागू होता है। एक समस्या को देखते हुए, आप एक समाधान बना सकते हैं जो उचित रूप से तेजी से प्रदर्शन करता है, लेकिन उस समय से सुधार का अनुपात तेजी से गिरता है।

कुछ अंतिम शब्द: जब मैं नए वर्गीकरण एल्गोरिदम के बारे में कागजात पढ़ता हूं, तो मैं उम्मीद करता हूं कि लेखक अपनी नई नस्ल की तुलना ऐसे "प्यारेटो-ऑप्टिमाइज्ड" तरीकों से करेंगे, यानी मैं उनसे उम्मीद करता हूं कि कला की स्थिति बनाने के लिए उचित समय बिताएं। (कुछ को अधिक या कम पैरामीटर अनुकूलन की आवश्यकता होती है)। दुर्भाग्य से, कई ऐसा नहीं करते हैं।


0

पारंपरिक तरीका आरओसी और इसके तहत आने वाले क्षेत्र (एयूसी) पर विचार करना है। इस दृष्टिकोण के पीछे तर्क यह है कि किसी विशेष झूठी सकारात्मक दर के लिए वास्तविक सकारात्मक दर जितनी अधिक होगी, उतना ही बेहतर क्लासिफायरियर। सभी संभव झूठी सकारात्मक दरों पर एकीकरण आपको एक समग्र उपाय देता है।


3
जहाँ तक मैंने ओपी को समझा है, उसका मुद्दा एक क्लासिफायर के प्रदर्शन की माप नहीं है (जो कि भविष्य में अपेक्षित प्रदर्शन के लिए एक अच्छा अनुमान है) लेकिन एटी सभी को कितना अच्छा मिल सकता है, यानी अधिकतम क्या है (बिल्कुल नहीं प्रति मीट्रिक (AUC अधिकतम 1 है या ऐसा ही कुछ है), लेकिन किसी समस्या के लिए)
स्टीफन

हां, मेरा यही मतलब है।
बायरज

0

यदि आपके पास अपने डेटा की कल्पना करने के लिए कोई रास्ता है, तो यह सबसे अच्छा संभव परिदृश्य है लेकिन सभी डेटा को एक ही तरह से कल्पना नहीं की जा सकती है, इसलिए आपको डेटा को प्रोजेक्ट करने के लिए अपना खुद का तरीका खोजने की आवश्यकता हो सकती है जो आपके डेटा को समझने में आपकी सहायता कर सके। बेहतर।

हालांकि, सामान्य तौर पर, मैं आमतौर पर डेटा का एक छोटा सा नमूना लेता हूं, इसे ARFF में रूपांतरित करता हूं और WEKA से अलग-अलग क्लस्टरिंग एल्गोरिदम की कोशिश करता हूं। फिर, मैं बस देखता हूं कि कौन सा एल्गोरिथ्म मुझे बेहतर भ्रम मैट्रिक्स देता है। यह मुझे संकेत देता है कि कक्षाएं कितनी अच्छी तरह से अलग हो जाती हैं और मुझे इस बात की जांच करने की अनुमति देती हैं कि वह विशेष एल्गोरिथ्म इस डेटा के लिए बेहतर क्यों करता है। मैं समूहों की संख्या भी बदल देता हूं (अर्थात मैं सिर्फ k = 2 का उपयोग नहीं करता, मैं k = 3, 4 आदि का उपयोग करता हूं)। यह मुझे एक विचार देता है कि क्या डेटा में विखंडन है या क्या एक वर्ग दूसरे की तुलना में अधिक खंडित है। यदि आप क्लस्टरिंग के लिए प्रशिक्षण और परीक्षण बिंदुओं को एक साथ मिलाते हैं, तो आप यह भी माप सकते हैं कि कौन से क्लस्टर आपके प्रशिक्षण बिंदुओं द्वारा दर्शाए गए हैं। कुछ समूहों को अधिक-प्रतिनिधित्व किया जा सकता है और कुछ को कम-प्रतिनिधित्व किया जा सकता है, दोनों ऐसे मुद्दों का कारण बन सकते हैं जो एक क्लासिफायरियर सीख रहे हैं।

हमेशा अपनी प्रशिक्षण सटीकता की जांच करें। यदि आपकी प्रशिक्षण सटीकता अच्छी नहीं लग रही है, तो गलत वर्गीकरण वाले प्रशिक्षण बिंदु भी एक बड़े संकेत हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.