ऑनलाइन बनाम ऑफ़लाइन सीखने में मॉडल का चयन


11

मैं हाल ही में ऑनलाइन सीखने के बारे में अधिक जानने की कोशिश कर रहा हूं (यह बिल्कुल आकर्षक है!), और एक विषय है कि मैं एक अच्छा समझ पाने में सक्षम नहीं हूं कि ऑफ़लाइन बनाम ऑनलाइन संदर्भों में मॉडल चयन के बारे में कैसे सोचना है। विशेष रूप से, मान लें कि हम कुछ निश्चित डेटा सेट आधार पर, एक क्लासिफायरियर ऑफ़लाइन प्रशिक्षण देते हैं । हम क्रॉस-सत्यापन के माध्यम से इसकी प्रदर्शन विशेषताओं का अनुमान लगाते हैं, कहते हैं, और हम इस तरह से सर्वश्रेष्ठ क्लासिफायरियर का चयन करते हैं।SD

यह वही है जिसके बारे में मैं सोच रहा हूं: कैसे, फिर, क्या हम को ऑनलाइन सेटिंग में लागू करने के बारे में जाते हैं ? क्या हम यह मान सकते हैं कि ऑफ़लाइन पाया गया सर्वश्रेष्ठ ऑनलाइन क्लासिफायरियर के रूप में भी अच्छा प्रदर्शन करेगा? क्या को प्रशिक्षित करने के लिए कुछ डेटा इकट्ठा करना समझ में आता है , फिर उसी क्लासिफायर और इसे पाए जाने वाले समान मापदंडों के साथ ऑनलाइन सेटिंग में "ऑपरेशनल करें" , या दूसरा तरीका बेहतर हो सकता है? इन मामलों में क्या हैं? यहां प्रमुख परिणाम क्या हैं? इत्यादि।SSSSD

वैसे भी, अब वहाँ से बाहर है, मुझे लगता है कि मैं जो देख रहा हूं वह कुछ संदर्भ या संसाधन हैं जो मुझे मदद करेंगे (और उम्मीद है कि अन्य लोग, जो इस तरह की चीज के बारे में सोच रहे हैं!) केवल ऑफ़लाइन शब्दों में पूरी तरह से सोचने से संक्रमण बनाते हैं, और मॉडल चयन के मुद्दे के बारे में सोचने के लिए मानसिक रूपरेखा विकसित करें और मेरे पढ़ने की प्रगति के रूप में इन प्रश्नों का अधिक सुसंगत तरीके से उपयोग करें।


क्या आपके पास कोई उपयोगी लीड है, या क्या आपके पास अब तक देने के लिए कोई सुझाव है? धन्यवाद!
user1953384

मैं आपको फ्रांसेस्को " arxiv.org/pdf/1406.3816v1.pdf " द्वारा पेपर देखने का सुझाव देता हूं जिसमें वह संयुक्त रूप से एक शॉट में मॉडल का चयन और अनुकूलन करता है।
चन्द्रेश

यदि आप पे-वॉल को बायपास कर सकते हैं, तो यह बहुत अच्छा संदर्भ हो सकता है: cognet.mit.edu/journal/10.1162/089976601750265045 ?
1

जवाबों:


1

जाहिर है, एक स्ट्रीमिंग संदर्भ में आप क्रॉस-वैलिडेशन करने के लिए अपने डेटा को ट्रेन और टेस्ट सेट में विभाजित नहीं कर सकते हैं। केवल प्रारंभिक ट्रेन सेट पर गणना की गई मीट्रिक का उपयोग करना और भी बुरा लगता है, क्योंकि आप यह मानते हैं कि आपका डेटा परिवर्तन और आपका मॉडल परिवर्तनों के अनुकूल होगा - यही कारण है कि आप पहली बार ऑनलाइन लर्निंग मोड का उपयोग कर रहे हैं।

आप जो कुछ भी कर सकते हैं, वह उस तरह की क्रॉस-मान्यता का उपयोग करने के लिए है जो समय-श्रृंखला में उपयोग किया जाता है (देखें Hyndman और Athanasopoulos, 2018 )। समय-श्रृंखला मॉडल की सटीकता का आकलन करने के लिए, आप एक अनुक्रमिक विधि का उपयोग कर सकते हैं, जहां मॉडल को "भविष्य" के समय बिंदु पर भविष्यवाणी करने के लिए टिप्पणियों पर प्रशिक्षित किया जाता है । यह एक समय में, या बैचों में एक बिंदु पर लागू किया जा सकता है, और प्रक्रिया तब तक दोहराई जाती है जब तक कि आप अपने सभी डेटा का पता नहीं लगा लेते हैं (नीचे दिए गए आंकड़े देखें, Hyndman और Athanasopoulos, 2018 से लिया गया है )।kk+1

अंत में, आप किसी तरह औसत (आमतौर पर अंकगणित माध्य, लेकिन आप घातीय चौरसाई जैसे कुछ का उपयोग कर सकते हैं) समग्र सटीकता अनुमान प्राप्त करने के लिए त्रुटि मैट्रिक्स।

यहाँ छवि विवरण दर्ज करें

एक ऑनलाइन परिदृश्य में इसका मतलब है कि आप समय-बिंदु 1 पर शुरू करते हैं और समय-बिंदु 2 पर परीक्षण करते हैं, समय-बिंदु 2 पर अगली पुनः ट्रेन, समय-बिंदु 3 पर परीक्षण करने के लिए आदि।

ध्यान दें कि इस तरह की क्रॉस-मान्यता पद्धति आपको अपने मॉडल के प्रदर्शन की बदलती प्रकृति के बारे में बताती है। जाहिर है, जैसा कि आपका मॉडल डेटा में बदलाव करता है और डेटा बदल सकता है, आपको नियमित रूप से त्रुटि मीट्रिक की निगरानी करने की आवश्यकता होगी: अन्यथा यह निश्चित-आकार की ट्रेन और परीक्षण सेट का उपयोग करने से बहुत भिन्न नहीं होगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.