क्या सांख्यिकीय मॉडल के प्रशिक्षण के लिए "पर्याप्त" डेटा की अवधारणा है?


10

मैं बहुत से सांख्यिकीय मॉडलिंग पर काम करता हूं, जैसे कि हिडन मार्कोव मॉडल और गौसियन मिक्सचर मॉडल। मैं देखता हूं कि इन मामलों में से प्रत्येक में अच्छे मॉडल को प्रशिक्षित करने के लिए एक बड़े (> एचएमएम के लिए 20000 वाक्य) डेटा की आवश्यकता होती है जो अंतिम उपयोग के समान वातावरण से लिया जाता है। मेरा सवाल यह है कि:

  1. क्या साहित्य में "पर्याप्त" प्रशिक्षण डेटा की अवधारणा है? कितना प्रशिक्षण डेटा "अच्छा पर्याप्त" है?
  2. "अच्छा" (कि एक अच्छी पहचान सटीकता (> 80%)) मॉडल को प्रशिक्षित करने के लिए कितने वाक्यों की आवश्यकता है, मैं कैसे गणना कर सकता हूं?
  3. मुझे कैसे पता चलेगा कि किसी मॉडल को ठीक से प्रशिक्षित किया गया है? क्या मॉडल में गुणांक यादृच्छिक उतार-चढ़ाव का प्रदर्शन करना शुरू कर देगा? यदि हां, तो मैं मॉडल अपडेट के कारण यादृच्छिक उतार-चढ़ाव और वास्तविक परिवर्तनों को कैसे अलग करूं?

कृपया इस प्रश्न को पुनः प्राप्त करने के लिए स्वतंत्र महसूस करें क्योंकि इसे और टैग की आवश्यकता है।

जवाबों:


10

आप अपने डेटासेट को 10%, 20%, 30%, ..., आपके डेटा के 100% के साथ लगातार सब्सक्राइब में स्लाइस कर सकते हैं और प्रत्येक सब्मिट के लिए k-fold क्रॉस वैधीकरण या बूटस्ट्रैपिंग का उपयोग करके अपने अनुमानक सटीकता के विचरण का अनुमान लगा सकते हैं। यदि आपके पास "पर्याप्त" डेटा है, तो वेरिएंट की साजिश रचने से एक घटती मोनोटोनिक लाइन प्रदर्शित होनी चाहिए जो 100% से पहले एक पठार तक पहुंचनी चाहिए: अधिक डेटा जोड़ने से किसी भी महत्वपूर्ण तरीके से अनुमानक की सटीकता के विचरण में कमी नहीं होती है।


मुझे वो एक बार कोशिश करके देखना होगा। दिलचस्प लगता है। धन्यवाद!
श्रीराम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.