मैं बहुत से सांख्यिकीय मॉडलिंग पर काम करता हूं, जैसे कि हिडन मार्कोव मॉडल और गौसियन मिक्सचर मॉडल। मैं देखता हूं कि इन मामलों में से प्रत्येक में अच्छे मॉडल को प्रशिक्षित करने के लिए एक बड़े (> एचएमएम के लिए 20000 वाक्य) डेटा की आवश्यकता होती है जो अंतिम उपयोग के समान वातावरण से लिया जाता है। मेरा सवाल यह है कि:
- क्या साहित्य में "पर्याप्त" प्रशिक्षण डेटा की अवधारणा है? कितना प्रशिक्षण डेटा "अच्छा पर्याप्त" है?
- "अच्छा" (कि एक अच्छी पहचान सटीकता (> 80%)) मॉडल को प्रशिक्षित करने के लिए कितने वाक्यों की आवश्यकता है, मैं कैसे गणना कर सकता हूं?
- मुझे कैसे पता चलेगा कि किसी मॉडल को ठीक से प्रशिक्षित किया गया है? क्या मॉडल में गुणांक यादृच्छिक उतार-चढ़ाव का प्रदर्शन करना शुरू कर देगा? यदि हां, तो मैं मॉडल अपडेट के कारण यादृच्छिक उतार-चढ़ाव और वास्तविक परिवर्तनों को कैसे अलग करूं?
कृपया इस प्रश्न को पुनः प्राप्त करने के लिए स्वतंत्र महसूस करें क्योंकि इसे और टैग की आवश्यकता है।