क्या होगा अगर उच्च मान्यता सटीकता लेकिन अनुसंधान में कम परीक्षण सटीकता?


15

मशीन लर्निंग अनुसंधान में सत्यापन के बारे में मेरा एक विशिष्ट प्रश्न है।

जैसा कि हम जानते हैं, मशीन लर्निंग शासन शोधकर्ताओं को प्रशिक्षण के आंकड़ों पर अपने मॉडल को प्रशिक्षित करने, सत्यापन सेट द्वारा उम्मीदवार मॉडल से चुनने और परीक्षण सेट पर सटीकता की रिपोर्ट करने के लिए कहता है। बहुत कठोर अध्ययन में, परीक्षण सेट केवल एक बार उपयोग किया जा सकता है। हालांकि, यह कभी भी अनुसंधान का परिदृश्य नहीं हो सकता है, क्योंकि हमें अपने प्रदर्शन में सुधार करना होगा जब तक कि परीक्षण सटीकता अत्याधुनिक परिणामों से बेहतर हो इससे पहले कि हम एक पेपर प्रकाशित (या सबमिट) भी कर सकें।

अब समस्या आती है। मान लें कि 50% सबसे अधिक अत्याधुनिक परिणाम है, और मेरा मॉडल आमतौर पर 50--51 सटीकता प्राप्त कर सकता है, जो औसत पर बेहतर है।

हालांकि, मेरी सबसे अच्छी सत्यापन सटीकता (52%) बहुत कम परीक्षण सटीकता प्राप्त करती है, उदाहरण के लिए, 49%। फिर, मुझे अपने समग्र प्रदर्शन के रूप में 49% रिपोर्ट करना होगा यदि मैं सत्यापन के आरोप में और सुधार नहीं कर सकता, जो मुझे लगता है कि कोई उम्मीद नहीं है। यह वास्तव में मुझे समस्या का अध्ययन करने से रोकता है, लेकिन मेरे साथियों के लिए यह कोई मायने नहीं रखता है, क्योंकि उन्हें 52% एसीसी दिखाई नहीं देता है, जो मुझे लगता है कि यह एक बाहरी है।

तो, लोग आमतौर पर अपने शोध में कैसे करते हैं?

ps k- गुना सत्यापन कोई मदद नहीं है, क्योंकि एक ही स्थिति अभी भी हो सकती है।

जवाबों:


9

परिभाषा के अनुसार, जब प्रशिक्षण सटीकता (या जो भी मीट्रिक आप उपयोग कर रहे हैं) आपके परीक्षण से अधिक है तो आपके पास ओवरफिट मॉडल है । संक्षेप में, आपके मॉडल ने विशेष रूप से सीखा है जो आपके प्रशिक्षण डेटा में बेहतर प्रदर्शन करने में मदद करता है जो कि बड़ी डेटा आबादी पर लागू नहीं होते हैं और इसलिए परिणाम खराब होता है।

मुझे यकीन नहीं है कि आप क्यों कहते हैं कि के-फोल्ड सत्यापन मददगार नहीं होगा। इसका उद्देश्य अपने मॉडलों को फिट करने से बचने में मदद करना है। शायद आपके पास पर्याप्त डेटा नहीं है? इस तरह का एक बयान महत्वपूर्ण है, खासकर यदि आप किसी भी शोध का बचाव करने जा रहे हैं, जब इस तरह के क्रॉस-मान्यता तरीकों की अत्यधिक सिफारिश की जाती है।

आप कहते हैं कि आप केवल एक बार परीक्षण सेट का उपयोग करने में सक्षम नहीं हैं (फिर से मैं छोटे नमूने के आकार का अनुमान लगाता हूं?)। मेरे अनुभव में आपके द्वारा प्रति-मॉडल पार किया जाने वाला सबसे आम पथ है। चलो 100 के एक नमूना आकार के लिए 10-गुना सीवी के साथ एक उदाहरण लें और मान लें कि गणना को सरल बनाने के लिए आपकी वर्गीकरण समस्या द्विआधारी है। इसलिए मैंने अपने डेटा को 10 अलग-अलग परतों में विभाजित किया है । मैं फिर 9/10 सिलवटों के लिए अपने मॉडल को फिट करता हूं और फिर 1/10 की भविष्यवाणी करता हूं जिसे मैंने छोड़ा था। इस पहले रन के लिए, परिणामी भ्रम मैट्रिक्स है:

    0  1
0   4  1
1   2  3

मैं फिर अगले 1/10 गुना बाईं ओर के साथ इस विश्लेषण को दोहराता हूं और अन्य 9/10 पर प्रशिक्षित करता हूं। और मेरा अगला भ्रम मैट्रिक्स प्राप्त करें। एक बार पूरा होने के बाद, मेरे पास 10 भ्रम के मेट्रिसेस हैं। मैं तब इन मैट्रिसेस को योग करता हूं (इसलिए मेरे पास सभी 100 नमूनों की भविष्यवाणी की गई थी) और फिर मेरे आंकड़े (सटीकता, पीपीवी, एफ 1-स्कोर, कप्पा, आदि) की रिपोर्ट करें। यदि आपकी सटीकता वह नहीं है जहां आप चाहते हैं कि यह हो तो कई अन्य संभावनाएं हैं।

  1. आपके मॉडल में सुधार किया जाना चाहिए (मापदंडों में बदलाव)
  2. आपको एक अलग मशीन लर्निंग एल्गोरिदम (सभी एल्गोरिदम समान नहीं बनाए गए हैं) को आज़माने की आवश्यकता हो सकती है
  3. आपको अधिक डेटा की आवश्यकता है (सूक्ष्म संबंध मुश्किल है)
  4. आपको अपना डेटा बदलने की कोशिश करनी पड़ सकती है (उपयोग किए गए एल्गोरिदम पर निर्भर)
  5. आपके आश्रित और स्वतंत्र चर के बीच कोई संबंध नहीं हो सकता है

इस तथ्य का तथ्य यह है कि आपके प्रशिक्षण की तुलना में एक कम परीक्षण मीट्रिक (जैसे सटीकता) आपके मॉडल को ओवरफिट करने का संकेत है जो आप तब नहीं चाहते हैं जब आप एक नया पूर्वानुमान मॉडल बनाने की कोशिश कर रहे हैं।


जवाब देने के लिए धन्यवाद। मशीन लर्निंग तकनीक को लागू करने के बजाय, मैं प्रकाशनों के लिए मशीन लर्निंग अनुसंधान के विषय में क्या कर रहा हूं। अक्सर, बेंचमार्क प्रशिक्षण, सत्यापन और परीक्षण सेट के मानक विभाजन प्रदान करते हैं। इसके अलावा, के-गुना केवल विचरण को काटते हैं। मैं अभी भी उस स्थिति में आ सकता हूं, जहां मेरा (औसतन) सत्यापन एसीसी है। उच्च है, लेकिन परीक्षण एसीसी। कम है।
मूर

यह कभी-कभी मज़ेदार होता है कि अगर मैं अपने मॉडल को थोड़ा डिज़ाइन करता हूं, तो मैं केवल बाहरी की उपेक्षा कर सकता हूं क्योंकि मेरा मॉडल (और इस प्रकार परिकल्पना वर्ग) बदल जाता है, लेकिन यह हाइपरपैरमीटर ट्यूनिंग के लिए काम नहीं करता है क्योंकि हम परिकल्पना से एक मॉडल का चयन कर रहे हैं कक्षा। हालांकि, वास्तव में, हम, शोधकर्ताओं ने, अनिश्चित परिकल्पना वर्ग है --- हम जो भी पसंद कर रहे हैं, हम कोशिश कर रहे हैं। यह वास्तव में मुझे अनुसंधान के दौरान परेशान करता है, क्योंकि अक्सर, सटीकता का अंतर आमतौर पर बहुत कम होता है, 0.1% कहते हैं।
मऊ

@ मुझे लगता है, मैं अभी भी थोड़ा अनिश्चित हूं कि आप प्राथमिक प्रश्न क्या है। लगता है कि कई सवाल हैं। बाहरी लोगों से निपटना एक अलग विषय है। क्या आप मापदंडों को अनुकूलित करने या अंतिम मॉडल का मूल्यांकन करने की कोशिश कर रहे हैं? यह एक अलग क्षेत्र के लिए विशिष्ट हो सकता है, लेकिन 0.1% के परिवर्तन बहुत महत्वहीन हैं। आप या तो मेरे उत्तर में सूचीबद्ध विकल्पों का अनुसरण कर सकते हैं या स्वीकार कर सकते हैं कि आप केवल वर्तमान मॉडल और डेटा से बहुत कुछ प्राप्त कर सकते हैं। मॉडल अभी भी ओवरफिट (थोड़ा बहुत) प्रतीत होता है।
cdeterman

मैं आपसे सहमत हुँ। मुझे यह स्वीकार करना होगा कि मेरा मॉडल इतना अच्छा नहीं है। लेकिन कई दिन पहले, जब उच्च सीवी एसीसी। + कम परीक्षण एसीसी। मेरी स्क्रीन पर कूदना नहीं था, मेरा मॉडल दुनिया में सबसे अच्छा था। अब, यह नहीं है, हालांकि मैंने कुछ भी नहीं बदला। इसके अलावा, मुझे cv एसीसी में 52% से आगे निकलने की कोई उम्मीद नहीं है, जो मेरे शोध को रोकता है, लेकिन मेरे साथियों को इसके बारे में चिंता करने की आवश्यकता नहीं है।
मऊ

आपने संख्याओं को बदलने के लिए कुछ बदल दिया होगा या कुछ रैंडमाइजेशन है जो आपने seedप्रतिलिपि बनाने के लिए खाता सेट नहीं किया है । मुझे संदेह है कि आपके सीवी प्रक्रिया में कुछ यादृच्छिकता है कि जब दोहराया जा सकता है थोड़ा अलग परिणाम (लेकिन यह केवल एक अनुमान है)। मैं वास्तव में सुझाव देता हूं कि आप अपने प्रदर्शन को सुधारने और सुधारने के लिए कुछ अन्य मॉडल या डेटा परिवर्तन का पता लगाएं।
cdeterman
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.