इंजीनियरिंग के दृष्टिकोण से, बहुत सटीक मॉडल के डाउनसाइड क्या हैं?


24

मैं सोच रहा था, इंजीनियरिंग के दृष्टिकोण से, किन कारणों से मॉडलिंग में बहुत अधिक सटीकता हानिकारक हो सकती है?

वैज्ञानिक दृष्टिकोण से ऐसा लगता है कि यह लगभग हमेशा एक लाभ है, इसके अलावा जब आपको कम गणना समय लेने की आवश्यकता होती है।

तो इंजीनियरिंग के दृष्टिकोण से, समय (या कंप्यूटिंग शक्ति) के अलावा आपको इससे क्यों बचना चाहिए?


2
कृपया यहां "सटीकता" और "बहुत अधिक" परिभाषित करें। आपके पास एक ऐसा मॉडल हो सकता है जो अनिश्चितता की सीमा को बहुत अधिक सटीकता तक सीमित करता है, या एक ऐसा मॉडल जो अनिश्चितता को बहुत कम मूल्य पर ही कम कर देता है। और इसी तरह।
कार्ल विट्ठॉफ्ट

1
"सब कुछ जितना संभव हो उतना सरल बनाया जाना चाहिए, लेकिन कोई सरल नहीं है।" आइंस्टीन।
एरिक डुमिनील

1
"समय के अलावा (या कंप्यूटिंग शक्ति)" ऐसा लगता है कि सभी उत्तर इस बिंदु से चूक गए ..
एजेंटप

1
@agentp इसके विपरीत, इस सवाल का जवाब खुद को बाहर करने की कोशिश करके देता है। यह पहली बात में सवाल में होने के लिए एक मूर्खतापूर्ण बात है।
jpmc26

2
यह गंभीरता से सबसे खराब "अत्यधिक मतदान" प्रश्न है जो मैंने कभी देखा है। यह भ्रामक है।
एजेंटप

जवाबों:


38

ओवरफिटिंग से सावधान रहें । एक सिस्टम से एकत्रित डेटा का अधिक सटीक मॉडल एक सिस्टम के भविष्य के व्यवहार का एक बेहतर भविष्यवक्ता नहीं हो सकता है।

ओवरफिटिंग उदाहरण

उपरोक्त छवि कुछ डेटा के दो मॉडल दिखाती है।

प्रशिक्षण डेटा (रेखांकन पर बिंदु) पर रेखीय रेखा कुछ हद तक सटीक है, और (एक उम्मीद करेगा) यह परीक्षण डेटा पर कुछ हद तक सटीक होगा (जहां अंक x <5 और x> -5 के लिए होने की संभावना है) )।

इसके विपरीत, बहुपद प्रशिक्षण डेटा के लिए 100% सटीक है, लेकिन (जब तक कि आपके पास 9 वीं डिग्री बहुपद को किसी भौतिक कारण के लिए उचित मानना ​​है), तो आप मानेंगे कि यह x 5: 5 के लिए एक बेहद गरीब भविष्यवक्ता होगा x <-5।

रेखीय मॉडल 'कम सटीक' है, जो हमारे द्वारा एकत्र किए गए डेटा के साथ त्रुटियों की तुलना पर आधारित है। लेकिन यह अधिक सामान्य है।

इसके अतिरिक्त, इंजीनियर्स को अपने मॉडल के बारे में कम चिंता करना पड़ता है, और अधिक यह है कि लोग मॉडल के साथ क्या करेंगे।

अगर मैं आपसे कहूं कि हम गर्म दिन चल रहे हैं और यह 426 मिनट तक चलने की उम्मीद है। आपको कम पानी लाने की संभावना है यदि मैं आपको बताता हूं कि चलना 7 घंटे तक चलेगा, और इससे भी कम अगर मैं कहता हूं कि चलना 4-5 घंटे तक चलेगा। ऐसा इसलिए है क्योंकि आप मेरे अनुमानित समय के मध्य बिंदु के बजाय मेरे पूर्वानुमान में मेरे निहित विश्वास के स्तर पर प्रतिक्रिया दे रहे हैं।

यदि आप लोगों को एक सटीक मॉडल देते हैं, तो लोग अपनी त्रुटि को कम कर देंगे। इससे बड़े जोखिम पैदा होते हैं।

गर्म दिन उदाहरण पर चलना, अगर मुझे पता है कि चलना 95% मामलों में 4-8 घंटे लगेगा, नेविगेशन और चलने की गति के आसपास कुछ अनिश्चितता के साथ। पूरी तरह से हमारी चलने की गति को जानने से 4-8 के आंकड़े की अनिश्चितता कम हो जाएगी, लेकिन यह 'हमें इतने लंबे समय तक ले जाने के अवसर को प्रभावित नहीं करेगा कि पानी एक मुद्दा बन जाता है', क्योंकि यह लगभग पूरी तरह से अनिश्चित नेविगेशन द्वारा संचालित है, नहीं अनिश्चित चलने की गति।


1
हालांकि, मैं टिप्पणी करता हूं कि डिग्री का बहुपद असामान्य रूप से बुरे व्यवहार के साथ एक उदाहरण है; एक निश्चित रूप से ऐसे मॉडल का उपयोग नहीं करना चाहिए। संवेदनशील मॉडल, जब ओवरफिट किया जाता है, तब भी उस तरह विस्फोट नहीं होना चाहिए जब तक कि आप वास्तव में माप द्वारा कवर की गई सीमा को नहीं छोड़ते । वास्तव में भी 8 डिग्री की एक बहुपद पहले से ही एक बहुत ही चिकनी फिट के लिए कर देगा, उन आंकड़ों को देखते हुए। एन
लेफ्टरेंबाउट

लिंक किए गए विकिपीडिया लेख से मुख्य उद्धरण: 'ओवरफिटिंग तब होती है जब कोई मॉडल एक प्रवृत्ति से सामान्यीकरण करने के लिए "सीखने" के बजाय प्रशिक्षण डेटा को "याद रखना" शुरू करता है।'
एमिलियो एम बुमचार

4
क्या हम वास्तव में "मॉडल में बहुत अधिक सटीकता" के लिए ओवरफिटिंग पर विचार करेंगे? यह "बहुत सटीक एक मॉडल" होने का नकारात्मक पक्ष नहीं है। यह बहुत अधिक सटीक बिंदु होने और खराब मॉडलिंग करने का एक नकारात्मक पहलू है । सटीक डेटा को खराब मॉडल बनाना एक सटीक मॉडल नहीं है।
जेमैक

@ जेएमएसी: मशीन सीखने के संदर्भ में ओवरफिटिंग स्वाभाविक रूप से हो सकती है, बिना जानबूझकर खराब मॉडल बनाने के लिए, प्रशिक्षण सेट पर बहुत अधिक डेटा फेंकने से। मुझे यकीन नहीं है कि "बहुत सटीक" उस तरह के परिणाम का वर्णन करने का सही तरीका है, लेकिन न तो "सरल मॉडलिंग त्रुटि" है।
केविन

26

सबसे स्पष्ट नकारात्मक लागत है, सभी इंजीनियरिंग परियोजनाओं में एक परिमित बजट होता है और इससे अधिक धन खर्च करने की आवश्यकता होती है, यह स्पष्ट रूप से समय बर्बाद करने का उल्लेख नहीं करने के लिए एक बुरी बात है।

अधिक सूक्ष्म मुद्दे भी हो सकते हैं। एफए विश्लेषण जैसी चीजें हमेशा सन्निकटन होती हैं और कभी-कभी अनावश्यक विस्तार को जोड़कर कलाकृतियों को पेश कर सकते हैं और एक मॉडल का निवारण करना अधिक कठिन बना सकते हैं। उदाहरण के लिए आप डिसकंटिन्यूएंट प्राप्त कर सकते हैं जिसके परिणामस्वरूप स्ट्रेस राइजर्स मिलते हैं

इस बात पर भी विचार किया जाता है कि यदि आपके पास कंप्यूटिंग शक्ति है, तो डेटा आपूर्तिकर्ताओं का एक बड़ा हिस्सा आसानी से संभाल सकता है और ग्राहकों को और कई मामलों में बड़ी फ़ाइलों को स्थानांतरित करना अभी भी एक अड़चन है।

इसी तरह अगर आपके पास जरूरत से ज्यादा पैरामीटर हैं तो आप फाइलों के प्रबंधन और डीबगिंग में लाइन के नीचे अतिरिक्त काम कर रहे हैं।

फिर भी अगर आपके पास प्रचुर समय और संसाधन हैं, तो यह अच्छी तरह से हो सकता है कि किसी और को लाइन के नीचे उसी लक्जरी के बिना उस मॉडल का उपयोग करने की आवश्यकता होती है, खासकर यदि यह समाप्त हो जाता है, तो आप उस उत्पाद का हिस्सा होते हैं जिसे आप ग्राहकों को बेच रहे हैं।


7
प्रश्न: 2 वें पैराग्राफ को पढ़ना चाहिए "... आवश्यक विवरण जोड़ना ..." या " संयुक्त आवश्यक विवरण जोड़ना "
फ्रेड

हाँ अनावश्यक होना चाहिए
क्रिस जॉन्स

मुझे यकीन नहीं है कि अगर एफई उदाहरण यहां अच्छी तरह से काम करता है। उस मामले में, एफई है मॉडल। अधिक सटीक डेटा का उपयोग समस्याओं को प्रस्तुत कर सकता है; लेकिन अगर आपका FE मॉडल सटीक है, तो जाहिर है कि आपको कलाकृतियों के बारे में चिंता करने की आवश्यकता नहीं है; क्योंकि आपका मॉडल उनके पास नहीं है। हमने पहले से ही इसे सटीक रूप में परिभाषित किया है। शायद एक अलग मॉडल का उपयोग करने के मामले में एक एफए विश्लेषण में प्लग करने के लिए; लेकिन तब वह ज्यादातर मॉडल का उपयोग करते हुए "किसी और पंक्ति के नीचे" का बिंदु होता है।
JMac

13

कुछ कारण हैं।

विशुद्ध रूप से व्यावहारिक दृष्टिकोण से, यह समय की कमी के कारण है। किसी मॉडल को हल करने के लिए अपेक्षित समय कहीं अधिक तेजी से बढ़ता है बढ़ जाता है, सटीकता के स्तर की तुलना में , और जो भी स्तर अपनाया जाता है वह व्यक्तिपरक है, वैसे भी।

±515% , उदाहरण के लिए। तो क्यों एक सुपर सटीक मॉडल के साथ परेशान अगर आपके प्रमुख आदानों में से एक 10% से दूर हो सकता है? (यह बिना कहे चला जाता है कि अन्य सामग्रियों जैसे कंक्रीट या मिट्टी के लिए और अन्य चर जैसे लोडिंग के लिए त्रुटि का मार्जिन काफी अधिक है)।

इसके कारण, बहुत सटीक होने का कोई मतलब नहीं है। लेकिन वास्तव में, यह बहुत सटीक होने की कोशिश न करने के लिए भी फायदेमंद हो सकता है। हालांकि इसके कारण ज्यादातर मनोवैज्ञानिक हैं। मुख्य रूप से, आप नहीं चाहते हैं कि आपका मॉडल बहुत सटीक हो, और आप अपने परिणामों को सात दशमलव स्थानों के साथ आउटपुट नहीं करना चाहते हैं, क्योंकि आप विश्वास की गलत भावना पैदा नहीं करना चाहते हैं।

मानव मस्तिष्क को यह सोचने में मुश्किल होती है कि 1.2393532697 1.2 से अधिक सटीक मूल्य है। लेकिन वास्तव में ऐसा नहीं है। सभी वास्तविक दुनिया की अनिश्चितताओं के कारण आपका मॉडल संभवतः ध्यान नहीं दे सकता है (विशेष रूप से वर्तमान हार्डवेयर सीमाएं), 1.2 लगभग निश्चित रूप से 1.2393532697 के रूप में मान्य है। तो अपने आप को ilude मत करो या जो कोई भी आपके मॉडल को देखता है। बस आउटपुट 1.2, जो पारदर्शी रूप से इंगित करता है कि आप वास्तव में नहीं जानते कि उस दूसरे अंक के बाद क्या हो रहा है।


6

एक अत्यंत सटीक मॉडल को इनपुट डेटा की निषेधात्मक मात्रा की आवश्यकता हो सकती है। मौसम प्रणालियों के एक उत्कृष्ट मॉडल को उत्पन्न करना संभव हो सकता है, उदाहरण के लिए, वातावरण में हर गैस अणु की स्थिति और वेग के इनपुट के रूप में। व्यवहार में, ऐसा मॉडल उपयोगी नहीं होगा, क्योंकि उचित इनपुट उत्पन्न करने का कोई यथार्थवादी तरीका नहीं है। एक कम सटीक मॉडल जिसे केवल सीमित इनपुट डेटा की आवश्यकता होती है वह इस मामले में बेहतर होगा।


1
आपने बुद्धि के लिए एक अलग प्रश्न का उत्तर दिया है: "कितना इनपुट डेटा बहुत अधिक है"
कार्ल विट्ठॉफ्ट

मैं शायद इस बात पर ध्यान दूंगा कि प्रश्न का उल्लेख कैसे किया जाता है "इसके अलावा जब आपको कम कम्प्यूटेशन समय की आवश्यकता होती है," क्योंकि यह भी एक सटीक सटीक मॉडल होने का एक अच्छा कारण है; यदि आपका मॉडल बहुत सटीक है, तो वास्तविक-दुनिया के मामलों की गणना के लिए ब्रह्मांड की गर्मी से अधिक समय लग सकता है।
वितरित करें

5

"बहुत सटीक" मोनोटोनिक नहीं है। यह वास्तव में निष्ठा का भ्रम पैदा कर सकता है, जो आपको लगता है कि सिमुलेशन में अधिक पैसा लगाने के लायक है। यह बहुत महत्वपूर्ण हो जाता है जब आप मिश्रित-निष्ठा मॉडल से डेटा प्रस्तुत कर रहे हैं, जहां कुछ भाग बहुत विस्तृत हैं और अन्य भाग बहुत मोटे हैं।

एक वास्तविक जीवन उदाहरण मैं इलाके के ऊपर नमूने ऊंचाई शामिल था। टीम ने निष्ठा को अधिकतम करने के लिए 1024 विखंडू में इलाके का नमूना लेने का फैसला किया था। हमारा ग्राहक एक सच में गुड (tm) उत्तर चाहता था।

अब मैं इस विशेष एल्गोरिथ्म के कारण रनटाइम हिट से परेशान था, और मैं समझना चाहता था कि मैं वास्तव में कितनी निष्ठा का भुगतान कर रहा था। मैंने कोई इलाक़ा डेटा नहीं देखा था, इसलिए मैंने उनसे पूछा कि उन्होंने इसे कैसे लोड किया है। जवाब था "ओह, हमारे पास इलाक़ा नहीं है। यह एकदम सपाट है।"

तो ऐसा लग रहा था कि मेरे पास एक भयानक उच्च-निष्ठा वाला मॉडल था, जिसने 1024 अंक का नमूना लिया था। मेरे पास वास्तव में एक कम-निष्ठा वाला मॉडल था जो 1 अंक 1024 बार नमूना लेने से बेहतर नहीं था, लेकिन एक पूरे टन धीमी गति से चला, और एक उच्च-निष्ठा मॉडल के रूप में सामने आया!

वास्तविक इंजीनियरिंग की दुनिया में, नेताओं को हमेशा एक मॉडल की पूरी वास्तुकला सीखने का अवसर नहीं मिलता है। वास्तव में, मैं कहूंगा कि उनके पास कभी समय नहीं है। हमारा नेतृत्व इस धारणा से निर्णय ले रहा था कि हमारे पास 1024 पॉइंट मॉडल था। कोई भी गलती पर नहीं था, यह सिर्फ तब होता है जब आप मॉडल के एक हिस्से पर बहुत अधिक निष्ठा की धुन बनाते हैं, और दूसरे पर कम निष्ठा रखते हैं। मिश्रित-निष्ठा के साथ जानवर की प्रकृति।


महत्वपूर्ण आंकड़ों को कम करने के बारे में एक दृष्टांत हमेशा ट्रेलिंग शून्य को काटने के बारे में नहीं है।
Eikre

1

वास्तव में हमारे पास डेटा है, और हमारे पास डेटा नहीं है। लगभग हमेशा, हमारे पास जितना डेटा नहीं है, उससे कहीं अधिक हम व्यावहारिक या आर्थिक कारणों से इकट्ठा होने की उम्मीद कर सकते हैं।

डेटा को अच्छी तरह से फिट करने की कोशिश करने से कुछ नमूने जो हमारे पास हैं, इसलिए हमारे मॉडल को उन क्षेत्रों में बहुत खराब अनुमान लगाने का जोखिम होगा जहां हमारे पास ईमानदारी से कोई सुराग नहीं है (डेटा की कमी के कारण)। तब हमारा मॉडल हमें सुरक्षा की झूठी भावना देगा।


1

तो इंजीनियरिंग के दृष्टिकोण से, समय (या कंप्यूटिंग शक्ति) के अलावा आपको इससे क्यों बचना चाहिए

एक मैकेनिकल इंजीनियरिंग के नजरिए से आने का सबसे बड़ा कारण यह है कि आप केवल अतिरिक्त प्रयास के लिए प्रतिबद्ध हैं यदि यह काफी अलग परिणाम देता है।

यदि आपके मॉडल में सटीकता का स्तर सटीकता के स्तर से अधिक परिमाण का आदेश है, तो आप अपने डिजाइन को निष्पादित करने में सक्षम होंगे जो आप अपने प्रयास को बर्बाद कर रहे हैं। यदि आपके मॉडल में वर्णित सटीकता का स्तर उस आवश्यकता से अधिक है जो क्लाइंट के लिए प्रभाव डालता है। आप पैसे बर्बाद कर रहे हैं। उदाहरण के लिए यदि आप वास्तव में डिजाइन की तुलना में उच्च परिशुद्धता को निर्दिष्ट कर रहे हैं (जैसे कि वेंट पाइप की लंबाई में +/-00001mm) तो आप अपने ग्राहकों के पैसे बर्बाद कर रहे हैं क्योंकि 350mm वेंट से वातावरण में 350.0005 मिमी वेंट के समान काम होता है वातावरण के लिए लेकिन बाद में उत्पादन करने के लिए काफी अधिक महंगा है।

विश्वविद्यालय में हम सभी ने न्यूटनियन भौतिकी का उपयोग करते हुए भौतिक दुनिया का मॉडल बनाना सीखा, भले ही यह अच्छी तरह से स्थापित हो कि न्यूटनियन भौतिकी भौतिक व्यवहार का अधिक सटीक मॉडल प्रस्तुत करती है। इसके बावजूद मुझे कोई मैकेनिकल इंजीनियरिंग प्रोग्राम नहीं पता है जो कि डिफ़ॉल्ट रूप से न्यूटन के मॉडलों को बहुत गलत समझे। यदि हम अधिक सटीक मॉडल का उपयोग करते हैं और एक ऐसे उत्तर के साथ आते हैं जो सैद्धांतिक सत्य के करीब 0.1% है जो अधिकांश मामलों में हमारे अंतिम डिजाइन को प्रभावित नहीं करेगा। यदि हमारी उपज तनाव 0.1% अलग है जो हमें हमारे आवश्यक क्रॉस सेक्शन में एक तुच्छ अंतर देता है जो हमें या तो विधि के आधार पर I- बीम के सटीक समान आकार को चुनने की ओर ले जाता है। इस परिस्थिति में अतिरिक्त प्रयास की लागत कोई अतिरिक्त लाभ नहीं पहुंचाती है।

अब ऐसी परिस्थितियां हैं जहां एक व्यावहारिक डिजाइन का निर्माण करने के लिए परिशुद्धता की आवश्यकता होती है, उदाहरण के लिए कुछ उपग्रहों के मॉडलिंग को सापेक्षतावादी भौतिकी की आवश्यकता होती है। इन परिस्थितियों में हमें एक मॉडल खोजने की आवश्यकता है जो आवश्यक सटीकता के स्तर को बचाता है और हमें मॉडल को डिजाइन करने की आवश्यकता है। यदि हमें आयामों की गणना करने की आवश्यकता है तो +/- 0.0001% यह पूरी तरह से व्यर्थ प्रयास है यदि हमारे भाग के आयाम +/- 0.1% हैं। वास्तविक दुनिया के अनुप्रयोगों में सटीकता के बाद की डिग्री के भाग आयाम पूर्व की तुलना में बहुत अधिक सामान्य हैं।


0

लागत: समय की लागत या कंप्यूटिंग शक्ति की लागत और सटीकता की लागत - यदि अन्य चर में उदाहरण के लिए 5% की सहिष्णुता है, तो परिणाम 1% की गणना क्यों ...


0

पिछले उत्तरों में इनपुट और लागत का उल्लेख किया गया था। यदि आप सटीकता चाहते हैं। उत्पादन मापदंडों के अनुकूलन में आपको संभवतः अधिक माप की आवश्यकता होती है और पहले आपको यह विश्लेषण करने की आवश्यकता होती है कि आप लागत को कम कैसे कर सकते हैं बनाम कितने काम के घंटे इस प्रकार बढ़े हुए माप की बढ़ती प्रवाह क्षमता या स्वचालित प्रणाली की लागत के लिए है जो मैन्युअल डेटा संग्रह को प्रतिस्थापित करेगा। दूसरा उदाहरण अगर आपको बहुत सटीक रिसाल्ट्स मिलते हैं जिसमें आपने समय और अन्य संसाधनों को प्राप्त करने के लिए निवेश किया है, तो क्या आपके पास गुणवत्ता नियंत्रण, औद्योगिक माप आदि या यहां तक ​​कि प्रौद्योगिकी के लिए पर्याप्त उपकरण हैं। यदि आपके परिणाम समय बिताने की तुलना में व्यर्थ हैं, तो वे गलत हैं।


0

क्या आपको रंग से वनों की पहचान करने के लिए सेंटीमीटर-रिज़ॉल्यूशन पर सैटेलाइट इमेज की आवश्यकता होगी? पक्का - नहीं। मैं हानिकारक होगा, क्योंकि आपको किसी भी गैर-हरे रंग के 10 वर्ग सेंटीमीटर पैच के बारे में फैसला करना होगा। मॉडलिंग के लिए भी यही है: डिटेल रिज़ॉल्यूशन आपके लक्ष्य सुविधाओं के रिज़ॉल्यूशन पर फिट होना चाहिए। यदि नहीं, तो आप समय को धीमा कर देंगे।


0

अधिकांश वास्तविक उत्तरों को आपके कृत्रिम अवरोध द्वारा बाहर रखा गया है कि कंप्यूटिंग शक्ति और गणना समय पर विचार नहीं किया जाना चाहिए। एक मॉडल जो मूल्यांकन करने में घंटों या दिनों का समय लेता है वह तेजी से डिजाइन पुनरावृत्तियों की अनुमति नहीं देता है और चीजों को मानवीय पैमाने पर धीमा कर देगा, लागत में वृद्धि और संभवतः अवर परिणामों के लिए अग्रणी होगा। बहुत अधिक सटीकता खोए बिना स्पष्ट रूप से मॉडल को सरल बनाना बहुत उपयोगी दृष्टिकोण हो सकता है, फिर अंतिम पुनरावृत्ति को मान्य करने के लिए जानवर-बल मॉडल का उपयोग किया जा सकता है।

यह संभव है कि अत्यधिक जटिल मॉडल मॉडल में मूलभूत त्रुटियों का सामना कर सकते हैं, या यह कि अधिकतम व्यावहारिक रूप से मॉडल का उपयोग करने के लिए जानकारी इकट्ठा करने के लिए आवश्यक कार्य किसी भी संभावित लाभ से आगे निकल जाएंगे। उदाहरण के लिए यदि आपको किसी सामग्री की विशेषताओं को सटीकता से अधिक से अधिक डिग्री तक जानना है तो आपूर्तिकर्ता उन्हें नियंत्रित कर सकता है, आप या तो त्रुटि बैंड को स्वीकार कर सकते हैं या मॉडल को ट्विक करने के लिए सामग्री के प्रत्येक बैच का परीक्षण कर सकते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.