"सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं" का अर्थ क्या है


76

"अनिवार्य रूप से, सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं।"

--- बॉक्स, जॉर्ज ईपी; नॉर्मन आर। ड्रेपर (1987)। अनुभवजन्य मॉडल-बिल्डिंग और प्रतिक्रिया सतहों, पी। 424, विले। आईएसबीएन 0471810339।

उपरोक्त वाक्यांश का सही अर्थ क्या है?


13
उसी किताब पर पहले उल्लेख किया गया था: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.शायद यह अधिक उपयोगी है।
us --r11852

जवाबों:


101

मुझे लगता है कि इसका अर्थ दो भागों में देखने से सर्वोत्तम विश्लेषण किया गया है:

"सभी मॉडल गलत हैं" अर्थात, हर मॉडल गलत है क्योंकि यह वास्तविकता का सरलीकरण है। कुछ मॉडल, विशेष रूप से "कठिन" विज्ञान में, केवल कुछ गलत हैं। वे घर्षण या छोटे शरीर के गुरुत्वाकर्षण प्रभाव जैसी चीजों को अनदेखा करते हैं। अन्य मॉडल बहुत गलत हैं - वे बड़ी चीजों को नजरअंदाज करते हैं। सामाजिक विज्ञान में, हम बहुत कुछ अनदेखा करते हैं।

"लेकिन कुछ उपयोगी हैं" - वास्तविकता का सरलीकरण काफी उपयोगी हो सकता है। वे हमें ब्रह्मांड और इसके विभिन्न घटकों को समझाने, भविष्यवाणी करने और समझने में मदद कर सकते हैं।

यह सिर्फ आंकड़ों में सच नहीं है! मानचित्र एक प्रकार का मॉडल है; वे गलत हैं। लेकिन अच्छे नक्शे बहुत उपयोगी होते हैं। अन्य उपयोगी लेकिन गलत मॉडल के उदाहरण लाजिमी हैं।


20
+1 कारण मुझे मानचित्रों की उपमा पसंद है। मैं इसे भविष्य में उपयोग करूँगा!
us --r11852

4
"हार्ड" विज्ञान में कई मॉडल बहुत दूर हैं, कल (कल मैं एक संगोष्ठी में भाग लिया था जहां माप जहां मॉडल त्रुटि के भीतर था, लेकिन त्रुटि पट्टी परिमाण के दो आदेश थे)।
गेरिट

7
+1। मुझे लगता है कि आपका मुख्य वाक्य "हर मॉडल गलत है क्योंकि यह वास्तविकता का सरलीकरण है"। लोग अक्सर इसे भूल जाते हैं - उदाहरण के लिए अर्थशास्त्र की भोली आलोचनाओं में (मेरी अपनी आलोचनाएं हैं, लेकिन उन्हें सिर्फ इतना अधिक परिष्कृत होने की आवश्यकता है कि "वास्तविकता आपके मॉडल से अधिक जटिल है")। अगर हमने इसे सरल नहीं किया, तो आपके पास कच्ची वास्तविकता है, जिसे समझना हमारे लिए बहुत जटिल है। इसलिए हमें किसी भी जानकारी को प्राप्त करने के लिए इसे सरल बनाना होगा।
पीटर एलिस

13
1: 1 के पैमाने पर एक आदर्श मानचित्र की फंतासी का उपयोग कई लेखकों द्वारा किया गया है, जिसमें लुईस कैरोल, जॉर्ज लुइस बोरगेस और यूबर्टो इको शामिल हैं। यह वास्तव में कोई उपयोग नहीं होगा क्योंकि यह जरूरी होगा कि यह जिस क्षेत्र में मैप करता है वह केवल जटिल होगा और समझने में आसान नहीं होगा (इसे सामने लाने की अजीबता का उल्लेख नहीं है और इसे पढ़ने के लिए बाहर रखना है)।
निक कॉक्स

2
शायद आप यह भी जोड़ सकते हैं कि एक मॉडल को थोड़ा गलत होना चाहिए , क्योंकि अन्यथा यह सामान्य नहीं होगा और इस तरह कहीं और लागू नहीं होगा। नीचे कुछ उत्तर दिए गए हैं। लेकिन उन सभी को पढ़ने के लिए अब बहुत सारे उत्तर हैं।
जिग्गीस्टार

9

इसका मतलब है कि उपयोगी अंतर्दृष्टि उन मॉडलों से प्रदान की जा सकती हैं जो उन घटनाओं का सही प्रतिनिधित्व नहीं करते हैं जो वे मॉडल करते हैं।

एक सांख्यिकीय मॉडल गणितीय अवधारणाओं का उपयोग करते हुए एक प्रणाली का वर्णन है। जैसे कि कई मामलों में आप अपनी हीन प्रक्रिया (जैसे माप त्रुटियों की सामान्यता, सहसंबंध संरचनाओं में यौगिक समरूपता) की सुविधा के लिए अमूर्तता की एक निश्चित परत जोड़ते हैं। यह है लगभग असंभव एक मॉडल का वर्णन करने के लिए पूरी तरह से एक असली दुनिया घटना को देखते हुए खुद को दुनिया के एक व्यक्तिपरक दृश्य है (हमारे संवेदी प्रणाली सही नहीं है); फिर भी सफल सांख्यिकीय निष्कर्ष होता है क्योंकि हमारी दुनिया में हमारे द्वारा शोषण की एक निश्चित डिग्री है। तो हमारे लगभग हमेशा गलत मॉडल उपयोगी साबित होते हैं

(मुझे यकीन है कि आपको जल्द ही एक बड़ा साहसिक जवाब मिलेगा लेकिन मैंने इस पर संक्षिप्त होने की कोशिश की!)


क्या हम कह सकते हैं कि ये उपयोगी मॉडल अनुमानित समाधान प्रदान करते हैं?
gpuguy

2
@gpuguy: निश्चित रूप से आप कर सकते हैं। जॉन टके को उद्धृत करने के लिए: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(मैं वास्तव में जेटी की बात आश्चर्यजनक रूप से
आनंददायक हूं

6
"गलत प्रश्न के सटीक उत्तर की तुलना में, जो अक्सर अस्पष्ट होता है, सही प्रश्न का लगभग बेहतर उत्तर होता है, जिसे हमेशा सटीक बनाया जा सकता है।" जॉन डब्ल्यू। ट्युकी 1962 डेटा विश्लेषण का भविष्य। गणितीय सांख्यिकी 33: 1-67 (pp.13-14 देखें) इसमें कोई संदेह नहीं है कि उन्होंने अन्य समयों पर भी ऐसी ही बातें कही हैं, लेकिन यह सामान्य स्रोत है।
निक कॉक्स

मैंने सीवी को संबंधित सीवी के उद्धरण धागे से सीधे उद्धृत किया।
us --r11852

6
मैंने मूल प्रकाशन से खान की नकल की।
निक कॉक्स

6

मुझे यह 2009 के जेएसए थैड टार्पी द्वारा बॉक्स पास पर एक उपयोगी स्पष्टीकरण और टिप्पणी प्रदान करने के लिए बात करने के लिए मिला। उनका तर्क है कि यदि हम मॉडल को सत्य के सन्निकटन के रूप में मानते हैं, तो हम सभी मॉडलों को आसानी से सही कह सकते हैं।

यहाँ सार है:

सांख्यिकी के छात्रों को अक्सर जॉर्ज बॉक्स के प्रसिद्ध उद्धरण से परिचित कराया जाता है: "सभी मॉडल गलत हैं, कुछ उपयोगी हैं।" इस चर्चा में मेरा तर्क है कि यह उद्धरण, हालांकि उपयोगी है, गलत है। एक अलग और अधिक सकारात्मक दृष्टिकोण यह स्वीकार करना है कि एक मॉडल केवल डेटा से ब्याज की जानकारी निकालने का एक साधन है। सत्य असीम रूप से जटिल है और एक मॉडल सत्य का एक अनुमान मात्र है। यदि अनुमान खराब या भ्रामक है, तो मॉडल बेकार है। इस वार्ता में मैं सही मॉडल का उदाहरण देता हूं जो कि सच्चे मॉडल नहीं हैं। मैं बताता हूं कि "गलत" मॉडल की धारणा गलत निष्कर्ष कैसे ला सकती है।


3

मेरे लिए वास्तविक जानकारी निम्नलिखित पहलू में निहित है:

एक मॉडल को उपयोगी होने के लिए सही होना जरूरी नहीं है।

दुर्भाग्य से कई विज्ञानों में यह अक्सर भूल जाता है कि नई खोजों और भविष्यवाणियों की अनुमति देने के लिए मॉडल को वास्तविकता का सटीक प्रतिनिधित्व करने की आवश्यकता नहीं है!

तो एक जटिल मॉडल का निर्माण करने में अपना समय बर्बाद न करें जो चर के असंख्य की सटीक माप की आवश्यकता है। सच्चा प्रतिभाशाली एक सरल मॉडल का आविष्कार करता है जो काम करता है।


3

यदि परिणामों में कोई यादृच्छिकता है तो एक मॉडल 100% सटीक भविष्यवाणियां प्रदान नहीं कर सकता है। यदि कोई अनिश्चितता, कोई यादृच्छिकता और कोई त्रुटि नहीं थी, तो यह एक मॉडल के बजाय एक तथ्य माना जाएगा। पहला बहुत महत्वपूर्ण है, क्योंकि मॉडल अक्सर उन घटनाओं की मॉडलिंग की उम्मीदों के लिए उपयोग किया जाता है जो नहीं हुई हैं। यह लगभग गारंटी देता है कि वास्तविक घटनाओं के बारे में कुछ अनिश्चितता है।

सही जानकारी को देखते हुए, सिद्धांत रूप में यह एक मॉडल बनाना संभव हो सकता है जो इस तरह की सटीक ज्ञात घटनाओं के लिए एकदम सही पूर्वानुमान देता है। हालाँकि, इन असंभावित परिस्थितियों को देखते हुए, इस तरह का मॉडल इतना जटिल हो सकता है कि उपयोग करने के लिए कम्प्यूटेशनल रूप से संभव हो, और केवल एक विशेष क्षण में सटीक हो सकता है क्योंकि अन्य कारक बदलते हैं कि घटनाओं के साथ मान कैसे बदलते हैं।

चूंकि अधिकांश वास्तविक दुनिया के आंकड़ों में अनिश्चितता और यादृच्छिकता मौजूद है, इसलिए एक आदर्श मॉडल प्राप्त करने का प्रयास एक निरर्थक अभ्यास है। इसके बजाय, यह पर्याप्त रूप से सटीक मॉडल प्राप्त करने के लिए देखने के लिए अधिक मूल्यवान है जो डेटा और इसके उपयोग के लिए आवश्यक गणना दोनों के संदर्भ में प्रयोग करने योग्य होने के लिए पर्याप्त सरल है। हालांकि इन मॉडलों को अपूर्ण माना जाता है, लेकिन इनमें से कुछ दोषों को अच्छी तरह से जाना जाता है और मॉडल के आधार पर निर्णय लेने के लिए विचार किया जा सकता है।

सरल मॉडल अपूर्ण हो सकते हैं, लेकिन वे एक दूसरे की तुलना करने के लिए कारण के लिए भी आसान होते हैं, और साथ काम करना आसान हो सकता है क्योंकि वे कम कम्प्यूटेशनल रूप से मांग करने की संभावना रखते हैं।


3

यदि मैं कर सकता हूं, तो केवल एक से अधिक टिप्पणी उपयोगी हो सकती है। मेरे द्वारा पसंद किए जाने वाले prase का संस्करण है

(...) सभी मॉडल सन्निकटन हैं। अनिवार्य रूप से, सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं (...)

बॉक्स और ड्रेपर (2007, पृष्ठ 414, विली) द्वारा रिस्पॉन्स सर्फेस, मिक्सचर और रिज एनालिसिस से लिया गया । विस्तारित उद्धरण को देखते हुए यह अधिक स्पष्ट है कि बॉक्स का क्या मतलब था - सांख्यिकीय मॉडलिंग वास्तविकता के बारे में अनुमान लगा रहा है और अनुमान कभी भी सटीक नहीं होता है, इसलिए यह सबसे उपयुक्त सन्निकटन खोजने के बारे में है । आपके उद्देश्य के लिए जो उपयुक्त है वह एक व्यक्तिपरक चीज है, यही कारण है कि यह उन मॉडलों में से एक नहीं है जो उपयोगी हैं, लेकिन संभवतः उनमें से कुछ मॉडलिंग के उद्देश्य पर निर्भर हैं।


3

क्योंकि किसी ने इसे नहीं जोड़ा है, जॉर्ज बॉक्स ने एक पुस्तक में निम्नलिखित खंड को पेश करने के लिए उद्धृत चरण का उपयोग किया है। मेरा मानना ​​है कि वह समझाने का सबसे अच्छा काम करता है कि उसका क्या मतलब है:

PV=RTPVTR

ऐसे मॉडल के लिए सवाल पूछने की कोई आवश्यकता नहीं है "क्या मॉडल सच है?"। यदि "सत्य" को "संपूर्ण सत्य" होना है, तो इसका उत्तर "नहीं" होना चाहिए। रुचि का एकमात्र प्रश्न "क्या मॉडल रोशन और उपयोगी है?"।

बॉक्स, जीईपी (1979), "साइंटिफिक मॉडल बिल्डिंग की रणनीति में लूट", लॉरर, आरएल में; विल्किंसन, जीएन, सांख्यिकी में लूट, अकादमिक प्रेस, पीपी। 201-236


2

आप इस तरह से सोच सकते हैं। किसी वस्तु की अधिकतम जटिलता (यानी, एन्ट्रापी) बेकनस्टीन बाउंड के कुछ रूप का पालन करती है :

I2πREcln2

ER

ज्यादातर मामलों में यह एक बड़ी संख्या है:

2.58991·1042 107.79640 · 10 41Ω=2I107.79640·1041

तो क्या आप "सर्वश्रेष्ठ मानचित्र" का उपयोग करना चाहते हैं, अर्थात हर क्षेत्र में सभी कणों के लिए तरंग समीकरणों के साथ? बिलकुल नहीं। न केवल यह एक कम्प्यूटेशनल आपदा होगी, लेकिन आप उन चीजों को मॉडलिंग करेंगे, जिनके बारे में आपको परवाह नहीं है। यदि आप सब करना चाहते हैं, तो कहें, पहचानें कि मैं जाग रहा हूं या नहीं, आपको यह जानने की आवश्यकता नहीं है कि इलेक्ट्रॉन # 32458 न्यूरॉन # 844030 राइबोसोम # 2305 अणु # 2 में क्या कर रहा है। यदि आप ऐसा नहीं करते हैं, तो आपका मॉडल वास्तव में "गलत" है, लेकिन यदि आप यह पहचान सकते हैं कि मैं जाग रहा हूं या नहीं, तो आपका मॉडल निश्चित रूप से उपयोगी है।


2

मुझे लगता है कि पीटर और user11852 ने शानदार जवाब दिए। मैं यह भी कहना चाहूंगा कि यदि कोई मॉडल वास्तव में अच्छा था, तो वह ओवरफिटिंग के कारण बेकार हो जाएगा (इसलिए, सामान्य नहीं)।


2
ओवरफिटिंग के बिंदु के लिए +1। Naive Bayes और रैखिक विवेचक विश्लेषण जैसे एल्गोरिदम अक्सर बहुत अच्छी तरह से काम करते हैं, भले ही आपको पता हो कि अंतर्निहित मॉडल गलत है (जैसे स्पैम फ़िल्टरिंग), बस इसलिए कि मापदंडों का अनुमान लगाने के लिए कम डेटा की आवश्यकता होती है।
डिक्रान मार्सुपियल

1

मेरी एसिड व्याख्या है: यह मानना ​​कि एक गणितीय मॉडल बिल्कुल सभी कारकों का वर्णन करता है, और उनकी बातचीत, ब्याज की एक घटना को नियंत्रित करना बहुत सरल और अभिमानी होगा। हम यह भी नहीं जानते कि हमारे द्वारा उपयोग किए जाने वाले तर्क हमारे ब्रह्मांड को समझने के लिए पर्याप्त हैं। हालांकि, कुछ गणितीय मॉडल एक अच्छे पर्याप्त सन्निकटन (वैज्ञानिक पद्धति के संदर्भ में) का प्रतिनिधित्व करते हैं जो ऐसी घटना के बारे में निष्कर्ष निकालने के लिए उपयोगी होते हैं।


1

एक खगोल विज्ञानी (शायद एक दुर्लभ नस्ल) के रूप में, मुझे बॉक्स के तानाशाह की प्रसिद्धि दुर्भाग्यपूर्ण लगती है। भौतिक विज्ञानों में, हम अक्सर एक मनाया घटना के अंतर्निहित प्रक्रियाओं को समझने के लिए एक मजबूत सहमति है, और इन प्रक्रियाओं को अक्सर गुरुत्वाकर्षण मॉडल, क्वांटम यांत्रिकी, ऊष्मप्रवैगिकी, आदि के कानूनों से उत्पन्न होने वाले मॉडल द्वारा व्यक्त किया जा सकता है। सबसे अच्छा फिट मॉडल मापदंडों भौतिक गुणों, साथ ही मॉडल चयन और सत्यापन। एक नाटकीय हालिया मामला यूरोपीय अंतरिक्ष एजेंसी के प्लैंक उपग्रह से मार्च 2013 में जारी किया गया थाब्रह्मांडीय माइक्रोवेव पृष्ठभूमि की माप जो कि बिग बैंग के लिए एक सरल 6-पैरामीटर `लैम्बडासीडीएम 'मॉडल स्थापित करती है। मुझे संदेह है कि इन 29 पत्रों में उपयोग किए गए उन्नत सांख्यिकीय तरीकों की विस्तृत श्रृंखला के भीतर बॉक्स का डिक्टम कहीं भी लागू होगा।


1

मैंने प्रक्रिया मॉडल को फ़ोकस पॉइंट मानकर उपरोक्त उत्तर को फिर से लिखा है। कथन की व्याख्या इस प्रकार की जा सकती है:

"सभी मॉडल गलत हैं" अर्थात, हर मॉडल गलत है क्योंकि यह वास्तविकता का सरलीकरण है। कुछ मॉडल थोड़े ही गलत हैं। वे कुछ चीजों को नजरअंदाज करते हैं, उदाहरण के लिए: -> बदलती आवश्यकताएं, -> समय सीमा के भीतर परियोजना के पूरा होने की अनदेखी करना, -> ग्राहक की गुणवत्ता के वांछित स्तर आदि पर विचार नहीं करना ... अन्य मॉडल बहुत गलत हैं - वे उपेक्षा करते हैं बड़ी बातें। क्लासिकल सॉफ्टवेयर प्रोसेस मॉडल फुर्तीले प्रोसेस मॉडल की तुलना में बहुत कम अनदेखा करते हैं जो कम नजरअंदाज करते हैं।

"लेकिन कुछ उपयोगी हैं" - वास्तविकता का सरलीकरण काफी उपयोगी हो सकता है। वे हमें समग्र परियोजना और इसके विभिन्न घटकों को समझाने, भविष्यवाणी करने और समझने में मदद कर सकते हैं। मॉडल का उपयोग किया जाता है क्योंकि उनकी विशेषताएं अधिकांश सॉफ्टवेयर विकास कार्यक्रमों के अनुरूप हैं।


0

मैं "उपयोगी" शब्द की एक और व्याख्या देना चाहूंगा। शायद एक बॉक्स के बारे में नहीं सोचा था।

जब आपको निर्णय लेना होता है, और यही वह सभी जानकारी होती है जिसका उपयोग आखिरकार किया जाएगा, तब आपको किसी न किसी रूप में अपनी सफलता को मापना होगा। जब अनिश्चित जानकारी वाले फैसलों के बारे में बात की जाती है, तो इस उपाय को अक्सर उपयोगिता कहा जाता है।

इसलिए हम उपयोगी मॉडलों के बारे में भी सोच सकते हैं , जो हमें अधिक सूचित निर्णय लेने में सक्षम बनाते हैं; हमारे लक्ष्यों को अधिक प्रभावी ढंग से प्राप्त करने के लिए।

यह सामान्य मानदंडों के शीर्ष पर एक और आयाम जोड़ता है, जैसे किसी मॉडल की किसी चीज़ की सही भविष्यवाणी करने की क्षमता: यह हमें उन विभिन्न पहलुओं को तौलने की अनुमति देता है जो एक मॉडल एक दूसरे के खिलाफ होता है।


-2

"सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं"। शायद इसका मतलब है: हम जो कुछ भी जानते हैं उसके साथ सबसे अच्छा कर रहे हैं जो हमें पता है + नई शिक्षा के लिए खोज करना चाहिए?


4
(-1) क्या आप कोई संदर्भ प्रदान कर सकते हैं जो यह सुझाव दे कि GEP बॉक्स का अर्थ है? जैसा कि आप अन्य उत्तरों से पा सकते हैं, उसका मतलब कुछ अलग था।
टिम

ओपी शायद उद्धरण ले रहा है और इसे एक नई व्याख्या दे रहा है। मैं टिम से सहमत हूं कि बॉक्स कमोबेश यह कह रहा था कि मॉडल को वास्तविकता की सटीक व्याख्या के रूप में न लें, लेकिन पहचानें कि कुछ मॉडल डेटा का अच्छी तरह से वर्णन कर सकते हैं।
माइकल चेर्निक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.