क्या पारसमणि वास्तव में अभी भी सोने का मानक होना चाहिए?


31

सिर्फ एक विचार:

पर्सिमोनियस मॉडल हमेशा डिफॉल्ट गो-टू मॉडल चयन में रहा है, लेकिन यह दृष्टिकोण किस हद तक पुराना है? मुझे इस बात की उत्सुकता है कि पारसीमोनी के प्रति हमारी प्रवृत्ति अबकी और स्लाइड नियमों (या अधिक गंभीरता से, गैर-आधुनिक कंप्यूटर) के समय का अवशेष है। आज की कंप्यूटिंग शक्ति हमें भविष्यवाणी के लिए कभी-अधिक क्षमता के साथ तेजी से जटिल मॉडल बनाने में सक्षम बनाती है। कंप्यूटिंग शक्ति में इस बढ़ती हुई छत के परिणामस्वरूप, क्या वास्तव में हमें अभी भी सादगी की ओर बढ़ने की आवश्यकता है?

निश्चित रूप से, सरल मॉडल समझने और व्याख्या करने में आसान होते हैं, लेकिन बढ़ती संख्याओं के साथ कभी-कभी बढ़ते डेटा सेटों की संख्या और भविष्यवाणी क्षमता पर अधिक ध्यान देने की ओर एक बदलाव, यह अब भी संभव या आवश्यक नहीं हो सकता है।

विचार?


4
रिचर्ड हैमिंग से माफी के साथ: मॉडलिंग का उद्देश्य अंतर्दृष्टि है, संख्या नहीं। जटिल मॉडल अंतर्दृष्टि को बाधित करते हैं।
एरिक टावर्स

12
ओवरसाइप्लाइज़ किए गए मॉडल अंतर्दृष्टि को और भी अधिक बढ़ाते हैं।
फ्रैंक हरेल

6
यह आवेदन पर निर्भर हो सकता है; भौतिकी में, मुझे लगता है कि पार्सिमनी के तर्क का एक मजबूत आधार होगा। हालांकि, कई अनुप्रयोगों में छोटे प्रभावों का एक मेजबान होगा जिसे समाप्त नहीं किया जा सकता है (उदाहरण के लिए, राजनीतिक प्राथमिकताओं के लिए मॉडल पर विचार करें)। कई कार्यकर्ता सुझाव देते हैं कि नियमितीकरण का उपयोग (जैसे कि तरीकों से सिकुड़न पैदा होती है या कई अनुप्रयोगों में अंतर का संकोचन होता है, या दोनों) चर को खत्म करने के बजाय अधिक समझ में आता है; दूसरों को कुछ चयन और कुछ संकोचन की ओर झुकाव (उदाहरण के लिए LASSO, दोनों करता है)।
Glen_b -Reinstate मोनिका

3
मॉडल चयन में पर्सिमोनियस मॉडल "गो-टू" नहीं हैं। अन्यथा हम हमेशा हर चीज का नमूना लेते हैं और उसे एक दिन कहते हैं।
छायाकार

1
इसके अलावा, कुछ विचार के लिए भोजन: मिज और वायनेर (2008) AdaBoost में समृद्ध शिक्षार्थियों की सलाह देते हैं , जो थोड़ा अनजाना है। अनुसंधान की उस पंक्ति में एक खुला प्रश्न यह प्रतीत होता है कि क्या पारसी-संबंधी आधार सीखने वाले वास्तव में पारसी-संबंधी दासता को जन्म देते हैं।
छायाकार

जवाबों:


25

@ मैट का मूल उत्तर पार्सिमनी के लाभों में से एक का वर्णन करने का एक बड़ा काम करता है, लेकिन मुझे नहीं लगता कि यह वास्तव में आपके प्रश्न का उत्तर देता है। वास्तव में, पारसमणि सोने का मानक नहीं है। अभी नहीं तो कभी नहीं। पार्सिमनी से संबंधित एक "गोल्ड स्टैंडर्ड" सामान्यीकरण त्रुटि है। हम ऐसे मॉडल विकसित करना चाहेंगे जो ओवरफिट नहीं करते हैं। वे नमूने के रूप में भविष्यवाणी (या व्याख्यात्मक या न्यूनतम त्रुटि के साथ) के रूप में उपयोगी हैं। यह पता चला है (ऊपर बताई गई बातों के कारण) कि पारसमणि वास्तव में सामान्यीकरण त्रुटि के लिए एक अच्छा प्रॉक्सी है, लेकिन यह केवल किसी भी तरह से नहीं है।

वास्तव में, इस बारे में सोचें कि हम क्रॉस सत्यापन या बूटस्ट्रैपिंग या ट्रेन / टेस्ट सेट का उपयोग क्यों करते हैं। लक्ष्य अच्छा सामान्यीकरण सटीकता के साथ मॉडल बनाना है। बहुत बार, नमूना प्रदर्शन से अनुमान लगाने के ये तरीके कम जटिलता के साथ मॉडल चुनने का काम करते हैं, लेकिन हमेशा नहीं। एक चरम उदाहरण के रूप में, अलंकृत हमें सच्चे लेकिन अत्यंत जटिल मॉडल और एक गरीब लेकिन पारस मॉडल की कल्पना करता है। अगर पारसीमोनी वास्तव में हमारा लक्ष्य था तो हम दूसरे का चयन करेंगे लेकिन वास्तव में, पहला वह है जो हम सीखना चाहते हैं यदि हम कर सकते हैं। दुर्भाग्य से बहुत समय है कि अंतिम वाक्य किकर है, "अगर हम कर सकते थे"।


"मूल उत्तर" कौन सा है?
Mattdm

:) काफी उचित। मैट की टिप्पणी।
निक थिएमे

22

पर्सिमोनियस मॉडल न केवल कंप्यूटिंग आवश्यकताओं के कारण, बल्कि सामान्यीकरण प्रदर्शन के लिए भी वांछनीय हैं। यह अनंत डेटा के आदर्श को प्राप्त करना असंभव है जो पूरी तरह से और सही तरीके से नमूना स्थान को कवर करता है, जिसका अर्थ है कि गैर-पारिश्रमिक मॉडल में नमूना आबादी में शोर और आदर्शवाद को ओवरफिट और मॉडल करने की क्षमता है।

लाखों वेरिएबल्स वाला मॉडल बनाना निश्चित रूप से संभव है, लेकिन आप उन वेरिएबल्स का उपयोग करेंगे, जिनका सिस्टम पर मॉडल बनाने के लिए आउटपुट पर कोई प्रभाव नहीं पड़ता है। आप अपने प्रशिक्षण डेटासेट पर शानदार भविष्यवाणियां प्राप्त कर सकते हैं, लेकिन उन अप्रासंगिक चरों की संभावना अनदेखी परीक्षण सेट पर आपके प्रदर्शन को कम करने से अधिक होगी।

यदि एक आउटपुट चर वास्तव में एक मिलियन इनपुट चर का परिणाम है, तो आप उन सभी को अपने पूर्वानुमानित मॉडल में डालने के लिए अच्छी तरह से करेंगे, लेकिन केवल तभी जब आपके पास पर्याप्त डेटा हो । इस आकार का एक मॉडल बनाने के लिए, आपको न्यूनतम कई मिलियन डेटा बिंदुओं की आवश्यकता होगी। पर्सिमोनियस मॉडल अच्छे हैं क्योंकि कई वास्तविक-दुनिया प्रणालियों में, इस आकार का डेटासेट बस उपलब्ध नहीं है, और इसके अलावा, उत्पादन काफी हद तक अपेक्षाकृत कम संख्या में चर द्वारा निर्धारित किया जाता है।



3
दूसरी ओर, जब आपके पास लाखों चर और कुछ वस्तुएं होती हैं, तो संभव है कि विशुद्ध रूप से संयोग से कुछ चर बेहतर परिणाम की व्याख्या करने में बेहतर हों, जो कि वास्तविक अंतःक्रिया है। ऐसे मामले में पारसी-आधारित मॉडलिंग एक क्रूर-बल दृष्टिकोण की तुलना में अधिक संवेदनशील होने के लिए अतिसंवेदनशील होगा।

उदाहरण के लिए @CagdasOzgenc एक बड़े यादृच्छिक उप-समूह पहनावा है।

मुझे ऐसा लग रहा है कि जैसे लास्सो दृष्टिकोण यहां लागू हो सकता है।
theforestecologist

17

मुझे लगता है कि पिछले उत्तर महत्वपूर्ण बिंदु बनाने का अच्छा काम करते हैं:

  • पर्सिमोनियस मॉडल में बेहतर सामान्यीकरण विशेषताएँ होती हैं।
  • पारसीमोनी वास्तव में एक स्वर्ण मानक नहीं है, लेकिन सिर्फ एक विचार है।

मैं कुछ टिप्पणियां जोड़ना चाहता हूं जो मेरे दिन के नौकरी के अनुभव से निकलती हैं।

भविष्यवाणी की सटीकता के तर्क का सामान्यीकरण, निश्चित रूप से, मजबूत है, लेकिन इसके फोकस में अकादमिक पूर्वाग्रह है। सामान्य तौर पर, एक सांख्यिकीय मॉडल का निर्माण करते समय, अर्थव्यवस्थाएं ऐसी नहीं होती हैं कि भविष्य कहनेवाला प्रदर्शन पूरी तरह से प्रमुख विचार है। किसी दिए गए एप्लिकेशन के लिए उपयोगी मॉडल जैसा दिखता है, उस पर अक्सर बहुत बड़ी बाधाएं होती हैं:

  • मौजूदा ढांचे या प्रणाली के भीतर मॉडल को लागू करने योग्य होना चाहिए ।
  • मॉडल को गैर-तकनीकी इकाई द्वारा समझा जाना चाहिए ।
  • मॉडल को कम्प्यूटेशनल रूप से कुशल होना चाहिए ।
  • मॉडल को दस्तावेजी होना चाहिए ।
  • मॉडल को नियामक बाधाओं को पारित करना होगा ।

वास्तविक अनुप्रयोग डोमेन में, कई यदि ये सभी विचार पहले नहीं आते हैं , बाद में नहीं , भविष्य कहनेवाला प्रदर्शन - और मॉडल रूप और मापदंडों का अनुकूलन इन इच्छाओं से विवश है। इनमें से प्रत्येक बाधा वैज्ञानिक को पारसमणि की ओर अग्रसर करती है।

यह सच हो सकता है कि कई डोमेन में इन बाधाओं को धीरे-धीरे उठाया जा रहा है। लेकिन यह वास्तव में भाग्यशाली वैज्ञानिक है कि उन्हें अनदेखा करना सामान्य रूप से सामान्यीकरण त्रुटि को कम करने पर केंद्रित है।

यह पहली बार वैज्ञानिक के लिए बहुत निराशाजनक हो सकता है, स्कूल से बाहर ताजा (यह निश्चित रूप से मेरे लिए था, और तब भी जारी है जब मुझे लगता है कि मेरे काम पर लगाए गए अवरोध उचित नहीं हैं)। लेकिन अंत में, एक अस्वीकार्य उत्पाद का उत्पादन करने के लिए कड़ी मेहनत करना एक बेकार है, और यह आपके वैज्ञानिक गौरव के लिए स्टिंग से भी बदतर लगता है।


2
कोई भी पारसमणि विचार नहीं है। यदि वे डेटा को समान रूप से अच्छी तरह से समझाते हैं तो एक ध्वनि इंजेक्शन प्रक्रिया एक गैर-पारिश्रमिक मॉडल पर पार्सिमोनियस मॉडल को रैंक करती है। अन्यथा मॉडल की कुल संपीड़ित कोडेलोमीटर और मॉडल द्वारा एन्कोड किया गया डेटा सबसे छोटा नहीं होगा। तो हाँ यह एक सोने का मानक है।
Cagdas Ozgenc

3
पारसीमोनी "गोल्ड स्टैंडर्ड" नहीं है! वह कथन पूर्वसर्ग है। यदि यह सच था, तो हम हमेशा ऐसे मॉडल का निर्माण क्यों नहीं करते जो बिना किसी मतलब के और कुछ नहीं फिट करते? हम पूर्वाग्रह और विचरण को या तो एक परीक्षण सेट के संदर्भ में या बेहतर, अभी भी, पूरी तरह से नई टिप्पणियों के साथ व्यापार करते हैं, और हम अपने क्षेत्र, संगठन और कानून की बाधाओं के भीतर ऐसा करते हैं। कभी-कभी आपके पास केवल भोली भविष्यवाणियां करने के लिए पर्याप्त जानकारी होती है। कभी-कभी आप जटिलता जोड़ने के लिए पर्याप्त हो गए हैं।
ब्राश इक्विलिब्रियम

1
@BrashEquilibrium मुझे लगता है कि कैगदास जो कह रहा है, वह यह है कि समान रूप से भविष्य कहनेवाला मॉडल के बीच विकल्प को देखते हुए, व्यक्ति को सबसे अधिक पारंगत होना चाहिए।
मैथ्यू ड्र्यू

1
आह। वो अलग बात है। हां, उस मामले में सबसे पारदर्शक मॉडल चुनें। मैं अभी भी यह नहीं सोचता कि पार्सिमनी के लिए "गोल्ड स्टैंडर्ड" होना चाहिए।
ब्राश इक्विलिब्रियम

1
@ मट्टूड्राय ब्राश, कैगदास। दिलचस्प। शायद, पारसमणि सोने के मानक का सिर्फ एक घटक है; जो कि (या होना चाहिए) बेहतर है, जिसमें शामिल होने की धारणा के आसपास बेहतर है । येल: oyc.yale.edu/astronomy/astr-160/lecture-11 से निम्नलिखित खगोल भौतिकी व्याख्यान में इस विचार का एक अच्छा प्रदर्शन प्रदान किया गया है । 7:04 के बाद। यह विचार डेविड हेन्ड्री और ग्रेहम मिज़ोन द्वारा अर्थमितीय / पूर्वानुमान साहित्य में भी दिखाया गया है। उनका तर्क है कि घेरना एक प्रगतिशील शोध रणनीति का हिस्सा है, जिसमें से पारसीमोनी एक पहलू है।
ग्रीम वाल्श

14

मुझे लगता है कि यह एक बहुत अच्छा सवाल है। मेरी राय में पारसीमोनी ओवररेटेड है। प्रकृति शायद ही कभी प्रशंसनीय है, और इसलिए हमें सटीक भविष्यवाणी या वर्णनात्मक मॉडल की अपेक्षा नहीं करनी चाहिए। व्याख्यात्मकता के सवाल के बारे में, यदि आप एक सरल मॉडल चुनते हैं जो केवल मामूली रूप से केवल वास्तविकता के अनुरूप होता है क्योंकि आप इसे समझ सकते हैं, तो आप वास्तव में क्या समझ रहे हैं? एक अधिक जटिल मॉडल को बेहतर भविष्य कहनेवाला शक्ति मानते हुए, यह वैसे भी वास्तविक तथ्यों के करीब प्रतीत होगा।


8
वैसे @dsaxton ने कहा। पार्सिमनी की एक बड़ी गलतफहमी है और एक शानदार अंडर-प्रशंसा है कि कैसे वाष्पशील सुविधा का चयन होता है। प्री-स्पेसिफिकेशन के परिणाम आने पर पार्सिमनी अच्छी है। अधिकांश सूचना जो डेटा ड्रेजिंग से उत्पन्न होती है, वह भ्रामक है और इसे केवल इसलिए समझा जाता है क्योंकि यह गलत है।
फ्रैंक हरेल

2
@FrankHarrell क्या आप "केवल समझा क्योंकि यह गलत है", या शायद आपके द्वारा इस बारे में पहले लिखी गई किसी चीज़ से लिंक होगा? यह एक दिलचस्प बात है कि मैं यह सुनिश्चित करना चाहूंगा कि मुझे समझ में आए।
गुई 11aume

8
यह एक चरम उदाहरण है, लेकिन जो लोग नस्लीय प्रोफाइलिंग में संलग्न हैं, उन्हें लगता है कि वे एक ही विशेषता (जैसे, त्वचा का रंग) के साथ समझते हैं, उनका क्या मूल्य है। उनके लिए जवाब आसान है। वे केवल इसे समझते हैं क्योंकि वे ओवरसाइम्पलाइज़ करके गलत निर्णय ले रहे हैं। पारसीमोनी आमतौर पर एक भ्रम है (न्यूटनियन यांत्रिकी और कुछ अन्य क्षेत्रों को छोड़कर)।
फ्रैंक हारेल

1
"प्रकृति शायद ही कभी पारमार्थिक है": और एक बिंदु जहां प्रकृति विशेष रूप से गैर-पारिश्रमिक व्यक्ति है (हमारे विशिष्ट नमूना आकारों के विपरीत!)। इवोल्यूशन प्रत्येक पीढ़ी में नए व्यक्तियों की एक पूरी नई आबादी का उपयोग करता है ... आईएमएचओ पार्सिमनी (फ्रैंक हैरेल के पूर्व-निर्दिष्ट प्रकार - मॉडल में उपलब्ध एम के किसी भी एन को अनुमति देना वास्तव में एक बहुत ही जटिल मॉडल है - भले ही एन << एम, यह मूल खोज स्थान का एक गैर-छोटा-छोटा अंश है) हम अपने दूर के बहुत छोटे डेटा सेट से कम से कम कुछ पाने की कोशिश करते हैं।
केवली मोनिका का

2

पारसीमोनी एक सुनहरी शुरुआत नहीं है। यह मॉडलिंग में एक पहलू है। मॉडलिंग और विशेष रूप से पूर्वानुमान को स्क्रिप्ट नहीं किया जा सकता है, अर्थात आप अनुसरण करने के लिए किसी स्क्रिप्ट को केवल मॉडलर को नहीं सौंप सकते। आप बल्कि उन सिद्धांतों को परिभाषित करते हैं जिन पर मॉडलिंग की प्रक्रिया आधारित होनी चाहिए। तो, पारसीमोनी इन सिद्धांतों में से एक है, जिसके अनुप्रयोग को स्क्रिप्ट नहीं किया जा सकता है (फिर से!)। एक मॉडलर एक चयन मॉडल के दौरान जटिलता पर विचार करेगा।

कम्प्यूटेशनल शक्ति का इससे बहुत कम लेना-देना है। यदि आप उद्योग में हैं, तो आपके मॉडल व्यवसाय के लोगों, उत्पाद के लोगों द्वारा उपभोग किए जाएंगे, जो भी आप उन्हें कॉल करते हैं। आपको उन्हें अपना मॉडल समझाना होगा, इससे उन्हें समझ में आना चाहिए । पर्सिमोनियस मॉडल होने से इस संबंध में मदद मिलती है।

उदाहरण के लिए, आप उत्पाद की बिक्री का पूर्वानुमान लगा रहे हैं। आपको यह वर्णन करने में सक्षम होना चाहिए कि बिक्री के ड्राइवर क्या हैं , और वे कैसे काम करते हैं। ये उन अवधारणाओं से संबंधित होना चाहिए जिनके साथ व्यापार संचालित होता है, और सहसंबंधों को व्यवसाय द्वारा समझा और स्वीकार किया जाना चाहिए। जटिल मॉडल के साथ मॉडल के परिणामों की व्याख्या करना या वास्तविक के साथ मतभेदों को विशेषता देना बहुत मुश्किल हो सकता है। यदि आप अपने मॉडलों को व्यवसाय के लिए नहीं समझा सकते हैं, तो आप इसके द्वारा मूल्यवान नहीं होंगे।

एक और बात जो पूर्वानुमान के लिए विशेष रूप से महत्वपूर्ण है। मान लीजिए कि आपका मॉडल N बहिर्जात चर पर निर्भर है। इसका अर्थ है कि आपको अपने आश्रित चर का पूर्वानुमान करने के लिए पहले इन चरों के पूर्वानुमान प्राप्त करने होंगे। छोटा एन होने से आपका जीवन आसान हो जाता है, इसलिए एक सरल मॉडल का उपयोग करना आसान होता है।


यद्यपि आप पूर्वानुमान का उल्लेख करते हैं, आपका अधिकांश उत्तर केवल व्याख्यात्मक मॉडलिंग पर लागू होता है।
रोलैंडो 2

@ rolando2, ऐसा लगता है क्योंकि मेरे डोमेन में आप केवल उपयोगकर्ताओं को पूर्वानुमान सौंप नहीं सकते हैं। हमें पूर्वानुमान की व्याख्या करनी होगी, इसे ड्राइवरों से जोड़ना होगा आदि जब आपको मौसम का पूर्वानुमान मिलता है तो आप सामान्य रूप से फोरकास्टर को यह बताने के लिए नहीं कहते हैं कि वास्तव में उन्हें क्यों लगता है कि यह 50% संभावना के साथ बारिश होने वाली है। मेरे मामले में मुझे न केवल यह करना है, बल्कि इसे इस तरह से करना है कि मेरे उपभोक्ता इसे व्यवसाय चालकों से जोड़कर परिणामों को समझते हैं जो वे दैनिक रूप से व्यवहार करते हैं। इसीलिए पारसीमोनी अपने आप में मूल्यवान है
अक्सकल

1

शायद एकाइक सूचना मानदंड की एक समीक्षा है , एक अवधारणा जिसे मैंने केवल कल सीरिडिटी द्वारा खोजा था। AIC किसी भी बुनियादी ओपाम के रेजर या पार्सिमनी दृष्टिकोण के बजाय, कौन से मॉडल और कितने पैरामीटर हाथ में टिप्पणियों के लिए सबसे अच्छा स्पष्टीकरण है, इसकी पहचान करना चाहता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.