रैखिक, घातीय और लघुगणक कार्यों के बाहर सबसे अच्छा फिटिंग वक्र फिटिंग फ़ंक्शन का निर्धारण करना


18

प्रसंग:

गणित स्टैक एक्सचेंज (क्या मैं एक कार्यक्रम बना सकता हूं) पर एक सवाल से , किसी के पास अंक का एक सेट है , और इसके लिए एक वक्र फिट करना चाहता है, रैखिक, घातीय या लघुगणक। सामान्य विधि यह है कि इनमें से एक (जो मॉडल को निर्दिष्ट करता है) का चयन करके शुरू किया जाए, और फिर सांख्यिकीय गणना करें।xy

लेकिन वास्तव में जो चाहता है, वह है रैखिक, घातांक या लघुगणक के 'सर्वश्रेष्ठ' वक्र का पता लगाना।

मूल रूप से, कोई भी तीनों की कोशिश कर सकता है, और सबसे अच्छा सहसंबंध गुणांक के अनुसार तीन का सबसे अच्छा फिट वक्र चुन सकता है।

लेकिन किसी तरह मुझे लग रहा है कि यह काफी कोषेर नहीं है। आम तौर पर स्वीकार की गई विधि पहले अपने मॉडल को चुनना है, उन तीन (या कुछ अन्य लिंक फ़ंक्शन) में से एक है, फिर डेटा से गुणांक की गणना करें। और सभी के सर्वश्रेष्ठ लेने के बाद चेरी उठा है। लेकिन मेरे लिए कि क्या आप किसी फ़ंक्शन या गुणांक को डेटा से निर्धारित कर रहे हैं, यह अभी भी एक ही चीज़ है, आपकी प्रक्रिया सबसे अच्छी खोज रही है ... चीज़ (आइए बताते हैं कि कौन सा फ़ंक्शन है-एक और गुणांक ओ की खोज की जाए)।

प्रशन:

  • क्या फिट आंकड़ों की तुलना के आधार पर लीनियर, एक्सपोनेंशियल और लॉगरिदमिक मॉडल में से सर्वश्रेष्ठ फिटिंग मॉडल चुनना उचित है?
  • यदि हां, तो ऐसा करने का सबसे उपयुक्त तरीका क्या है?
  • यदि प्रतिगमन एक फ़ंक्शन में पैरामीटर (गुणांक) खोजने में मदद करता है, तो तीन वक्र परिवारों में से कौन सा सबसे अच्छा आएगा चुनने के लिए असतत पैरामीटर नहीं हो सकता है?

1
मैंने आपकी सुविधा के लिए मॉडल-चयन टैग जोड़ा है : इसके माध्यम से लिंक करने से बड़ी संख्या में सीधे संबंधित थ्रेड बनेंगे। अन्य टैग लायक को देख शामिल AIC । आपको अंततः पता लगाना चाहिए कि इस समस्या का गणितीय कथन दो आवश्यक तत्वों को याद कर रहा है: यह वर्णन कि कैसे और क्यों अंक सैद्धांतिक वक्र से विचलित हो सकते हैं और बिल्कुल सही वक्र नहीं होने की लागत का संकेत देते हैं। उन तत्वों की अनुपस्थिति में, कई अलग-अलग दृष्टिकोण हैं जो विभिन्न उत्तरों का उत्पादन कर सकते हैं, यह दिखाते हैं कि "सर्वश्रेष्ठ" बीमार परिभाषित है।
व्हिबर

1
आप मॉडल पर सत्यापन करने के लिए अपने डेटा का एक प्रतिशत अलग सेट कर सकते हैं और उस मॉडल को चुन सकते हैं जो सत्यापन डेटा के उस सेट को सबसे अच्छी तरह से फिट करता है। इसलिए, आपके पास अपने डेटा को विभाजित करने के लिए तीन अलग-अलग सेट होंगे। 1. एकल मॉडल को प्रशिक्षित करने के लिए डेटा 2. डेटा जो प्रत्येक मॉडल को मान्य करता है जो आपको सर्वश्रेष्ठ मॉडल का चयन करने की अनुमति देता है और 3. आपका वास्तविक अंतिम सत्यापन डेटा जिसे छुआ नहीं गया है। ।
13

1
@kleineg यह सही दिशा की तरह लगता है। मॉडल की पसंद (जैसे लिन / एक्सप / लॉग के बीच) एक एकल मॉडल हाइपरपरमीटर की तरह है, जो कुछ तरीकों में नियमित मापदंडों का सिर्फ एक और चरण है, और अलग-अलग ट्रेन / मान्य / परीक्षण चरणों द्वारा इसमें कदम रखा जा सकता है।
मिच

प्रासंगिक: {ओवरफ़िट करने का एक सूक्ष्म तरीका] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit ) - कई मॉडल कार्यों (उदाहरण के लिए बनाम बनाम रैखिक) बनाम लॉग के बीच चयन करना बस है एक और पैरामीटर। आप इसे एक हाइपरपैरेट के रूप में सोच सकते हैं (जिसे एक सत्यापन कदम की आवश्यकता होगी) या संयोजन के एक जटिल कार्य में एक नियमित पैरामीटर (जहां यह एक परीक्षण चरण में परीक्षण किया जाएगा)।
मिच

जवाबों:


9
  • आप यूरेका नामक मुफ्त सॉफ्टवेयर की जांच करना चाहते हैं । इसमें कार्यात्मक रूप और किसी दिए गए कार्यात्मक संबंध के मापदंडों दोनों को खोजने की प्रक्रिया को स्वचालित करने का विशिष्ट उद्देश्य है।
  • यदि आप विभिन्न मापदंडों के साथ मॉडल की तुलना कर रहे हैं, तो आप आम तौर पर फिट के एक उपाय का उपयोग करना चाहेंगे जो अधिक मापदंडों के साथ मॉडल को दंडित करता है। एक समृद्ध साहित्य है, जिस पर मॉडल की तुलना के लिए फिट माप सबसे उपयुक्त है, और जब मॉडल नेस्टेड नहीं होते हैं तो मुद्दे अधिक जटिल हो जाते हैं। मुझे यह सुनने में दिलचस्पी होगी कि दूसरों को क्या लगता है कि आपके परिदृश्य को देखते हुए सबसे उपयुक्त मॉडल तुलना सूचकांक है (एक पक्ष बिंदु के रूप में, हाल ही में मेरे ब्लॉग पर चर्चा की गई थी कि वक्र फिटिंग के लिए मॉडल की तुलना के संदर्भ में मॉडल तुलना सूचकांकों के बारे में)।
  • मेरे अनुभव से, गैर-रेखीय प्रतिगमन मॉडल को दिए गए आंकड़ों के लिए शुद्ध सांख्यिकीय फिट से परे कारणों के लिए उपयोग किया जाता है:
    1. गैर-रैखिक मॉडल डेटा की सीमा के बाहर अधिक प्रशंसनीय भविष्यवाणियां करते हैं
    2. गैर-रेखीय मॉडल को समकक्ष फिट के लिए कम मापदंडों की आवश्यकता होती है
    3. गैर-रेखीय प्रतिगमन मॉडल अक्सर उन डोमेन में लागू किए जाते हैं जहां पर्याप्त पूर्व अनुसंधान और सिद्धांत मार्गदर्शक मॉडल का चयन होता है।

5

यह एक ऐसा प्रश्न है जो बहुत ही विविध डोमेन में मान्य है।

सबसे अच्छा मॉडल वह है जो डेटा बिंदुओं का अनुमान लगा सकता है जो पैरामीटर अनुमान के दौरान उपयोग नहीं किए गए थे। आदर्श रूप से एक डेटा सेट के सबसेट के साथ मॉडल मापदंडों की गणना करेगा, और दूसरे डेटा सेट पर फिट प्रदर्शन का मूल्यांकन करेगा। यदि आप विवरणों में रुचि रखते हैं, तो "क्रॉस-मान्यता" के साथ एक खोज करें।

तो पहले सवाल का जवाब, "नहीं" है। आप बस सबसे अच्छा फिटिंग मॉडल नहीं ले सकते। छवि आप Nth डिग्री से N डेटा बिंदुओं के साथ एक बहुपद फिटिंग कर रहे हैं। यह एक सही फिट होगा, क्योंकि सभी मॉडल बिल्कुल सभी डेटा बिंदुओं पर पास होंगे। हालाँकि यह मॉडल नए डेटा के लिए सामान्य नहीं होगा।

सबसे उपयुक्त तरीका, जहाँ तक मैं कह सकता हूँ, यह गणना करना है कि आपका मॉडल मेट्रिक्स का उपयोग करके अन्य डेटा-सेटों को कितना सामान्य कर सकता है जो एक साथ अवशिष्ट के आयाम और आपके मॉडल में मापदंडों की संख्या को सजाता है। AIC और BIC इनमें से कुछ मीट्रिक हैं जिनसे मैं अवगत हूं।


3

चूंकि बहुत से लोग नियमित रूप से अपने डेटा में विभिन्न घटता के फिट का पता लगाते हैं, मुझे नहीं पता कि आपके आरक्षण कहां से आ रहे हैं। दी गई बात, यह तथ्य है कि एक द्विघात हमेशा कम से कम एक रैखिक और एक घन के रूप में, कम से कम एक द्विघात के रूप में फिट होगा, इसलिए इस तरह के एक nonlinear शब्द और इस तरह से जोड़ने के सांख्यिकीय महत्व का परीक्षण करने के तरीके हैं अनावश्यक जटिलता से बचें। लेकिन एक रिश्ते के कई अलग-अलग रूपों का परीक्षण करने का मूल अभ्यास सिर्फ अच्छा अभ्यास है। वास्तव में, किसी को यह देखने के लिए एक बहुत ही लचीली लूप प्रतिगमन के साथ शुरू हो सकता है कि फिट होने के लिए सबसे प्रशंसनीय प्रकार क्या है।


3
चाहे द्विघात बेहतर फिट हो, यह इस बात पर निर्भर करेगा कि आपने अच्छे फिट का संचालन कैसे किया है। विशेष रूप से, यदि आप फिट के एक माप का उपयोग करते हैं जो अधिक मापदंडों (जैसे, एआईसी) के साथ मॉडल को दंडित करता है, तो, उदाहरण के लिए, द्विघात बनाम रैखिक के लिए फिट बदतर हो सकता है।
जेरोमे एंग्लीम

9
@rolando, शायद मुझे गलतफहमी हो रही है, लेकिन, स्पष्ट रूप से इस तरह की (अयोग्य) सलाह ठीक उसी तरह की है, जैसा कि सांख्यिकीविदों के रूप में, हम "खिलाफ" लड़ने के लिए इतना समय देते हैं। विशेष रूप से, अगर ओपी सरल वक्र फिटिंग, जैसे, भविष्यवाणी या निष्कर्ष परे कुछ भी में रुचि है, यह है बहुत महत्वपूर्ण के निहितार्थ को समझने के लिए आंकड़ों के दृष्टिकोण "बस जो कुछ भी आप सोच सकते हैं की कोशिश"।
कार्डिनल

2
मुझे इन टिप्पणियों को Anscombe, Tukey, Mosteller, Tufte और Cleveland की परंपरा के साथ सामंजस्य स्थापित करने में समस्या हो रही है, जो डेटा की कल्पना और अन्वेषण करने और मॉडल बनाने से पहले प्रत्येक रिश्ते के आकार को आकार देने, coeffiencients की स्थापना करने, या अन्य आँकड़े उत्पन्न करना।
रोलैंडो 2

8
उनके दृष्टिकोण को लेकर बहुत विवाद है। इन मुद्दों को संक्षेप में प्रस्तुत करने का एक अधिक सरल तरीका यह है कि यदि आप पैटर्न के बारे में सीखना चाहते हैं और नई खोज करना चाहते हैं, जिसे बाद में सत्यापन की आवश्यकता है, तो खोजपूर्ण विश्लेषण उपयुक्त है। यदि आप निष्कर्ष निकालना चाहते हैं (पी-मान, आत्मविश्वास अंतराल, आदि का उपयोग करके विशेष रूप से सामान्य आबादी के लिए कारण) तो इतना नहीं।
फ्रैंक हरेल

4
यह सबसे अधिक उत्पादक टिप्पणी धागा है जो मैंने CV पर देखा है, विशेष रूप से एक्सचेंज b / t rolando2 (3 ^) और @FrankHarrell। मुझे भी दोनों दृष्टिकोण बहुत आकर्षक लगते हैं। मेरा अपना संकल्प यह है कि पहले से परीक्षण करने के लिए क्या योजना बनाई जाए और केवल उस मॉडल का परीक्षण / परीक्षण किया जाए, जो कि ड्राइंग फर्म निष्कर्षों के लिए है, लेकिन यह पता लगाने के लिए कि क्या सच हो सकता है, इसके लिए डेटा (w / o परिणामों पर आवश्यक रूप से विश्वास करते हुए) को अच्छी तरह से देखें। और अगले अध्ययन के लिए योजना बना रहा है । (क्या मुझे एक और अध्ययन चलाना चाहिए और कुछ जांचना चाहिए, क्या यह दिलचस्प / महत्वपूर्ण होगा?) कुंजी इन विश्लेषणों के परिणामों के बारे में आपकी धारणाएं हैं।
गूँग - मोनिका

3

आपको वास्तव में विज्ञान / सिद्धांत के बीच एक संतुलन खोजने की आवश्यकता है जो डेटा की ओर जाता है और डेटा आपको बताता है। जैसे दूसरों ने कहा है, यदि आप अपने आप को किसी भी संभावित परिवर्तन (किसी भी डिग्री, आदि के बहुपद) में फिट होने देते हैं, तो आप ओवरफिटिंग और कुछ ऐसा प्राप्त करेंगे जो बेकार है।

इसका एक तरीका खुद को समझाने के लिए सिमुलेशन के माध्यम से है। एक मॉडल चुनें (रैखिक, घातीय, लॉग) और डेटा उत्पन्न करें जो इस मॉडल का अनुसरण करता है (मापदंडों की पसंद के साथ)। यदि y मानों का आपका सशर्त विचरण x चर के प्रसार के सापेक्ष छोटा है, तो एक सरल कथानक यह स्पष्ट कर देगा कि कौन सा मॉडल चुना गया था और "सत्य" क्या है। लेकिन अगर आप ऐसे मापदंडों का एक सेट चुनते हैं, जो भूखंडों से स्पष्ट नहीं है (शायद मामला जहां विश्लेषणात्मक समाधान ब्याज का है) तो प्रत्येक 3 तरीकों का विश्लेषण करें और देखें कि कौन सा "सबसे अच्छा" फिट है। मुझे उम्मीद है कि आप पाएंगे कि "सबसे अच्छा" फिट अक्सर "सच" फिट नहीं होता है।

दूसरी ओर, कभी-कभी हम चाहते हैं कि डेटा हमें जितना संभव हो सके बताए और हमारे पास संबंध की प्रकृति को पूरी तरह से निर्धारित करने के लिए विज्ञान / सिद्धांत नहीं हो सकता है। बॉक्स और कॉक्स (जेआरएसएस बी, वॉल्यूम 26, नंबर 2, 1964) द्वारा मूल पेपर वाई चर पर कई परिवर्तनों के बीच तुलना करने के तरीकों पर चर्चा करता है, उनके दिए गए परिवर्तनों का रैखिक होता है और विशेष मामलों के रूप में लॉग होता है (लेकिन घातांक नहीं) , लेकिन कागज के सिद्धांत में कुछ भी आपको केवल उनके परिवर्तनों के परिवार तक सीमित नहीं करता है, उसी पद्धति को उन 3 मॉडलों के बीच तुलना शामिल करने के लिए बढ़ाया जा सकता है, जिनमें आप रुचि रखते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.