वैज्ञानिक पेपर में वक्र-फिट परिणाम की रिपोर्ट करना


11

(मुझे आशा है कि यह प्रश्न इस साइट पर फिट बैठता है; यदि नहीं, तो मेरी माफी स्वीकार करें)।

मैंने एक निश्चित सिमुलेशन चलाया, और एक समय श्रृंखला y (t), t = 0, 1, ... 20 मिली। कुछ कार्यों को आजमाने के बाद, मैंने पाया कि:

y(t) =~ 1 / (A t + B)

जहाँ A और B गुणांक हैं I की गणना रेखीय प्रतिगमन का उपयोग करते हुए, R ^ 2> 0.99 के साथ की जाती है।

एक वैज्ञानिक पेपर में ऐसे परिणामों की रिपोर्ट करने का मानक तरीका क्या है? विशेष रूप से:

A. मेरे पास कोई सैद्धांतिक व्याख्या नहीं है, क्यों उत्पादन इस तरह दिखता है (मुझे पता है कि यह कम होना चाहिए, और यह नीचे से बंधा हुआ है, लेकिन बहुत अधिक नहीं)। यह सिर्फ एक सफल अनुमान था। क्या मुझे अन्य सभी असफल अनुमानों का वर्णन करना चाहिए जो मैंने कोशिश की थी?

B. जब भी मैं सिमुलेशन चलाता हूं, मुझे ए और बी के थोड़ा अलग मूल्य मिलते हैं और क्या मुझे सिर्फ एक यादृच्छिक रन की रिपोर्ट करनी चाहिए, या क्या मुझे कई बार सिमुलेशन चलाना चाहिए और परिणामों को औसत करना चाहिए? यदि हां, तो कितनी बार पर्याप्त है?


आप क्या संदेश देना चाहते हैं? प्रत्येक व्यक्ति सिमुलेशन क्या दर्शाता है?
बिल बर्थ

यह भूमि के स्वामित्व का अनुकरण है। एन नागरिक और एन भूमि भूखंड हैं। प्रारंभ में, प्रत्येक भूमि-भूखंड एक यादृच्छिक नागरिक को दिया जाता है। फिर, प्रत्येक वर्ष, प्रत्येक भूमि को एक निश्चित संभावना पी के साथ बेचा जाता है, और यदि यह वास्तव में बेचा जाता है, तो खरीदार को यादृच्छिक पर चुना जाता है। 50 साल बाद, मैं एक "जुबली" प्रक्रिया चलाता हूं, जहां कुछ जमीनें मूल मालिकों को वापस कर दी जाती हैं, अगर इन मालिकों के पास वर्तमान में कोई जमीन नहीं है। मैं प्रत्येक जुबली (टी) के बाद भूमि (वाई) के बिना नागरिकों की संख्या को मापता हूं। निश्चित रूप से y (t) गैर-बढ़ती है। मैं यह बताना चाहता हूं कि यह पूर्वानुमेय दर में घट रहा है, और यह 0. में परिवर्तित होता है
Erel Segal-Halevi

यह मुझे लगता है कि आपको और का सांख्यिकीय प्रतिनिधित्व विकसित करना चाहिए , फिर (मतलब, माध्य, आदि)। AB
बिल बर्थ

2
N + 1 विभिन्न प्रजातियों के साथ एक मॉडल पर विचार करें जहां , जो भूमि के भूखंडों के साथ भूस्वामियों की एकाग्रता को दर्शाता है । अब आप अपनी समस्या के लिए रासायनिक कैनेटीक्स सिद्धांत लागू कर सकते हैं। n = 0 N nxnn=0Nn
डेथब्रीथ

बिल: क्या आपका मतलब है कि मुझे कई बार ए और बी की गणना करनी चाहिए, फिर माध्य और एसटी की रिपोर्ट करें? मुझे लगता है कि सभी सिमुलेशन से सभी नमूनों के साथ एक एकल रैखिक प्रतिगमन करने के लिए एक बेहतर दृष्टिकोण है। लेकिन मुझे कितनी बार सिमुलेशन चलाना चाहिए?
एरगल सेगल-हलेवी

जवाबों:


5

आप अपने वितरण के लिए एक बिजली कानून फिट करने की कोशिश कर रहे हैं । बहुत ही रोचक। अप में हर समय ये शो ग्राफ सिद्धांत , सामाजिक नेटवर्क , और एक धसान अन्य स्थानों की।

अपने डेटा को यहां और यहां फिट करने के लिए कुछ ट्यूटोरियल हैं

इसके अलावा, प्रश्न ए के संदर्भ में, जमीन खरीदने वाले व्यक्ति की संभावना इस बात पर निर्भर करती है कि उनके पास पहले से कितनी जमीन है? आप यह समझाने के लिए बारबासी के मॉडल का उपयोग करने में सक्षम हो सकते हैं कि क्यों एक बिजली कानून आपके डेटा के लिए उचित है।

अद्यतन: मैंने इसका उपयोग किया है और यह बहुत अच्छा काम करता है: https://pypi.python.org/pypi/powerlaw


सभी लिंक के लिए +1! मैंने पावर लॉ के बारे में भी सोचा था, लेकिन यह सरल रूप है (y = A t ^ k) बी कॉन्टेंट (y = (A t + B) ^ - 1) के कारण मुझे जो फॉर्म मिला है, वह मुझे पसंद नहीं आया। क्या अधिक सामान्य रूप है?
एरगल सेगल-हलेवी

यदि आप वक्र के आकार का वर्णन करने में रुचि रखते हैं तो आपको पावर लॉ फिट करने से पहले कारक और बदलाव करना चाहिए। तथ्य यह है कि आपके पास एक बी है वक्र के आकार के लिए प्रासंगिक नहीं है।
9

क्षमा करें, मैं आपको समझ नहीं पाया, "तो आपको कारक और बदलाव करना चाहिए" से क्या मतलब है?
इरगल सहगल-हलेवी

सेट x = t + B / A। फिर (At + B) ^ {- 1} = ((* * x) ^ {- 1} जो लिंक में फॉर्म है।
ड्रैंक्सो

1
tuvalu.santafe.edu/~aaronc/courses/7000/csci7000-001_2011_L3.pdf
dranxo

7

आपके प्रश्न पर कुछ विचार:

  • आप अपने मॉडल को कैसे रिपोर्ट करते हैं यह आपके दर्शकों और आपके क्षेत्र पर बहुत निर्भर करेगा। उदाहरण के लिए, मेरे क्षेत्र में, R ^ 2 जैसे मॉडल फिट आंकड़े बहुत कम ही रिपोर्ट किए जाते हैं - जिन्हें न तो प्रभावशाली माना जाता है और न ही विशेष रूप से उपयोगी। इसके बजाय, आप जिस मॉडल पर पहुंचे, उसके बारे में कुछ मानदंड बताए गए हैं, और फिर आप अपने मॉडल परिणामों की रिपोर्ट करते हैं - हम सभी मानते हैं कि आप वास्तव में मॉडल को सही ढंग से फिट करते हैं।
  • "मैं इस फॉर्म में हुआ था" एक बुरी व्याख्या है। एक बहुत बुरा। आकस्मिक प्रतिभा की कहानियों के शौकीन होने के बावजूद, पेनिसिलिन या कुनैन की खोज की तरह, "अंधा गूंगा भाग्य" एक विश्वसनीय वैज्ञानिक प्रक्रिया नहीं है। उदाहरण के लिए, आपने दिखाया है कि वह फॉर्म आपके डेटा को फिट करने के लिए अच्छा है, लेकिन आपने अभी तक यह नहीं दिखाया है कि यह आपके डेटा को फिट करने के लिए सबसे अच्छा है । R ^ 2 अकेले यह आंकलन करने के लिए पर्याप्त मीट्रिक नहीं है कि आपका मॉडल डेटा को कितनी अच्छी तरह फिट करता है। Anscombe की चौकड़ी देखें ।
  • जैसा कि @ क्रॉम्पटन ने उल्लेख किया है, ऐसा लगता है कि आप इसे जाने बिना पावर लॉ डिस्ट्रीब्यूशन को फिट करने की कोशिश कर रहे हैं, लेकिन भले ही आप पावर लॉ को अच्छी तरह से मैनेज करना चाहते हों, लेकिन यह वास्तव में सबसे अच्छा है अगर आपको कोई कारण मिल जाए तो आपको लगता है कि पावर लॉ । यह समय के साथ Y को प्लॉट करने के लिए पर्याप्त हो सकता है, CrossValidated (या एक कॉलेज / विभाग आँकड़ों के साथ अधिक आरामदायक) और व्यवस्थित रूप से वितरण पर जाएँ जो आपको मोटे तौर पर उस लुक दे सकते हैं। बिजली कानून वितरण के अलावा कुछ अन्य हैं जो आपको एक बेहतर फिट दे सकते हैं।

अंतर्दृष्टि के लिए +1। "व्यवस्थित रूप से उन वितरणों पर जाएं जो आपको मोटे तौर पर ऐसा रूप दे सकते हैं।" - इन्हें कहां खोजा जा सकता है?
इरगल सहगल-हलेवी

@ErelSegalHalevi आप क्रॉसविलेज पर शुरू कर सकते हैं, यह साइट बहन-साइट है जो आंकड़ों और डेटा विश्लेषण की चिंता करती है।
फोमाइट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.