उपरोक्त प्रश्न यह सब कहता है। मूल रूप से मेरा सवाल एक सामान्य फिटिंग फ़ंक्शन (मनमाने ढंग से जटिल हो सकता है) के लिए है जो उन मापदंडों में गैर-स्पष्ट होगा जो मैं अनुमान लगाने की कोशिश कर रहा हूं, फिट को शुरू करने के लिए प्रारंभिक मूल्यों को कैसे चुनता है? मैं नॉनलाइनर कम से कम वर्ग में करने की कोशिश कर रहा हूं। क्या कोई रणनीति या तरीका है? क्या इसका अध्ययन किया गया है? कोई संदर्भ? तदर्थ अनुमान लगाने के अलावा कुछ भी? विशेष रूप से, अभी मैं जिन फिटिंग फॉर्मों के साथ काम कर रहा हूं, उनमें से एक गॉसियन प्लस रैखिक रूप है जिसमें पांच पैरामीटर हैं, जिनका मैं अनुमान लगाने की कोशिश कर रहा हूं, जैसे
जहाँ (abscissa data) और y = log 10 (निर्देशांक डेटा) का अर्थ है कि लॉग-लॉग स्थान में मेरा डेटा एक सीधी रेखा और एक bump की तरह दिखता है जिसे मैं Gaussian द्वारा अनुमानित कर रहा हूँ। मेरे पास कोई सिद्धांत नहीं है, मुझे इस बारे में मार्गदर्शन करने के बारे में कि बिना रेखा के ढलान की तरह शायद रेखांकन और नेत्रगोलक को छोड़कर कैसे फिट किया जाए और टक्कर का केंद्र / चौड़ाई क्या है। लेकिन मेरे पास इनमें से सौ से अधिक ऐसे हैं जो ग्राफिंग और अनुमान लगाने के बजाय ऐसा करते हैं, मैं कुछ दृष्टिकोणों को पसंद करूंगा जो स्वचालित हो सकते हैं।
मुझे लाइब्रेरी या ऑनलाइन में कोई संदर्भ नहीं मिल रहा है। केवल एक चीज जिसके बारे में मैं सोच सकता हूं, वह यह है कि केवल बेतरतीब ढंग से प्रारंभिक मूल्यों का चयन करें। MATLAB समान रूप से वितरित [0,1] से यादृच्छिक रूप से मूल्यों को चुनने की पेशकश करता है। इसलिए प्रत्येक डेटा सेट के साथ, मैं यादृच्छिक रूप से आरंभिक रूप से एक हजार बार फिट होता हूं और फिर उच्चतम साथ एक को चुनता हूं ? कोई अन्य (बेहतर) विचार?
परिशिष्ट # 1
सबसे पहले, यहां डेटा सेट के कुछ दृश्य प्रतिनिधित्व हैं जो आप लोगों को दिखाते हैं कि मैं किस तरह के डेटा के बारे में बात कर रहा हूं। मैं किसी भी प्रकार के परिवर्तन के बिना दोनों डेटा को उसके मूल रूप में पोस्ट कर रहा हूं और फिर लॉग-लॉग स्पेस में इसका दृश्य प्रतिनिधित्व करता हूं क्योंकि यह दूसरों को विकृत करते हुए डेटा की कुछ विशेषताओं को स्पष्ट करता है। मैं अच्छे और बुरे दोनों डेटा का एक नमूना पोस्ट कर रहा हूं।
प्रत्येक आकृति के छह पैनलों में से प्रत्येक में चार डेटा सेट दिखाए गए हैं जो एक साथ लाल, हरे, नीले और सियान से युक्त हैं और प्रत्येक डेटा सेट में ठीक 20% अंक हैं। मैं उनमें से प्रत्येक को एक सीधी रेखा के साथ फिट करने की कोशिश कर रहा हूं, क्योंकि डेटा में दिखाई देने वाले धक्कों के कारण एक गाऊसी है।
पहला आंकड़ा कुछ अच्छे आंकड़ों का है। दूसरा आंकड़ा आंकड़े से उसी अच्छे डेटा का लॉग-लॉग प्लॉट है। तीसरा आंकड़ा कुछ खराब आंकड़ों का है। चौथा आंकड़ा तीन का लॉग-लॉग प्लॉट है। बहुत अधिक डेटा है, ये सिर्फ दो सबसेट हैं। अधिकांश डेटा (लगभग 3/4) अच्छा है, मेरे द्वारा दिखाए गए अच्छे डेटा के समान।
अब कुछ टिप्पणियाँ, कृपया मेरे साथ सहन करें क्योंकि यह लंबा हो सकता है लेकिन मुझे लगता है कि यह सब विस्तार से आवश्यक है। मैं यथासंभव संक्षिप्त होने की कोशिश करूँगा।
मैंने मूल रूप से एक साधारण-शक्ति कानून (लॉग-इन स्पेस में सीधी रेखा का अर्थ) की अपेक्षा की थी। जब मैंने लॉग-लॉग स्पेस में सब कुछ प्लॉट किया, तो मैंने लगभग 4.8 मेगाहर्ट्ज पर अप्रत्याशित टक्कर देखी। टक्कर की पूरी तरह से जांच की गई थी और दूसरों के काम में भी खोजा गया था, इसलिए यह नहीं कि हमने गड़बड़ की। यह शारीरिक रूप से वहाँ है और अन्य प्रकाशित कार्यों में भी इसका उल्लेख है। तो फिर मैंने अभी अपने रैखिक रूप में एक गाऊसी शब्द जोड़ा है। ध्यान दें कि यह फिट लॉग-लॉग स्पेस में किया जाना था (इसलिए इस एक सहित मेरे दो प्रश्न)।
अब, पढ़ने के बाद मेरा एक और सवाल करने के लिए स्टम्पी जो पीट द्वारा जवाब (सब पर इन आंकड़ों से संबंधित नहीं) और पढ़ने इस और इस (Clauset द्वारा सामान) और संदर्भ उसमें, मुझे लगता है कि मैं लॉग-लॉग में फिट नहीं चाहिए अंतरिक्ष। इसलिए अब मैं पूर्व-परिवर्तित स्थान में सब कुछ करना चाहता हूं।
प्रश्न 1: अच्छे आंकड़ों को देखते हुए, मुझे अभी भी लगता है कि पहले से तब्दील अंतरिक्ष में एक रेखीय प्लस एक गाऊसी अभी भी एक अच्छा रूप है। मैं उन लोगों से सुनना पसंद करूंगा जिनके पास अधिक डेटा-एक्सपीरियंस है जो वे सोचते हैं। क्या गाऊसी + रैखिक उचित है? क्या मुझे केवल एक गाऊसी करना चाहिए? या एक पूरी तरह से अलग रूप?
प्रश्न 2: प्रश्न 1 का उत्तर जो भी हो, मुझे अभी भी (सबसे अधिक संभावना है) गैर-रैखिक कम से कम वर्ग फिट होंगे, इसलिए अभी भी आरंभीकरण के साथ मदद की आवश्यकता है।
डेटा जहां हम दो सेट देखते हैं, हम लगभग 4-5 मेगाहर्ट्ज पर पहले टक्कर को पकड़ना बहुत पसंद करते हैं। इसलिए मैं अधिक गाऊसी शर्तों को नहीं जोड़ना चाहता हूं और हमारे गाऊसी शब्द को पहली टक्कर पर केंद्रित किया जाना चाहिए जो लगभग हमेशा बड़ा टक्कर है। हम 0.8mHz और 5mHz के बीच "अधिक सटीकता" चाहते हैं। हम उच्च आवृत्तियों के लिए बहुत अधिक परवाह नहीं करते हैं, लेकिन उन्हें पूरी तरह से अनदेखा नहीं करना चाहते हैं। तो शायद किसी तरह का वजन? या बी हमेशा 4.8mHz के आसपास शुरू किया जा सकता है?
प्रश्न 3: इस मामले में आप लोग क्या सोचते हैं? कोई पेशेवरों / विपक्ष? एक्सट्रपलेशन के लिए कोई अन्य विचार? फिर से हम केवल 0 और 1mHz के बीच की अतिरिक्त आवृत्तियों की कम आवृत्तियों की परवाह करते हैं ... कभी-कभी बहुत कम आवृत्तियों, शून्य के करीब। मुझे पता है यह पोस्ट पहले से ही पैक है। मैंने यह सवाल यहां इसलिए पूछा क्योंकि उत्तर संबंधित हो सकते हैं लेकिन अगर आप लोग पसंद करते हैं तो मैं इस प्रश्न को अलग कर सकता हूं और बाद में एक और पूछ सकता हूं।
अंत में, यहां अनुरोध पर दो नमूना डेटा सेट हैं।
0.813010000000000 0.091178000000000 0.012728000000000
1.626000000000000 0.103120000000000 0.019204000000000
2.439000000000000 0.114060000000000 0.063494000000000
3.252000000000000 0.123130000000000 0.071107000000000
4.065000000000000 0.128540000000000 0.073293000000000
4.878000000000000 0.137040000000000 0.074329000000000
5.691100000000000 0.124660000000000 0.071992000000000
6.504099999999999 0.104480000000000 0.071463000000000
7.317100000000000 0.088040000000000 0.070336000000000
8.130099999999999 0.080532000000000 0.036453000000000
8.943100000000001 0.070902000000000 0.024649000000000
9.756100000000000 0.061444000000000 0.024397000000000
10.569000000000001 0.056583000000000 0.025222000000000
11.382000000000000 0.052836000000000 0.024576000000000
12.194999999999999 0.048727000000000 0.026598000000000
13.008000000000001 0.045870000000000 0.029321000000000
13.821000000000000 0.041454000000000 0.067300000000000
14.633999999999999 0.039596000000000 0.081800000000000
15.447000000000001 0.038365000000000 0.076443000000000
16.260000000000002 0.036425000000000 0.075912000000000
पहला स्तंभ मेगाहर्ट्ज में आवृत्तियां हैं, जो हर एक डेटा सेट में समान हैं। दूसरा कॉलम एक अच्छा डेटा सेट (अच्छा डेटा आंकड़ा एक और दो, पैनल 5, लाल मार्कर) और तीसरा कॉलम एक खराब डेटा सेट (खराब डेटा आंकड़ा तीन और चार, पैनल 5, लाल मार्कर) है।
आशा है कि यह कुछ और प्रबुद्ध चर्चा को प्रोत्साहित करने के लिए पर्याप्त है। आप सभी को धन्यवाद।