मॉडल की Akaike Information Criterion (AIC) स्कोर का क्या अर्थ है?


34

मैंने यहां कुछ प्रश्न देखे हैं कि आम आदमी के संदर्भ में इसका क्या अर्थ है, लेकिन ये मेरे उद्देश्य के लिए बहुत आम हैं। मैं गणितीय रूप से समझने की कोशिश कर रहा हूं कि एआईसी स्कोर का क्या मतलब है।

लेकिन एक ही समय में, मैं एक कठोर प्रमाण नहीं चाहता हूं जिससे मुझे अधिक महत्वपूर्ण बिंदु दिखाई न दें। उदाहरण के लिए, यदि यह कैलकुलस था, तो मैं इनफिनिटिमल्स से खुश रहूंगा, और अगर यह संभावना सिद्धांत था, तो मैं माप सिद्धांत के बिना खुश रहूंगा।

मेरा प्रयास

यहाँ पढ़कर , और मेरे स्वयं के कुछ संकेतन चीनी, डेटासेट D पर AICm,Dमॉडल का AIC मानदंड निम्नानुसार है: AIC m , D = 2 k m - 2 ln ( L m , D ) जहां k m है मॉडल एम और एल एम के मापदंडों की संख्या , डी डेटासेट डी पर मॉडल मीटर की अधिकतम संभावना फ़ंक्शन मान है ।mD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

यहाँ मेरी समझ है कि उपरोक्त क्या है:

m=arg maxθPr(D|θ)

इस तरफ:

  • के मापदंडों की संख्या है मीkmm
  • Lm,D=Pr(D|m)=L(m|D)

चलो अब फिर से लिखने AIC:

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

जाहिर है, मॉडल m के तहत डेटासेट D देखने की संभावना है । तो बेहतर है कि मॉडल m , डेटासेट फिट बैठता है D , बड़ा Pr ( D | m ) बन जाता है, और इस तरह यह शब्द छोटा हो जाता है - 2 log e ( Pr ( D | m ) ) बन जाता है।Pr(D|m)DmmDPr(D|m)2loge(Pr(D|m))

तो स्पष्ट रूप से एआईसी पुरस्कार मॉडल जो अपने डेटासेट को फिट करते हैं (क्योंकि छोटे बेहतर है)।AICm,D

दूसरी ओर, शब्द स्पष्ट रूप से AIC m , D को बड़ा बनाकर अधिक मापदंडों के साथ मॉडल को सजाता है2kmAICm,D

दूसरे शब्दों में, AIC ऐसा उपाय लगता है:

  • सटीक मॉडल (जो कि बेहतर मानते हैं) को तार्किक रूप से पुरस्कृत करते हैं । उदा। यह फिटनेस में वृद्धि को 0.4 से 0.5 तक बढ़ाता है, जबकि यह 0.8 से 0.9 तक फिटनेस में वृद्धि को पुरस्कृत करता है । यह नीचे दिए गए आंकड़े में दिखाया गया है।D0.40.50.80.9
  • मापदंडों में कमी रैखिक रूप से घटती है। तो से मानकों में कमी के लिए नीचे 8 जितना पुरस्कृत किया जाता है के रूप में यह से कमी पुरस्कार 2 के लिए नीचे 19821

यहाँ छवि विवरण दर्ज करें

दूसरे शब्दों में (फिर से), एआईसी सादगी के महत्व और फिटनेस के महत्व के बीच एक व्यापार बंद को परिभाषित करता है ।

दूसरे शब्दों में (फिर से), एआईसी सुझाव देता है कि:

  • फिटनेस का महत्व कम हो जाता है।
  • लेकिन सादगी का महत्व कभी कम नहीं होता, बल्कि हमेशा लगातार महत्वपूर्ण होता है।

Q1: लेकिन एक सवाल यह है कि हमें इस विशिष्ट फिटनेस-सादगी व्यापार-व्यापार की परवाह क्यों करनी चाहिए?

Q2: क्यों और क्यों 2 लॉग ( ) ? सिर्फ क्यों नहीं: AIC m , D = 2 k m - 2 ln ( L m , D ) = 2 ( k m - ln ( L m , D ) ) AIC m , D2k2loge() अर्थातAICm,D,SIMPLEy दृश्य मेंAICm,Dऔरसमान रूप से उपयोगीहोना चाहिए अपेक्षाकृत विभिन्न मॉडलों की तुलना करने में सक्षम होना (यह सिर्फ2 सेछोटा नहीं है; क्या हमें इसकी आवश्यकता है?)।

AICm,D=2km2ln(Lm,D)=2(kmln(Lm,D))AICm,D2=kmln(Lm,D)AICm,D,SIMPLE=kmln(Lm,D)
AICm,D,SIMPLEAICm,D2

Q3: यह सूचना सिद्धांत से कैसे संबंधित है? क्या कोई व्यक्ति इसे एक सैद्धांतिक शुरुआत से प्राप्त कर सकता है?


2
क्या में अपने अंकन करता मतलब? क्या आप वहां मॉडल पसंद के बारे में कुछ बता रहे हैं? आपके पास जो कुछ था वह वास्तव में इसका मतलब नहीं है कि एआईसी को आपको एक मॉडल चुनने की आवश्यकता है। Q2, के रूप में आप कहते हैं, कुछ कुछ अर्थों में बहुत मनमाना है, लेकिन Kullback-Leibler विचलन है, जो भी Q1 के लिए जवाब से संबंधित है और तरह मात्रा के लिए कुछ अर्थ देता है के लिए AIC एक अनुमान बनाने से आता है exp ( ( AIC मीटर - मिनट ( एआईसी 1 , , एआईसी एम ) ) /m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
ब्योर्न

अर्थ है कई θ s तब तक ढूंढते रहें जब तक कि आपको एक ऐसा न मिल जाए जो प्रायिकता Pr ( D | θ ) को कम कर देता है । प्रत्येक θ मानकों का एक टपल / वेक्टर है कि हमारे मॉडल को परिभाषित करता है कि कोशिश करता डाटासेट समझाने के लिए है विकास । तो अनिवार्य रूप से यह कहते हैं: हम डाटासेट है डी , संभावना है कि यह एक मॉडल के आधार पर parametrized द्वारा उत्पन्न की गई है θ ? हमारा मॉडल एम अनिवार्य रूप से θ है जो इस अधिकतम समस्या को हल करता है। arg maxθPr(D|θ)θPr(D|θ)θDDθmθ
गुफावाला

3
क्षमा करें, लेकिन आप एक से अधिक मॉडल भर में देख रहे हैं (जब से तुम लिखने ), या आप अधिकतम संभावना सुविधा के बारे में बात कर रहे हैं θ : = आर्ग अधिकतम θ पी दिए गए मॉडल ( डी | θ ) ? यह भी ध्यान पी दिए गए मॉडल ( डी | θ ) दिए गए मॉडल के तहत और दिए गए मापदंडों, नहीं संभावना है कि डेटा कि मॉडल के आधार पर parameterized द्वारा उत्पन्न की गई के लिए उत्पन्न हो गई डेटा हेवन की संभावना है θm=θ^:=argmaxθPgiven model(D|θ)Pgiven model(D|θ)θ
ब्योर्न

MLE मेरा मतलब है। लेकिन मैं सिर्फ इतना कहना मापदंडों टपल कि कोशिश कर रहा हूँ इतना व्यापक है कि यह भी मॉडल को परिभाषित करता है। इसके अलावा, मेरे पास कई मॉडल हो सकते हैं, कह सकते हैं कि एम 1 , एम 2 प्रत्येक एक अलग एआईसी स्कोर एआईसी 1 , एआईसी 2 के साथ है । मैं सिर्फ इस अंकन को बना रहा हूं क्योंकि मुझे लगता है कि यह सरल है। क्या मैं बहुत गलत हूं, या अनावश्यक रूप से यह भ्रमित कर रहा हूं? (और MLE का मतलब मुझे सही करने के लिए धन्यवाद)θm1,m2AIC1,AIC2
caveman

3
उम्मीद केएल जानकारी नुकसान के लिए एक सन्निकटन के रूप में AIC की व्युत्पत्ति, Pawitan (2001) में दी गई है सभी संभावना में , Ch 13
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


13

गुहा का यह प्रश्न लोकप्रिय है, लेकिन मेरे विवादास्पद होने तक महीनों तक कोई जवाब देने का प्रयास नहीं किया गया था। यह हो सकता है कि नीचे दिया गया वास्तविक उत्तर, अपने आप में, विवादास्पद नहीं है, केवल यह कि प्रश्न "लोड" प्रश्न हैं, क्योंकि फ़ील्ड लगता है (मेरे लिए, कम से कम) एआईसी और बीआईसी के acolytes द्वारा आबादी होगी जो उपयोग नहीं करेंगे एक-दूसरे के तरीकों की तुलना में ओएलएस। कृपया सूचीबद्ध सभी मान्यताओं को देखें, और डेटा प्रकार और विश्लेषण के तरीकों पर लगाए गए प्रतिबंध, और कृपया उन पर टिप्पणी करें; इसे ठीक करें, योगदान करें। इस प्रकार अब तक कुछ बहुत ही स्मार्ट लोगों ने योगदान दिया है, इसलिए धीमी प्रगति की जा रही है। मैं रिचर्ड हार्डी और GeoMatt22 द्वारा योगदान को स्वीकार करता हूं, एंटोनी पारेलाडा के दयालु शब्द, और केगडस ओजेंक और बेन ओगोरक द्वारा वीरतापूर्ण प्रयास केएल विचलन को एक वास्तविक विचलन से संबंधित करने के लिए।

इससे पहले कि हम शुरू करें, हम यह समीक्षा करें कि AIC क्या है, और इसके लिए एक स्रोत AIC मॉडल की तुलना के लिए आवश्यक शर्तें हैं और दूसरा Rob J Hyndman का है । विशिष्ट रूप से, AIC के बराबर होने के लिए गणना की जाती है

2k2log(L(θ)),

जहां मॉडल और में पैरामीटर की संख्या है एल ( θ ) संभावना समारोह। AIC व्यापार बंद विचरण (के बीच तुलना 2 कश्मीर ) और पूर्वाग्रह ( 2 लॉग ( एल ( θ ) ) ) मान्यताओं मॉडलिंग से। से तथ्यों और AIC का भ्रम , बिंदु 3 "AIC मान नहीं है बच गाऊसी कर रहे हैं। यह सिर्फ इतना है कि गाऊसी संभावना सबसे अधिक बार किया जाता है। लेकिन आप कुछ अन्य वितरण उपयोग करना चाहते हैं, तो आगे बढ़ें।" एआईसी दंडित संभावना है, जो भी संभावना हैkL(θ)2k2log(L(θ))आप का उपयोग करने के लिए चुनते हैं। उदाहरण के लिए, छात्र के वितरित टी अवशिष्ट के लिए एआईसी को हल करने के लिए, हम छात्र के टी के लिए अधिकतम संभावना समाधान का उपयोग कर सकते हैं । आमतौर पर AIC के लिए लागू की जाने वाली लॉग-लाइबिलिटी , गाऊसी लॉग-लाइबिलिटी से ली गई है और इसके द्वारा दी गई है

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

K|D|μxK>>|D|>2 to insure asymptotic efficiency. A minimalist view might consider AIC to be just an "index," making K>|D| relevant and K>>|D| irrelevant. However, some attention has been given to this in the form of proposing an altered AIC for K not much larger than |D| called AICc see second paragraph of answer to Q2 below. This proliferation of "measures" only reinforces the notion that AIC is an index. However, caution is advised when using the "i" word as some AIC advocates equate use of the word "index" with the same fondness as might be attached to referring to their ontogeny as extramarital.

Q1: But a question is: why should we care about this specific fitness-simplicity trade-off?

Answer in two parts. First the specific question. You should only care because that was the way it was defined. If you prefer there is no reason not to define a CIC; a caveman information criterion, it will not be AIC, but CIC would produce the same answers as AIC, it does not effect the tradeoff between goodness-of-fit and positing simplicity. Any constant that could have been used as an AIC multiplier, including one times, would have to have been chosen and adhered to, as there is no reference standard to enforce an absolute scale. However, adhering to a standard definition is not arbitrary in the sense that there is room for one and only one definition, or "convention," for a quantity, like AIC, that is defined only on a relative scale. Also see AIC assumption #3, below.

The second answer to this question pertains to the specifics of AIC tradeoff between goodness-of-fit and positing simplicity irrespective of how its constant multiplier would have been chosen. That is, what actually effects the "tradeoff"? One of the things that effects this, is to degree of freedom readjust for the number of parameters in a model, this led to defining an "new" AIC called AICc as follows:

AICc=AIC+2k(k+1)nk1=2knnk12ln(L),

where n is the sample size. Since the weighting is now slightly different when comparing models having different numbers of parameters, AICc selects models differently than AIC itself, and identically as AIC when the two models are different but have the same number of parameters. Other methods will also select models differently, for example, "The BIC [sic, Bayesian information criterion] generally penalizes free parameters more strongly than the Akaike information criterion, though it depends..." ANOVA would also penalize supernumerary parameters using partial probabilities of the indispensability of parameter values differently, and in some circumstances would be preferable to AIC use. In general, any method of assessment of appropriateness of a model will have its advantages and disadvantages. My advice would be to test the performance of any model selection method for its application to the data regression methodology more vigorously than testing the models themselves. Any reason to doubt? Yup, care should be taken when constructing or selecting any model test to select methods that are methodologically appropriate. AIC is useful for a subset of model evaluations, for that see Q3, next. For example, extracting information with model A may be best performed with regression method 1, and for model B with regression method 2, where model B and method 2 sometimes yields non-physical answers, and where neither regression method is MLR, where the residuals are a multi-period waveform with two distinct frequencies for either model and the reviewer asks "Why don't you calculate AIC?"

Q3 How does this relate to information theory:

MLR assumption #1. AIC is predicated upon the assumptions of maximum likelihood (MLR) applicability to a regression problem. There is only one circumstance in which ordinary least squares regression and maximum likelihood regression have been pointed out to me as being the same. That would be when the residuals from ordinary least squares (OLS) linear regression are normally distributed, and MLR has a Gaussian loss function. In other cases of OLS linear regression, for nonlinear OLS regression, and non-Gaussian loss functions, MLR and OLS may differ. There are many other regression targets than OLS or MLR or even goodness of fit and frequently a good answer has little to do with either, e.g., for most inverse problems. There are highly cited attempts (e.g., 1100 times) to use generalize AIC for quasi-likelihood so that the dependence on maximum likelihood regression is relaxed to admit more general loss functions. Moreover, MLR for Student's-t, although not in closed form, is robustly convergent. Since Student-t residual distributions are both more common and more general than, as well as inclusive of, Gaussian conditions, I see no special reason to use the Gaussian assumption for AIC.

MLR assumption #2. MLR is an attempt to quantify goodness of fit. It is sometimes applied when it is not appropriate. For example, for trimmed range data, when the model used is not trimmed. Goodness-of-fit is all fine and good if we have complete information coverage. In time series, we do not usually have fast enough information to understand fully what physical events transpire initially or our models may not be complete enough to examine very early data. Even more troubling is that one often cannot test goodness-of-fit at very late times, for lack of data. Thus, goodness-of-fit may only be modelling 30% of the area fit under the curve, and in that case, we are judging an extrapolated model on the basis of where the data is, and we are not examining what that means. In order to extrapolate, we need to look not only at the goodness of fit of 'amounts' but also the derivatives of those amounts failing which we have no "goodness" of extrapolation. Thus, fit techniques like B-splines find use because they can more smoothly predict what the data is when the derivatives are fit, or alternatively inverse problem treatments, e.g., ill-posed integral treatment over the whole model range, like error propagation adaptive Tikhonov regularization.

Another complicated concern, the data can tell us what we should be doing with it. What we need for goodness-of-fit (when appropriate), is to have the residuals that are distances in the sense that a standard deviation is a distance. That is, goodness-of-fit would not make much sense if a residual that is twice as long as a single standard deviation were not also of length two standard deviations. Selection of data transforms should be investigated prior to applying any model selection/regression method. If the data has proportional type error, typically taking the logarithm before selecting a regression is not inappropriate, as it then transforms standard deviations into distances. Alternatively, we can alter the norm to be minimized to accommodate fitting proportional data. The same would apply for Poisson error structure, we can either take the square root of the data to normalize the error, or alter our norm for fitting. There are problems that are much more complicated or even intractable if we cannot alter the norm for fitting, e.g., Poisson counting statistics from nuclear decay when the radionuclide decay introduces an exponential time-based association between the counting data and the actual mass that would have been emanating those counts had there been no decay. Why? If we decay back-correct the count rates, we no longer have Poisson statistics, and residuals (or errors) from the square-root of corrected counts are no longer distances. If we then want to perform a goodness-of-fit test of decay corrected data (e.g., AIC), we would have to do it in some way that is unknown to my humble self. Open question to the readership, if we insist on using MLR, can we alter its norm to account for the error type of the data (desirable), or must we always transform the data to allow MLR usage (not as useful)? Note, AIC does not compare regression methods for a single model, it compares different models for the same regression method.

AIC assumption #1. It would seem that MLR is not restricted to normal residuals, for example, see this question about MLR and Student's-t. Next, let us assume that MLR is appropriate to our problem so that we track its use for comparing AIC values in theory. Next we assume that have 1) complete information, 2) the same type of distribution of residuals (e.g., both normal, both Student's-t) for at least 2 models. That is, we have an accident that two models should now have the type of distribution of residuals. Could that happen? Yes, probably, but certainly not always.

AIC assumption #2. AIC relates the negative logarithm of the quantity (number of parameters in the model divided by the Kullback-Leibler divergence). Is this assumption necessary? In the general loss functions paper a different "divergence" is used. This leads us to question if that other measure is more general than K-L divergence, why are we not using it for AIC as well?

The mismatched information for AIC from Kullback-Leibler divergence is "Although ... often intuited as a way of measuring the distance between probability distributions, the Kullback–Leibler divergence is not a true metric." We shall see why shortly.

The K-L argument gets to the point where the difference between two things the model (P) and the data (Q) are

डीकश्मीरएल(पीक्यू)=एक्सलॉग(पीक्यू)पीक्यूक्यू,

जिसे हम '' क्यू '' के सापेक्ष '' पी '' की एन्ट्रापी के रूप में पहचानते हैं।

AIC धारणा # 3। कुल्लबैक-लिबलर विचलन से जुड़े अधिकांश सूत्र, लघुगणक के आधार की परवाह किए बिना हैं। यदि AIC उस समय एक से अधिक डेटा सेट कर रहा था, तो लगातार गुणक का अधिक अर्थ हो सकता है। जब यह तरीकों की तुलना करते समय खड़ा होता है, यदिमैंसीटी,मीटरएल1<मैंसीटी,मीटरएल2 फिर किसी भी सकारात्मक संख्या बार जो अभी भी होगी <। चूंकि यह मनमाना है, इसलिए परिभाषा के मामले में एक विशिष्ट मूल्य के लिए स्थिरांक को स्थापित करना भी अनुचित नहीं है।

AIC धारणा # 4। वह यह होगा कि एआईसी शैनन एंट्रॉपी या सेल्फ इंफॉर्मेशन को मापता है । "हमें जो जानने की जरूरत है वह यह है" क्या एंट्रॉपी है जो हमें सूचना के मीट्रिक के लिए चाहिए? "

यह समझने के लिए कि "स्व-सूचना" क्या है, यह हमें भौतिक संदर्भ में जानकारी को सामान्य करने के लिए प्रेरित करता है, कोई भी करेगा। हाँ, मुझे जानकारी है कि भौतिक हैं गुणों का एक माप चाहते हैं। तो यह अधिक सामान्य संदर्भ में कैसा दिखेगा?

गिब्स मुक्त-ऊर्जा समीकरण (Δजी=Δएच-टीΔएस) एनर्जी में परिवर्तन से संबंधित है थैलीपीस में परिवर्तन निरपेक्ष तापमान बार एन्ट्रापी में परिवर्तन होता है। तापमान सामान्यीकृत सूचना सामग्री के एक सफल प्रकार का एक उदाहरण है, क्योंकि यदि एक गर्म और एक ठंडी ईंट को एक थर्मामीटर के बंद वातावरण में एक दूसरे के संपर्क में रखा जाता है, तो उनके बीच गर्मी का प्रवाह होगा। अब, अगर हम इस पर बहुत अधिक सोच-विचार किए बिना कूदते हैं, तो हम कहते हैं कि गर्मी की जानकारी है। लेकिन क्या यह सापेक्ष जानकारी है जो एक प्रणाली के व्यवहार की भविष्यवाणी करती है। जब तक संतुलन नहीं हो जाता तब तक सूचना प्रवाहित होती है, लेकिन संतुलन क्या है? तापमान, यह वह है, जो कुछ कण द्रव्यमानों के कण वेग के रूप में गर्मी नहीं करता है, मैं आणविक तापमान के बारे में बात नहीं कर रहा हूं, मैं दो ईंटों के सकल तापमान के बारे में बात कर रहा हूं जिसमें विभिन्न द्रव्यमान हो सकते हैं, विभिन्न सामग्रियों से बने, विभिन्न घनत्व हो सकते हैं, आदि। और उनमें से कोई भी मुझे जानना नहीं है, मुझे केवल यह जानना है कि सकल तापमान क्या है जो संतुलन है। इस प्रकार यदि एक ईंट अधिक गर्म होती है, तो इसमें अधिक सापेक्ष जानकारी होती है, और जब ठंडा होता है, तो कम।

अब, अगर मुझे बताया जाए कि एक ईंट में दूसरे की तुलना में अधिक एन्ट्रापी है, तो क्या? वह खुद से यह अनुमान नहीं लगाएगा कि किसी अन्य ईंट के संपर्क में आने पर उसे फायदा होगा या नहीं। तो, एन्ट्रापी अकेले सूचना का एक उपयोगी उपाय है? हां, लेकिन केवल अगर हम एक ही ईंट की तुलना इस प्रकार कर रहे हैं तो यह शब्द "आत्म-सूचना" है।

इससे अंतिम प्रतिबंध आता है: केएल विचलन का उपयोग करने के लिए सभी ईंटें समान होनी चाहिए। इस प्रकार, जो एआईसी को एक असामान्य सूचकांक बनाता है वह यह है कि यह डेटा सेट (जैसे, विभिन्न ईंटों) के बीच पोर्टेबल नहीं है, जो कि विशेष रूप से वांछनीय संपत्ति नहीं है जिसे सूचना सामग्री को सामान्य करके संबोधित किया जा सकता है। क्या केएल डाइवर्जेंस रैखिक है? शायद हां, शायद नहीं। हालांकि, इससे कोई फर्क नहीं पड़ता है, हमें एआईसी का उपयोग करने के लिए रैखिकता मानने की आवश्यकता नहीं है, और, उदाहरण के लिए, एन्ट्रापी ही मुझे नहीं लगता कि रैखिक तापमान से संबंधित है। दूसरे शब्दों में, हमें एन्ट्रापी गणनाओं का उपयोग करने के लिए एक रैखिक मीट्रिक की आवश्यकता नहीं है।

एआईसी पर जानकारी का एक अच्छा स्रोत इस थीसिस में है । निराशावादी पक्ष में यह कहा गया है, "अपने आप में, किसी दिए गए डेटा सेट के लिए एआईसी के मूल्य का कोई मतलब नहीं है।" आशावादी पक्ष पर यह कहता है, कि जिन मॉडल के पास परिणाम होते हैं उन्हें आत्मविश्वास अंतराल स्थापित करने के लिए चौरसाई द्वारा विभेदित किया जा सकता है, और बहुत कुछ।


1
क्या आप नए उत्तर और पुराने हटाए गए उत्तर के बीच मुख्य अंतर का संकेत दे सकते हैं? ऐसा लगता है कि कुछ ओवरलैप हैं।
रिचर्ड हार्डी

2
I was in the middle of editing my answer for some hours when it was deleted. There were a lot of changes compared to when I started as it was a work in-progress, took a lot of reading and thinking, and my colleagues on this site do not seem to care for it, but are not helping answer anything. AIC it seems is too good for critical review, how dare I? I completed my edit and re-posted it. I want to know what is incorrect about my answer. I worked hard on it, and have tried to be truthful, and, no-one else has bothered.
कार्ल

4
परेशान मत हो। यहां मेरा पहला अनुभव भी निराशाजनक था, लेकिन बाद में मैंने उचित तरीके से प्रश्न पूछना सीख लिया। एक तटस्थ स्वर रखना और मजबूत राय से बचना जो कठिन तथ्यों पर आधारित नहीं हैं, एक अच्छा पहला कदम होगा, आईएमएचओ। (मैंने आपके प्रश्न को, वैसे, लेकिन उत्तर के बारे में अभी भी संकोच किया है।)
रिचर्ड हार्डी

3
+1 आपकी प्रस्तावना के लिए। अब मैं जवाब पढ़ता रहूंगा।
एंटोनी परेलाडा

2
@AntoniParellada आपने प्रश्न को हटाए जाने से बस मदद की है, जिसकी मैं सराहना करता हूं। एआईसी के माध्यम से काम करना मुश्किल हो गया है, और मुझे इसके साथ मदद की आवश्यकता है। यकीन है कि मेरी कुछ अंतर्दृष्टि अच्छी हैं, लेकिन मुझे मुंह की बीमारी भी है, जो कि आई की तुलना में पकड़ने में बेहतर है।
कार्ल

5

AIC सही वितरण के बीच उम्मीद कुल्लबैक-लीब्लर विचलन के लिए दो बार मॉडल-संचालित एडिटिव शब्द का अनुमान है। और अनुमानित पैरामीट्रिक मॉडल जी

केएल विचलन सूचना सिद्धांत में एक विषय है और दो संभावना वितरणों के बीच की दूरी के माप के रूप में (हालांकि कठोरता से नहीं) सहज रूप से काम करता है। नीचे मेरे स्पष्टीकरण में, मैं इन स्लाइड्स को शुहुआ हू से संदर्भित कर रहा हूं । इस उत्तर को अभी भी "महत्वपूर्ण परिणाम" के लिए उद्धरण की आवश्यकता है।

केएल विचलन सच मॉडल के बीच और अनुमानित मॉडल जीθ है

(,जीθ)=(एक्स)लॉग((एक्स))एक्स-(एक्स)लॉग(जीθ(एक्स))एक्स

चूंकि सत्य अज्ञात है, डेटा y से उत्पन्न होता है और अधिकतम संभावना अनुमान लगाने वाला अनुमान लगाता है θ^(y)। की जगहθ साथ में θ^(y)उपरोक्त समीकरणों का अर्थ है कि केएल विचलन सूत्र और साथ ही केएल विचलन सूत्र में दूसरा शब्द अब यादृच्छिक चर हैं। स्लाइड्स में "मुख्य परिणाम" यह है कि सम्मान के साथ दूसरे योगात्मक शब्द का औसतy अनुमान समारोह के एक साधारण कार्य द्वारा अनुमान लगाया जा सकता है एल (MLE में मूल्यांकन किया गया), और कश्मीरके आयाम θ:

-y[(एक्स)लॉग(जीθ^(y)(एक्स))एक्स]-लॉग(एल(θ^(y)))+कश्मीर

AIC को उपरोक्त दो बार (HT @Carl) अपेक्षा के रूप में परिभाषित किया गया है, और छोटे (अधिक नकारात्मक) मान सही वितरण के बीच एक छोटे अनुमानित KL divergences के अनुरूप हैं। और मॉडलिंग वितरण जीθ^(y)


As you know, the term deviance when applied to log-likelihood is jargon and inexact. I omitted discussion of this because only monotonicity is required for AIC differences to have comparative worth not linearity. So, I fail to see the relevance of trying overly hard to "visualize" something that likely is not there, and not needed anyway.
कार्ल

2
I see your point that the last paragraph adds a red herring, and I realize that nobody needs to be convinced that 2 * x ranks the same as x. Would if be fair to say that the quantity is multiplied by 2 "by convention"?
Ben Ogorek

2
Something like that. Personally, I would vote for "is defined as," because it was initially chosen that way. Or to put this in temporal perspective, any constant that could have been used, including one times, would have to have been chosen and adhered to, as there is no reference standard to enforce a scale.
कार्ल

4

आपके पहले दो प्रश्नों के लिए एक सरल दृष्टिकोण यह है कि एआईसी अधिकतम संभावना मॉडल की अपेक्षित आउट-ऑफ-सैंपल त्रुटि दर से संबंधित है। एआईसी मानदंड संबंध पर आधारित है (सांख्यिकीय शिक्षण समीकरण 7.27 के तत्व)

-2[lnपीआर(डी|θ)]-2एन[lnएलमीटर,डी]+2कश्मीरमीटरएन=1एन[मैंसीमीटर,डी]
जहां, आपकी संकल्‍पना के बाद, कश्मीरमीटर मॉडल में मापदंडों की संख्या है मीटर जिसका अधिकतम संभावना मूल्य है एलमीटर,डी

बाईं ओर का शब्द अधिकतम संभावना मॉडल की अपेक्षित आउट-ऑफ-सैंपल "त्रुटि" दर है मीटर={θ}, त्रुटि मीट्रिक के रूप में प्रायिकता के लॉग का उपयोग करते हुए। -2 कारक विचलन का निर्माण करने के लिए उपयोग किया जाने वाला पारंपरिक सुधार है (उपयोगी है क्योंकि कुछ स्थितियों में यह ची-स्क्वायर वितरण के बाद आता है)।

दाएं हाथ में अधिकतम लॉग-लाइबिलिटी, प्लस शब्द से अनुमानित "त्रुटि" दर शामिल है 2कश्मीरमीटर/एन अधिकतम-लॉग-लाइबिलिटी के आशावाद के लिए सही, जिसमें डेटा को कुछ हद तक ओवरफिट करने की स्वतंत्रता है।

इस प्रकार, एआईसी आउट-ऑफ-सैंपल "त्रुटि" दर (विचलन) समय का अनुमान है एन

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.