MaxEnt, ML, Bayes और अन्य प्रकार के सांख्यिकीय अनुमान विधियों के बीच तुलना


21

मैं किसी भी तरह से एक सांख्यिकीविद् नहीं हूँ (मैंने गणितीय आँकड़ों में एक कोर्स किया है, लेकिन इससे अधिक कुछ भी नहीं है), और हाल ही में, सूचना सिद्धांत और सांख्यिकीय यांत्रिकी का अध्ययन करते हुए, मैं "अनिश्चितता माप" / "एन्ट्रॉपी" नामक इस चीज से मिला। मैंने खिनचिन की व्युत्पत्ति को अनिश्चितता के एक उपाय के रूप में पढ़ा और इससे मुझे समझ में आया। एक और बात जो समझ में आई, वह थी मैक्सिमेंट का विवरण जेनेट का विवरण प्राप्त करने के लिए जब आप नमूने पर एक या एक से अधिक फ़ंक्शन / अंक के अंकगणितीय माध्य को जानते हैं (यह मानते हुए कि आप स्वीकार करते हैं रूप से अनिश्चितता का एक उपाय है)। pilnpi

इसलिए मैंने सांख्यिकीय निष्कर्ष के अन्य तरीकों के साथ संबंध खोजने के लिए नेट पर खोज की, और भगवान मैं भ्रमित था। उदाहरण के लिए इस पत्र का सुझाव है, यह मानते हुए कि मुझे यह सही लगा, कि आपको समस्या के उपयुक्त सुधार के तहत सिर्फ एक एमएल अनुमानक मिलेगा; मैकके ने अपनी पुस्तक में कहा है कि मैक्सईनट आपको अजीब चीजें दे सकता है, और आपको बायेसियन अनुमान में शुरुआती अनुमान के लिए भी इसका उपयोग नहीं करना चाहिए; आदि .. मुझे तुलना करने में परेशानी हो रही है।

मेरा प्रश्न यह है कि क्या आप अन्य तरीकों से मात्रात्मक तुलना के साथ एक सांख्यिकीय निष्कर्ष के रूप में MaxEnt के कमजोर और मजबूत बिंदुओं का स्पष्टीकरण और / या अच्छा प्रतिबिंब प्रदान कर सकते हैं (जब उदाहरण के लिए खिलौना मॉडल पर लागू किया जाता है)?

जवाबों:


19

MaxEnt और Bayesian inference तरीके आपके मॉडलिंग प्रक्रिया में जानकारी को शामिल करने के विभिन्न तरीकों के अनुरूप हैं। दोनों को स्वयंसिद्ध जमीन (जॉन स्किलिंग के "एक्सीओम्स ऑफ मैक्सिमम एंट्रॉपी" और कॉक्स के "एलेब्रा ऑफ प्रोबेबल इन्फ्रेंस" ) पर रखा जा सकता है ।

यदि आपका पूर्व ज्ञान आपके परिकल्पना स्थान पर एक औसत दर्जे के वास्तविक-मूल्यवान फ़ंक्शन के रूप में आता है, तो बायेसियन दृष्टिकोण सीधा है, इसलिए "पूर्व" कहा जाता है। जब सूचना आपकी परिकल्पना के स्थान पर कठोर बाधाओं के एक सेट के रूप में आती है, तो MaxEnt सीधा है। वास्तविक जीवन में, ज्ञान न तो "पूर्व" रूप में और न ही "बाधा" रूप में आता है, इसलिए आपकी विधि की सफलता आपके ज्ञान को इसी रूप में प्रस्तुत करने की आपकी क्षमता पर निर्भर करती है।

एक खिलौना समस्या पर, बायेसियन मॉडल औसत आपको सबसे कम औसत लॉग-लॉस देगा (कई मॉडल ड्रॉ पर औसतन) जब पूर्व परिकल्पना का सही वितरण मेल खाता है। जब अधिकतम बाधाएँ संतुष्ट हो जाती हैं, तो मैक्सइंट अप्रोच आपको सबसे खराब स्थिति वाला लॉग-लॉस देगा (सबसे खराब संभव सभी पुजारियों पर

ETJaynes, जिसे "MaxEnt" विधियों का जनक माना जाता है, वह भी बायेसियन विधियों पर निर्भर थे। अपनी पुस्तक के पृष्ठ 1412 पर , वह एक उदाहरण देता है जहां बेयसियन दृष्टिकोण एक अच्छा समाधान हुआ, इसके बाद एक उदाहरण जहां मैक्सेंट दृष्टिकोण अधिक प्राकृतिक है।

अधिकतम संभावना अनिवार्य रूप से मॉडल को कुछ पूर्व-निर्धारित मॉडल स्थान के अंदर झूठ बोलने के लिए ले जाती है और इसे "जितना संभव हो उतना मुश्किल" फिट करने की कोशिश कर रही है, यह इस तरह के मॉडल के लिए प्रतिबंधित सभी मॉडल-चुनने के तरीकों से डेटा के लिए उच्चतम संवेदनशीलता होगी। अंतरिक्ष। जबकि MaxEnt और Bayesian चौखटे हैं, ML एक ठोस मॉडल फिटिंग विधि है, और कुछ विशेष डिज़ाइन विकल्पों के लिए, ML Bayesian या MaxEnt दृष्टिकोण से आने वाली विधि को समाप्त कर सकता है। उदाहरण के लिए, समानता बाधाओं के साथ MaxEnt एक निश्चित घातीय परिवार की अधिकतम संभावना फिटिंग के बराबर है। इसी तरह, बेइज़ियन इन्वेंशन का एक अनुमान नियमित रूप से अधिकतम संभावना समाधान को जन्म दे सकता है। यदि आप अपने निष्कर्षों को अधिकतम डेटा के प्रति संवेदनशील बनाने के लिए चुनते हैं, तो Bayesian inference का परिणाम अधिकतम लाइकिटेटरी फिटिंग के अनुरूप होगा। उदाहरण के लिए,p over Bernoulli trials, such prior would be the limiting distribution Beta(0,0)

Real-life Machine Learning successes are often a mix of various philosophies. For instance, "Random Fields" were derived from MaxEnt principles. Most popular implementation of the idea, regularized CRF, involves adding a "prior" on the parameters. As a result, the method is not really MaxEnt nor Bayesian, but influenced by both schools of thought.

I've collected some links on philosophical foundations of Bayesian and MaxEnt approaches here and here.

Note on terminology: sometimes people call their method Bayesian simply if it uses Bayes rule at some point. Likewise, "MaxEnt" is sometimes used for some method that favors high entropy solutions. This is not the same as "MaxEnt inference" or "Bayesian inference" as described above


1
Thanks. I didn't think that "The logic of science" talked about this stuff too, i'm definitely going to read that book.
Francesco

19

For an entertaining critique of maximum entropy methods, I'd recommend reading some old newsgroup posts on sci.stat.math and sci.stat.consult, particularly the ones by Radford Neal:

I'm not aware of any comparisons between maxent and other methods: part of the problem seems to be that maxent is not really a framework, but an ambiguous directive ("when faced with an unknown, simply maximise the entropy"), which is interpreted in different ways by different people.


4
(+1) That 2002 thread is a hell of an exchange of ideas.
whuber

1
Note that the "wallis derivation" of maxent given by Edwin Jaynes in Probability Theory: The Logic of Science does give an "experimental" rationale for maximising entropy. In discrete distributions, if we start from principle of indifference (PID), and then basically perform rejection sampling on the probabilities, using the constraints to accept or reject the random uniform samples. The resulting probability is then arbitrarily close to the (discrete) maxent distribution.
probabilityislogic

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.