अनुमान बनाम अनुमान?


30

मशीन लर्निंग के संदर्भ में "अनुमान" और "अनुमान" के बीच अंतर क्या हैं ?

नौसिखिया के रूप में, मुझे लगता है कि हम यादृच्छिक चर का अनुमान लगाते हैं और मॉडल मापदंडों का अनुमान लगाते हैं । क्या मेरी यह समझ सही है?

यदि नहीं, तो वास्तव में क्या अंतर हैं, और मुझे कब उपयोग करना चाहिए?

इसके अलावा, कौन सा "सीखना" का पर्याय है?


मुझे यह जवाब Quora पर मिला , और मुझे इसकी शुद्धता के बारे में निश्चित नहीं है।
सिब्ब्स जुआ

4
मशीन लर्निंग सिर्फ स्वचालित आँकड़े (मेरी राय में) है, इसलिए मुझे यकीन नहीं है कि परिभाषाएँ आम तौर पर आँकड़ों में अलग-अलग
होंगी

5
विहित सांख्यिकीय साहित्य प्रकल्पित अंतर्निहित मॉडल (एक निर्णय-सिद्धांत ढांचे में) के गुणों का उल्लेख करने और यादृच्छिक चर के मूल्यों की भविष्यवाणी करने के बीच एक स्पष्ट और सुसंगत अंतर बनाता है । अनुमान एक विशेष प्रकार का अनुमान है। ये अन्वेषण और, कुछ हद तक, परिकल्पना परीक्षण के विपरीत हो सकते हैं। "जानें," एक सकर्मक क्रिया के रूप में, एक मानक सांख्यिकीय अर्थ नहीं है।
whuber

@whuber, एक मूर्खतापूर्ण सुझाव - इसे एक उत्तर दें? ..
StasK

2
@StasK यह होगा - सिवाय इसके कि यह सवाल को संबोधित नहीं करता है, जो आंकड़ों के बजाय मशीन सीखने के बारे में पूछता है । मैंने उस टिप्पणी की पेशकश की जिसमें थोड़ी सी पृष्ठभूमि प्रदान करने की कोशिश की गई थी, जिसमें से एमएल के जवाबों को समझना और उनका मूल्यांकन करना था, खासकर जब से उन उत्तरों में से कुछ अनुमान, अनुमान और भविष्यवाणी के बीच गैर-मानक अंतर प्रतीत होते हैं।
whuber

जवाबों:


30

सांख्यिकीय निष्कर्ष निष्कर्ष के पूरे संग्रह से बना है जो किसी दिए गए डेटासेट और एक संबंधित काल्पनिक मॉडल से आकर्षित हो सकता है, जिसमें उक्त मॉडल के फिट भी शामिल है। विकिपीडिया से उद्धृत करने के लिए ,

अनुमान, ज्ञात या मान्य होने के आधार पर तार्किक निष्कर्ष निकालने की क्रिया या प्रक्रिया है।

तथा,

सांख्यिकीय निष्कर्ष, अनिश्चितता की उपस्थिति में निष्कर्ष निकालने के लिए गणित का उपयोग करता है।

अनुमान, लेकिन अनुमान का एक पहलू है जहां एक डेटा के आधार पर इष्टतम समाधानों (और संभवतः उन मापदंडों के बारे में पूर्व सूचना) के साथ अज्ञात पैरामीटर (एक काल्पनिक मॉडल से जुड़ा है जो डेटा उत्पन्न करता है) को प्रतिस्थापित करता है। यह हमेशा रिपोर्ट किए गए अनुमानों की अनिश्चितता के मूल्यांकन से जुड़ा होना चाहिए, मूल्यांकन जो अनुमान का एक अभिन्न अंग है।

अधिकतम संभावना अनुमान का एक उदाहरण है, लेकिन यह पूरे अनुमान को कवर नहीं करता है। इसके विपरीत, बायेसियन विश्लेषण एक पूर्ण इंजेक्शन मशीन प्रदान करता है।


4
+1 विशेष रूप से "यह हमेशा रिपोर्ट किए गए अनुमानों की अनिश्चितता के मूल्यांकन से जुड़ा होना चाहिए" जो कि मशीन लर्निंग और "डेटा साइंस" में नहीं किया गया है। बस एक ज्ञात डेटा सेट के खिलाफ बेंचमार्किंग नहीं है।
मोमो

4

जबकि प्रति से अनुमान अज्ञात मापदंडों (जैसे, लॉजिस्टिक रिग्रेशन में गुणांक, या समर्थन वेक्टर मशीनों में हाइपरप्लेन को अलग करने) के मूल्यों के साथ आने के उद्देश्य से है, सांख्यिकीय अनुमान में अनिश्चितता और / या प्रायिकता कथन का एक उपाय संलग्न करने का प्रयास किया गया है। मानों के मान (मानक त्रुटियां और विश्वास अंतराल)। यदि वह मॉडल जो सांख्यिकीविद् मानता है, लगभग सही है, तो बशर्ते कि नया आने वाला डेटा उस मॉडल के अनुरूप हो, अनिश्चितता के बयानों में कुछ सच्चाई हो सकती है, और इस बात का एक उपाय प्रदान करें कि आप कितनी बार गलतियों का उपयोग करेंगे। अपने निर्णय लेने के लिए मॉडल।

μσ2μσ2/n

मशीन से जो निकटतम सीखने की सुविधा मिलती है, वह क्रॉस-वैरिफिकेशन होती है, जब नमूना प्रशिक्षण और सत्यापन भागों में विभाजित हो जाता है, बाद में प्रभावी रूप से कहता है, "यदि नया डेटा पुराने डेटा जैसा दिखता है, लेकिन डेटा से पूरी तरह से संबंधित नहीं है जो मेरे मॉडल को स्थापित करने में उपयोग किया गया था, फिर त्रुटि दर का एक यथार्थवादी माप ऐसा है और "। यह आंकड़ों पर एक ही मॉडल को चलाने के द्वारा पूरी तरह से अनुभवजन्य रूप से प्राप्त होता है, न कि सांख्यिकीय मान्यताओं को बनाकर और उपरोक्त CLT जैसे किसी भी गणितीय परिणामों को शामिल करके मॉडल के गुणों का अनुमान लगाने की कोशिश करता है। यकीनन, यह अधिक ईमानदार है, लेकिन जैसा कि यह कम जानकारी का उपयोग करता है, और इसलिए बड़े नमूना आकार की आवश्यकता होती है। इसके अलावा, यह स्पष्ट रूप से मानता है कि प्रक्रिया में परिवर्तन नहीं होता है,

हालांकि वाक्यांश "पश्चाताप का अनुमान लगाना" समझ में आ रहा है (मैं बायेसियन नहीं हूं, मैं वास्तव में स्वीकार की गई शब्दावली नहीं बता सकता), मुझे नहीं लगता कि उस हीनतापूर्ण कदम में कोई धारणा बनाने में बहुत कुछ शामिल है। सभी बायेसियन धारणाएँ पूर्व मॉडल में (1) हैं और अनुमानित मॉडल में (2), और एक बार वे सेट हो जाने के बाद, पीछे अपने आप हो जाती हैं (कम से कम बायेस प्रमेय के माध्यम से सिद्धांत में; व्यावहारिक कदम हेलुवेल्लेव जटिल हो सकते हैं, और) Sipps जुआ ... मुझे माफ करना, गिब्स नमूना उस पोस्टीरियर के लिए एक अपेक्षाकृत आसान घटक हो सकता है)। यदि "पश्च को संदर्भित करता है" (1) + (2) को संदर्भित करता है, तो यह मेरे लिए सांख्यिकीय निष्कर्ष का एक स्वाद है। यदि (1) और (2) अलग-अलग बताए गए हैं, और फिर "पश्चाताप का वर्णन" कुछ और है, तो मैं डॉन '


2

मान लीजिए कि आपके पास जनसंख्या का प्रतिनिधि नमूना है।

जब आप एक मॉडल और राज्य का अनुमान लगाने के लिए उस नमूने का उपयोग करते हैं, तो परिणाम एक निश्चित सटीकता के साथ पूरी आबादी तक बढ़ाए जा सकते हैं। अनुमान लगाने के लिए केवल प्रतिनिधि नमूने का उपयोग करके आबादी पर धारणा बनाना है।

अनुमान तब होता है जब आप अपने डेटा नमूने को फिट करने के लिए एक मॉडल चुनते हैं और एक निश्चित सटीकता के साथ गणना करते हैं जो मॉडल के पैरामीटर है। इसे अनुमान कहा जाता है क्योंकि आप कभी भी मापदंडों के सही मूल्यों की गणना करने में सक्षम नहीं होंगे क्योंकि आपके पास केवल डेटा नमूना है, न कि पूरी आबादी।


"अनुमान तब है जब आप किसी मॉडल का अनुमान लगाने के लिए एक नमूने का उपयोग करते हैं" (और इस तरह इसके मापदंडों का अनुमान लगाने के लिए)। "अनुमान तब है जब आप गणना करते हैं ... मॉडल के पैरामीटर"। क्या आपको कोई अंतर दिखाई देता है?
दोपहर

2

यह आंकड़ों में पृष्ठभूमि के बिना किसी के लिए भी जवाब देने का एक प्रयास है। जो लोग अधिक विवरण में रुचि रखते हैं, उनके लिए विषय पर कई उपयोगी संदर्भ ( जैसे कि यह एक उदाहरण के लिए ) हैं।

संक्षिप्त जवाब:

>

>

लंबा जवाब:

"अनुमान" शब्द का उपयोग अक्सर एक अज्ञात मूल्य के लिए अनुमान लगाने की प्रक्रिया का वर्णन करने के लिए किया जाता है, जबकि "अनुमान" अक्सर सांख्यिकीय अनुमान को संदर्भित करता है, यादृच्छिक चर के वितरण (या विशेषताओं) की खोज करने और निष्कर्ष निकालने के लिए उनका उपयोग करने की प्रक्रिया।

इस प्रश्न का उत्तर देने के बारे में सोचें: मेरे देश में औसत व्यक्ति कितना लंबा है?

यदि आप एक अनुमान लगाने का निर्णय लेते हैं, तो आप कुछ दिनों तक घूम सकते हैं और सड़क पर मिलने वाले अजनबियों को माप सकते हैं (एक नमूना बना सकते हैं) और फिर अपने नमूने के औसत के रूप में उदाहरण के लिए अपने अनुमान की गणना करें। आपने अभी कुछ अनुमान लगाया है!

दूसरी ओर, आप कुछ अनुमान से अधिक ढूंढना चाहते हैं, जो आप जानते हैं कि एक एकल संख्या है और गलत होने के लिए बाध्य है। आप एक निश्चित आत्मविश्वास के साथ प्रश्न का उत्तर दे सकते हैं, जैसे: मैं 99% निश्चित हूं कि मेरे देश में एक व्यक्ति की औसत ऊंचाई 1.60 मीटर और 1.90 मीटर के बीच है।

इस तरह का दावा करने के लिए आपको उन लोगों की ऊंचाई के वितरण का अनुमान लगाने की आवश्यकता होगी जो आप से मिल रहे हैं और इस ज्ञान के आधार पर अपने निष्कर्ष बनाते हैं - जो सांख्यिकीय अनुमान का आधार है।

ध्यान रखने योग्य महत्वपूर्ण बात (जैसा कि शीआन के जवाब में बताया गया है) यह है कि एक अनुमान लगाने वाला सांख्यिकीय अनुमान का हिस्सा है।


1
"अगला यादृच्छिक व्यक्ति कितना लंबा होगा" अनुमान के बजाय सांख्यिकीय भविष्यवाणी का सवाल है । "सभी लोगों के मध्य 95% की सीमा क्या है" एक (अंतराल) अनुमान है। यद्यपि दो प्रश्न (और समाधान के तरीके) निकट से संबंधित और ध्वनि समान हैं, वे कुछ महत्वपूर्ण तरीकों से भिन्न हैं - और अलग-अलग उत्तर भी दिए गए हैं। पहले प्रश्न में अगले व्यक्ति की यादृच्छिकता से अंतर उत्पन्न होता है , जो दूसरे प्रश्न में मौजूद नहीं है।
whuber

मैं मानता हूं कि उदाहरण आदर्श नहीं हैं। प्रश्न की प्रकृति को देखते हुए, मैं उदाहरण देने की कोशिश कर रहा था कि एक गैर-सांख्यिकीविद् बहुत परिचित होगा। "अनुमान" के लिए मेरा सबसे सीधा जवाब यह होगा कि इसमें एक सांख्यिकीय मॉडल के मापदंडों को शामिल करना शामिल है, लेकिन फिर मैं "फिटिंग" और "सांख्यिकीय मॉडल" शब्दों को पेश करूंगा, जिसमें दोनों को स्पष्टीकरण की आवश्यकता होगी। दिन के अंत में, जबकि उदाहरण में वर्णित एक भविष्यवाणी आगे देख रही है, मैं अभी भी इसे (बिंदु) अनुमान मानूंगा।
मतलब-टू-अर्थ

एक भविष्यवाणी नहीं करने के लिए उदाहरण को बदल दिया।
मतलब-टू-अर्थ

1

खैर, आज विभिन्न विषयों के लोग हैं जो एमएल के क्षेत्र में अपना करियर बनाते हैं, और यह संभावना है कि वे थोड़ी अलग बोली बोलते हैं।

हालांकि, जो भी शब्द वे उपयोग कर सकते हैं, उसके पीछे की अवधारणाएं अलग हैं। इसलिए इन अवधारणाओं को स्पष्ट करना महत्वपूर्ण है, और फिर उन बोलियों का अनुवाद इस तरह से करें जो आपकी पसंद हैं।

उदाहरण के लिए।

बिशप द्वारा PRML में,

inference चरण जिसमें हम लिए एक मॉडल सीखने के लिए प्रशिक्षण डेटा का उपयोग करते हैंp(Ck|x)

तो ऐसा लगता है कि यहां Inference= Learning=Estimation

लेकिन अन्य सामग्री में, अनुमान अनुमान, से अलग हो सकता है, जहां inferenceसाधन predictionजबकि estimationसाधन मापदंडों के सीखने की प्रक्रिया।


0

मशीन लर्निंग के संदर्भ में, अव्यवस्था आपके अवलोकन को दिए गए अव्यक्त (छिपे हुए) चर की खोज की सेटिंग्स के एक अधिनियम को संदर्भित करती है। इसमें आपके अव्यक्त चरों के पिछले वितरण को निर्धारित करना भी शामिल है। अनुमान "बिंदु अनुमान" से जुड़ा हुआ लगता है, जो आपके मॉडल मापदंडों को निर्धारित करने के लिए है। उदाहरणों में अधिकतम संभावना अनुमान शामिल हैं। ई कदम में अपेक्षा अधिकतमकरण (ईएम) में, आप अनुमान लगाते हैं। M चरण में, आप पैरामीटर अनुमान करते हैं।

मुझे लगता है कि मैं लोगों को यह कहते हुए सुनता हूं कि "पीछे के वितरण का अनुमान लगाओ" से अधिक "पीछे वितरण का अनुमान है"। उत्तरार्द्ध का उपयोग सामान्य सटीक अनुमान में नहीं किया जाता है। इसका उपयोग, उदाहरण के लिए, प्रत्याशा प्रसार या वैरिएबल बेयस में किया जाता है, जहां एक सटीक पोस्टीरियर इंट्रैक्टेबल होता है और पोस्टीरियर पर अतिरिक्त धारणाएं बनानी पड़ती हैं। इस मामले में, अनुमानित पश्च अनुमानित है। लोग कह सकते हैं कि "पश्च को अनुमानित करें" या "पश्च को अनुमान करें"।

यह सब सिर्फ मेरी राय है। यह कोई नियम नहीं है।


0

मैं "अनुमान" भाग पर विस्तार करके दूसरों के उत्तरों को जोड़ना चाहता हूं। मशीन लर्निंग के संदर्भ में, अनुमान का एक दिलचस्प पहलू अनिश्चितता का अनुमान लगा रहा है। यह आमतौर पर एमएल एल्गोरिदम के साथ मुश्किल है: आप वर्गीकरण लेबल पर एक मानक विचलन कैसे डालते हैं एक तंत्रिका जाल या निर्णय पेड़ बाहर थूकते हैं? पारंपरिक आंकड़ों में, वितरण संबंधी धारणाएं हमें गणित करने की अनुमति देती हैं और यह पता लगाती हैं कि मापदंडों में अनिश्चितता का आकलन कैसे करें। एमएल में, कोई पैरामीटर नहीं हो सकता है, कोई वितरण मान्यताओं, या न ही हो सकता है।

इन मोर्चों पर कुछ प्रगति हुई है, इनमें से कुछ बहुत हालिया (वर्तमान उत्तरों की तुलना में हाल ही में) हैं। एक विकल्प है, जैसा कि दूसरों ने उल्लेख किया है, बेयसियन विश्लेषण जहां आपका पीछे आपको अनिश्चितता का अनुमान देता है। बूटस्ट्रैप प्रकार के तरीके अच्छे हैं। स्टैनफोर्ड में स्टीफन दांव और सुसान अथेय ने पिछले कुछ वर्षों से यादृच्छिक जंगलों के लिए आक्षेप लगाने के कुछ काम किए हैं । अनायास, BART एक बायेसियन ट्री एसेम्बल विधि है, जो एक ऐसी पश्च-पैदावार पैदा करती है, जिसमें से आक्षेप खींचा जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.