सीखने और अनुमान में क्या अंतर है?


20

मशीन लर्निंग रिसर्च पेपर अक्सर सीखने और अनुमान को दो अलग-अलग कार्यों के रूप में मानते हैं, लेकिन यह मेरे लिए बिल्कुल स्पष्ट नहीं है कि भेद क्या है। में इस पुस्तक उदाहरण के लिए वे कार्य के दोनों प्रकार के लिए बायेसियन आंकड़ों का उपयोग, लेकिन वह गौरव के लिए एक प्रेरणा प्रदान नहीं करते। मेरे पास कई अस्पष्ट विचार हैं जिनके बारे में यह हो सकता है, लेकिन मैं एक ठोस परिभाषा देखना चाहूंगा और शायद मेरे विचारों का खंडन या विस्तार भी कर सकता हूं:

  • एक निश्चित डेटा बिंदु के लिए अव्यक्त चर के मानों को संदर्भित करने और डेटा के लिए एक उपयुक्त मॉडल सीखने के बीच अंतर।
  • Variances निकालने (अंतर) और अंतर सीखने के बीच अंतर ताकि variances निकालने में सक्षम हो (इनपुट स्थान / प्रक्रिया / दुनिया की गतिशीलता सीखकर)।
  • तंत्रिका-संबंधी सादृश्य अल्पकालिक पोटेंशिएन / डिप्रेशन (स्मृति निशान) बनाम दीर्घकालिक पोटेंशियल / डिप्रेशन हो सकता है।

4
यह सुनिश्चित नहीं है कि यह मदद करता है, लेकिन आंकड़ों में एक अंतर यह है कि क्या आप निष्कर्ष के रूप में सीखने के बारे में सोचना चाहते हैं (ज्यादातर बेयस) या अनुमान के रूप में (ज्यादातर आवृत्तिवादी)। पूर्व के लिए, सबकुछ के बारे में सीखना - अव्यक्त चर, पैरामीटर, पूर्वानुमान, मॉडल - एक अनुमान है (जो एक वितरण लौटाता है)। उत्तरार्द्ध के लिए कुछ सीखने की समस्याएं एक अनुमान और अन्य एक अनुमान समस्या हो सकती हैं (जो इसके लिए एक अनुमान और नमूना-सैद्धांतिक रूप से प्रेरित अनिश्चितता सीमा देता है)।
संयुक्ताक्षरी

5
"लर्निंग" मशीन सीखने के एल्गोरिथ्म को प्रशिक्षित करने की प्रक्रिया के लिए केवल एक रूपक रूपक है। मुझे नहीं लगता कि यहाँ प्राप्त करने के लिए बहुत अंतर्दृष्टि है।
साइकोरैक्स का कहना है कि मोनिका


1
@ क्या आपने लिंक किए गए प्रश्न को बिल्कुल पढ़ा है ? कोई भी उत्तर स्पष्ट नहीं है जो मैं पूछ रहा हूं।
लेनार होयट

1
@conjugateprior मशीन लर्निंग में, कोई भी यह नहीं कहेगा कि "सब कुछ के बारे में सीखना - अव्यक्त चर, पैरामीटर, पूर्वानुमान, मॉडल - एक अनुमान है"। सीखना और अनुमान लगाना पूरी तरह से अलग माना जाता है, भले ही वे दोनों वितरण का उत्पादन कर सकते हैं।
नील जी।

जवाबों:


11

मैं नील जी के जवाब से सहमत हूं, लेकिन शायद यह वैकल्पिक फोंटसिंग भी मदद करता है:

एक साधारण गाऊसी मिश्रण मॉडल की स्थापना पर विचार करें। यहाँ हम मॉडल मापदंडों को मिश्रण मॉडल के गॉसियन घटकों (उनके प्रत्येक साधन और संस्करण, और मिश्रण में प्रत्येक का वजन) के सेट के रूप में सोच सकते हैं।

मॉडल मापदंडों के एक सेट को देखते हुए, निष्कर्ष यह पहचानने की समस्या है कि किस घटक ने एक दिए गए उदाहरण को उत्पन्न किया है, आमतौर पर प्रत्येक घटक के लिए "जिम्मेदारी" के रूप में। यहां, अव्यक्त चर केवल एकल पहचानकर्ता हैं जिसके लिए घटक ने दिए गए वेक्टर उत्पन्न किए, और हम यह बता रहे हैं कि कौन से घटक की संभावना थी। (इस मामले में, निष्कर्ष सरल है, हालांकि अधिक जटिल मॉडल में यह काफी जटिल हो जाता है।)

सीखने की प्रक्रिया है, मॉडल से नमूनों का एक सेट दिया गया है, मॉडल मापदंडों (या मॉडल मापदंडों पर एक वितरण) की पहचान करते हुए जो दिए गए डेटा को सबसे अच्छी तरह से फिट करते हैं: गॉसियंस के साधन, संस्करण और भार का चयन करना।

एक्सपेक्टेशन-मैक्सिमाइजेशन लर्निंग एल्गोरिथम को ट्रेनिंग सेट के लिए इंट्रेंस परफॉर्म करने के बारे में सोचा जा सकता है, फिर उस इंट्रेंस को देखते हुए सबसे अच्छे पैरामीटर्स को सीखना, फिर रिपीट करना। इस तरह से सीखने की प्रक्रिया में अक्सर इंजेक्शन का इस्तेमाल किया जाता है, लेकिन यह स्वतंत्र हित का भी है, उदाहरण के लिए, गॉसियन मिश्रण मॉडल में किसी दिए गए डेटा बिंदु को चुनने के लिए किस घटक ने एक छिपे हुए मार्कोव मॉडल में सबसे अधिक संभावना छिपी स्थिति का फैसला किया है, अधिक सामान्य चित्रमय मॉडल में लापता मूल्यों को लागू करने के लिए, ....


1
और एक छोटा सा कैविएट जिसे कोई भी चीज़ों को सीखने और इस निष्कर्ष में नीचे तोड़ने के लिए चुन सकता है, लेकिन एक पूरे अनुमान के रूप में भी कर सकता है : आंकड़े.stackexchange.com/questions/180582/…
संयुग्मक

इतनी सारी लाइनें क्यों? मैं एक सरल उत्तर देखना चाहता हूं जो उन्हें एक-दो वाक्यों में अंतर करता है। इसके अलावा, हर कोई GMM या EM से परिचित नहीं है।
nbro

9

इंजेक्शन एक इनपुट के आधार पर एक विन्यास का चयन कर रहा है। लर्निंग कुछ प्रशिक्षण उदाहरणों के आधार पर मापदंडों का चयन कर रहा है।

ऊर्जा-आधारित मॉडल ढांचे में (लगभग सभी मशीन लर्निंग आर्किटेक्चर को देखने का एक तरीका), प्रतिक्षेप तय मापदंडों को धारण करते हुए एक ऊर्जा फ़ंक्शन को कम करने के लिए एक कॉन्फ़िगरेशन का चयन करता है; लर्निंग फंक्शन कम करने के लिए पैरामीटर चुनता है ।

जैसा कि संयुग्मक बिंदु बताता है, अन्य लोग एक ही चीज़ के लिए विभिन्न शब्दावली का उपयोग करते हैं। उदाहरण के लिए बिशप, क्रमशः "अनुमान" और "निर्णय" का उपयोग करता है, जिसका अर्थ है क्रमशः सीखने और निष्कर्ष निकालना। कारण अनुमान अर्थ है सीखना। लेकिन जो भी आप तय करते हैं, ये दोनों अवधारणाएं अलग हैं।

न्यूरोलॉजिकल सादृश्य फायरिंग न्यूरॉन्स का एक पैटर्न एक विन्यास है; कड़ी ताकत का एक सेट पैरामीटर हैं।


@ mcb मुझे अभी भी नहीं पता है कि आपके "variances" से क्या मतलब है। "Invariances" शब्दकोष में एक शब्द भी नहीं है। हां, कई शिक्षण एल्गोरिदम हैं जो डगल के उत्तर में वर्णित ईएम की तरह एक अनुमानित कॉन्फ़िगरेशन पर भरोसा करते हैं।
नील जी।

@ mcb मुझे आपके सवालों की समझ नहीं है; शायद यह एक उदाहरण मॉडल को निर्दिष्ट करने में मदद करेगा और इस बारे में विशिष्ट होगा कि आप किस वितरण / संस्करण / चालान (?) के बारे में बात कर रहे हैं।
डगल

आपके उत्तर के लिए धन्यवाद। शायद मैंने कुछ गलत समझा है।
होयट

@ नील मुझे विश्वास है कि इस शब्दावली का उपयोग ज्यादातर एमएल विज़न कार्य में किया जाता है, जहाँ वर्गीकरण के फैसले ऑब्जेक्ट ट्रांसलेशन, रोटेशन, रिसकलिंग आदि के लिए 'अपरिवर्तनीय' होने चाहिए, एक अच्छा संक्षिप्त संदर्भ नहीं मिल सकता है, लेकिन यह है: en.wikipedia.org/siki / Prior_knowledge_for_pattern_recognition
conjugateprior

@conjugateprior मुझे इस बात का अहसास था कि वह क्या कर रहा है, लेकिन मैं यह देखना चाहता था कि क्या वह अपना प्रश्न स्पष्ट कर पाएगा।
नील जी।

4

यह क्लासिक क्रॉस-अनुशासन लिंगो भ्रम की तरह दिखता है। ओपी तंत्रिका विज्ञान जैसी शब्दावली का उपयोग करता प्रतीत होता है, जहां प्रश्न में दो शब्द अलग-अलग अर्थ हो सकते हैं। लेकिन चूंकि क्रॉस वैलिडेट आम तौर पर सांख्यिकी और मचिंग लर्निंग से संबंधित है, इसलिए मैं उन क्षेत्रों में इन शब्दों के सामान्य उपयोग के आधार पर प्रश्न का उत्तर देने की कोशिश करूंगा।

शास्त्रीय आंकड़ों में, आक्षेप बस एक नमूना के बारे में जो आप जानते हैं उसे लेने और उस जनसंख्या के बारे में गणितीय कथन बनाने से है जिसमें से यह (उम्मीद है) प्रतिनिधि है। कैसैला एंड बर्जर (2002) की विहित पाठ्यपुस्तक से: "प्रायिकता सिद्धांत का विषय वह आधार है जिस पर सभी सांख्यिकी निर्मित हैं ... इन मॉडलों के माध्यम से, सांख्यिकीविद् केवल परीक्षा के आधार पर, जनसंख्या के बारे में निष्कर्ष निकालने में सक्षम हैं। पूरा का एक हिस्सा ”। तो आंकड़ों में, अनुमान विशेष रूप से पी-मान, परीक्षण के आँकड़े और नमूना वितरण, आदि से संबंधित है।

सीखने के लिए, मुझे लगता है कि Wasserman के सभी सांख्यिकी (2003) से यह तालिका सहायक हो सकती है:

यहां छवि विवरण दर्ज करें


यह टिप्पणियों में उल्लिखित बिशप की पुस्तक सहित कई अन्य पाठ्य पुस्तकों से असहमत है। क्लासिफिकेशन एक तरह का सुपरवाइज्ड लर्निंग होता है जब टारगेट वेरिएबल कैटेगिरी होते हैं। शब्द "अनुमान" अकेला अस्पष्ट है: आमतौर पर हमारा मतलब है "घनत्व अनुमान" या "पैरामीटर अनुमान" या "अनुक्रमिक अनुमान" या "अधिकतम संभावना अनुमान"।
नील जी।

1
इसके अलावा, बेयस नेट सिर्फ एक निर्देशित एसाइक्लिक ग्राफ नहीं है! यह एक प्रकार का डाॅग है जिसके नोड प्रस्ताव का प्रतिनिधित्व करते हैं और जिनके किनारे संभाव्य निर्भरता का प्रतिनिधित्व करते हैं। यह सशर्त स्वतंत्रता संबंधों को निर्दिष्ट करता है।
नील जी।

1
@NeilG काफी। निकटतम आँकड़ों का अनुवाद संभवतः "संरचनात्मक समीकरण मॉडल" होगा
संयुक्ताक्षर

2
और आंकड़ों की एक निराशाजनक मात्रा में डेटा के बारे में दो लाइनें होनी चाहिए: सीएस: प्रशिक्षण डेटा, सांख्यिकी: डेटा। CS: परीक्षण डेटा, सांख्यिकी: wut?
conjugateprior

स्टेट 101: wut = आपकी जनसंख्या से एक और (उम्मीद के मुताबिक यादृच्छिक) नमूना ...
Zoë क्लार्क

-1

यह अजीब है कि किसी और ने इसका उल्लेख नहीं किया है, लेकिन आप केवल उन मामलों में अनुमान लगा सकते हैं जहां आपके पास संभावना वितरण है। विकी को उद्धृत करने के लिए यहां, जो ऑक्सफोर्ड डिक्शनरी उद्धृत करता है:

सांख्यिकीय अनुमान एक अंतर्निहित संभाव्यता वितरण के गुणों को कम करने के लिए डेटा विश्लेषण का उपयोग करने की प्रक्रिया है (सांख्यिकी के ऑक्सफोर्ड डिक्शनरी)

https://en.wikipedia.org/wiki/Statistical_inference

पारंपरिक तंत्रिका नेटवर्क, के-एनएन या वेनिला एसवीएम के मामले में आपके पास अनुमान लगाने के लिए कोई संभावना घनत्व नहीं है, न ही किसी भी घनत्व के बारे में धारणाएं, इस प्रकार, कोई सांख्यिकीय अनुमान नहीं है। केवल प्रशिक्षण / सीखना। हालाँकि, अधिकांश (सभी?) सांख्यिकीय प्रक्रियाओं के लिए, आप इनविज़न और लर्निंग दोनों का उपयोग कर सकते हैं, क्योंकि इन प्रक्रियाओं में प्रश्न में जनसंख्या के वितरण के बारे में कुछ धारणाएं हैं।


ये गलत है। वैसे भी, यदि आप चाहें तो वितरण के उत्पादन के रूप में आप तंत्रिका नेटवर्क की व्याख्या कर सकते हैं। देखें, उदाहरण अमारी 1998.
नील जी

यह गलत नहीं है, या निर्दिष्ट नहीं है। आप व्याख्या कर सकते हैं, लेकिन मूल रूप से ऐसी कोई व्याख्या नहीं है।
SWIM एस।

यह गलत है क्योंकि लोग ऑटोकेन्डर जैसे मॉडल के साथ शब्द का प्रयोग करते हैं।
नील जी

तो, क्या यह गलत है क्योंकि कुछ लोगों का समूह गलत तरीके से इस शब्द का उपयोग करता है? या इसलिए कि उनके पास अपने एनएन के लिए कुछ संभाव्य व्याख्या है (मैं ऑटोएन्कोडर्स से गहराई से परिचित नहीं हूं)? मैं तार्किक रूप से उचित हूं कि एक शब्द दूसरे से अलग क्यों है। इसलिए, उपरोक्त परिभाषा को देखते हुए, मैं देखता हूं कि एनएन, के-एनएन, या एसवीएम (जब तक कि संभाव्य व्याख्या के साथ) शब्द का उपयोग करने वाले लोग संकेतन का दुरुपयोग कर रहे हैं।
SWIM एस।
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.