पीढ़ीगत बनाम भेदभावपूर्ण

153

मुझे पता है कि जेनेरिक का अर्थ है " पर आधारित" और भेदभाव का मतलब है " आधार पर ", लेकिन मैं कई बिंदुओं पर भ्रमित हूं: $P(x,y)$ $P(y|x)$

विकिपीडिया (वेब पर कई अन्य हिट) एसवीएम जैसी चीजों को वर्गीकृत करते हैं और भेदभावपूर्ण होने के नाते पेड़ों को निर्णय लेते हैं। लेकिन इनकी भी संभाव्य व्याख्या नहीं है। यहां भेदभाव का क्या मतलब है? क्या भेदभावपूर्ण का मतलब केवल कुछ भी है जो कि उदार नहीं है?
Naive Bayes (NB) जेनरेटर है क्योंकि यह और कैप्चर करता है , और इस प्रकार आपके पास (साथ ही ) है। क्या यह तर्कपूर्ण नहीं है, कहना है, लॉजिस्टिक रिग्रेशन (भेदभावपूर्ण मॉडल का पोस्टर ब्वॉय) "जेनेरिक" बस इसी तरह से गणना करता है (उसी स्वतंत्रता मान एनबी, जैसे कि , जहां MLE for केवल आवृत्ति हैं)? $P(x|y)$ $P(y)$ $P(x,y)$ $P(y|x)$ $P(x)$ $P(x) = P(x_0) P(x_1) ... P(x_d)$ $P(x_i)$
मुझे पता है कि विवेकशील मॉडल जनरेटिव को पछाड़ते हैं। जेनेरिक मॉडल के साथ काम करने का व्यावहारिक उपयोग क्या है? डेटा उत्पन्न / अनुकरण करने में सक्षम होने का हवाला दिया जाता है, लेकिन यह कब आता है? मुझे व्यक्तिगत रूप से केवल प्रतिगमन, वर्गीकरण, कोलाब के साथ अनुभव है। संरचित डेटा पर फ़िल्टर करना, तो क्या मेरे लिए अप्रासंगिक उपयोग हैं? "लापता डेटा" तर्क ( लापता ) लगता है कि आपको केवल प्रशिक्षण डेटा के साथ बढ़त मिलेगी (जब आप वास्तव में जानते हैं और अपेक्षाकृत गूंगा पाने के लिए से अधिक हाशिए पर जाने की आवश्यकता नहीं है जिसे आप सीधे वैसे भी अनुमान लगा सकते थे), और फिर भी प्रतिरूपण बहुत अधिक लचीला है (केवल आधार पर भविष्यवाणी कर सकते हैं) $P(x_i|y)$ $x_i$ $y$ $P(y)$ $P(x_i)$ $y$ लेकिन अन्य के रूप में अच्छी तरह से)। $x_i$
विकिपीडिया से पूरी तरह से विरोधाभासी उद्धरणों के साथ क्या है? "सामान्य मॉडल आम तौर पर जटिल शिक्षण कार्यों में निर्भरता व्यक्त करने में भेदभावपूर्ण मॉडल की तुलना में अधिक लचीले होते हैं" बनाम "भेदभावपूर्ण मॉडल आम तौर पर मनाया और लक्ष्य चर के बीच अधिक जटिल संबंधों को व्यक्त कर सकते हैं"

संबंधित प्रश्न जो मुझे इस बारे में सोच रहा है।

machine-learning generative-models

— यांग
स्रोत

5

(+1) मुझे लगता है कि शब्दावली भ्रामक है, और मैं के एक मॉडल के बारे में सोचता हूं, जो एसवीएम के विपरीत सशर्त वितरण के लिए सामान्य है, कहते हैं, कि विशुद्ध रूप से भेदभाव के लिए इस सशर्त वितरण के केवल मॉडल पहलू उद्देश्य। जैसा कि आपके दूसरे बुलेट पॉइंट से पता चलता है, एक मॉडल पूरी तरह से जेनरेटर मॉडल बनने के लिए संवर्धित किया जा सकता है। भेद सीखने के दृष्टिकोण से प्रासंगिक है क्योंकि हम या तो मॉडल कर सकते हैं और गणना कर सकते हैं या हम को मॉडल कर सकते हैं ।

P (y | x)

$P(y|x)$

P (y | x)

$P(y|x)$

P (x, y)

$P(x,y)$

P (y | x)

$P(y|x)$

P (y | x)

$P(y|x)$

— NRH

2

मुझे नहीं लगता कि एसवीएम के बारे में आपका कथन सत्य है: "लेकिन इनमें संभाव्य व्याख्याएं भी नहीं हैं।" नुकसान फ़ंक्शन के साथ कुछ भी स्पष्ट रूप से एक उपयुक्त पीडीएफ के एमएपी कॉन्फ़िगरेशन को खोजने के द्वारा एक संभाव्य अर्थ में व्याख्या की जा सकती है।

— gmatt

135

मौलिक अंतर विवेकशील मॉडल और उत्पादक मॉडलों के बीच है:

भेदभावपूर्ण मॉडल कक्षाओं के बीच कठिन (नरम या नरम) सीमा सीखते हैं
सामान्य मॉडल व्यक्तिगत वर्गों के वितरण का मॉडल बनाते हैं

आपके प्रत्यक्ष सवालों के जवाब देने के लिए:

एसवीएम और निर्णय पेड़ भेदभावपूर्ण हैं क्योंकि वे कक्षाओं के बीच स्पष्ट सीमाएं सीखते हैं। एसवीएम एक अधिकतम मार्जिन क्लासिफायर है, जिसका अर्थ है कि यह एक निर्णय सीमा सीखता है जो दो वर्गों के नमूनों के बीच की दूरी को अधिकतम करता है, जिसे कर्नेल दिया जाता है। एक नमूना और सीखी गई निर्णय सीमा के बीच की दूरी का उपयोग SVM को "सॉफ्ट" क्लासिफायर बनाने के लिए किया जा सकता है। DTs ने सूचना के लाभ (या किसी अन्य मानदंड) को अधिकतम करने के तरीके से अंतरिक्ष को पुन: विभाजन करके निर्णय सीमा सीखी।
इस तरीके से लॉजिस्टिक रिग्रेशन का एक जनरेटिव रूप बनाना संभव है। ध्यान दें कि आप वर्गीकरण निर्णय लेने के लिए पूर्ण पीढ़ी के मॉडल का उपयोग नहीं कर रहे हैं, हालांकि।
आवेदन के आधार पर कई प्रकार के फायदे मिल सकते हैं, जो जेनेरेटिव मॉडल प्रस्तुत कर सकते हैं। मान लें कि आप गैर-स्थिर वितरण के साथ काम कर रहे हैं, जहाँ प्रशिक्षण डेटा की तुलना में ऑनलाइन परीक्षण डेटा विभिन्न अंतर्निहित वितरणों द्वारा उत्पन्न किया जा सकता है। आमतौर पर वितरण परिवर्तनों का पता लगाने के लिए और एसवीएम में निर्णय सीमा के लिए ऐसा करने के बजाय एक जनरेटिव मॉडल को अपडेट करना अधिक सरल होता है, खासकर यदि ऑनलाइन अपडेट को अनसुना करने की आवश्यकता होती है। भेदभावपूर्ण मॉडल भी आमतौर पर बाहरी पहचान के लिए कार्य नहीं करते हैं, हालांकि सामान्य मॉडल आमतौर पर करते हैं। एक विशिष्ट आवेदन के लिए सबसे अच्छा क्या है, ज़ाहिर है, आवेदन के आधार पर मूल्यांकन किया जाना चाहिए।
(यह उद्धरण विचाराधीन है, लेकिन यह वही है जो मुझे लगता है कि यह कहने की कोशिश कर रहा है) सामान्य मॉडल आमतौर पर संभाव्य चित्रमय मॉडल के रूप में निर्दिष्ट होते हैं, जो डेटासेट में स्वतंत्रता संबंधों के समृद्ध प्रतिनिधित्व प्रदान करते हैं। विभेदक मॉडल डेटासेट में सुविधाओं और वर्गों के बीच संबंधों के ऐसे स्पष्ट प्रतिनिधित्व की पेशकश नहीं करते हैं। प्रत्येक वर्ग को पूरी तरह से मॉडल करने के लिए संसाधनों का उपयोग करने के बजाय, वे कक्षाओं के बीच की सीमा को बड़े पैमाने पर मॉडलिंग करने पर ध्यान केंद्रित करते हैं। एक ही राशि की क्षमता (कहते हैं, मॉडल को निष्पादित करने वाले कंप्यूटर प्रोग्राम में बिट्स) को देखते हुए, एक भेदभावपूर्ण मॉडल इस प्रकार एक जनरेटिव मॉडल की तुलना में इस सीमा के अधिक जटिल प्रतिनिधित्व प्राप्त कर सकता है।

— benhamner
स्रोत

एक तुच्छ टिप्पणी: समूहों के बीच सीमाएं कठिन और कठिन हो जाती हैं, क्योंकि बढ़ता है। इस प्रकार, k- क्लस्टरिंग, एक भेदभावपूर्ण मॉडल के रूप में देखा जाता है, noisier और तदर्थ हो जाता है। (उदाहरण: जर्मनी में 2-पार्टी सिस्टम बनाम 5-पार्टी की राजनीति की तुलना करें)।

(\binom{k}{2})

$\binom{k}{2}$

k

$k$

k

$k$

— डेनिस

63

(हैमनर का जवाब बहुत अच्छा है, इसलिए पूर्णता के लिए मेटाऑप्टाइज़ से मेरे उत्तर को बस पोस्ट करें।)

मैं जेनेरिक एल्गोरिदम के बारे में सोचता हूं कि वास्तव में डेटा कैसे उत्पन्न होता है, इसका एक मॉडल प्रदान करता है (मुझे लगता है कि आप उन्हें और दोनों का मॉडल देंगे , बजाय , हालांकि मुझे लगता है कि यह समान है), और भेदभावपूर्ण एल्गोरिदम बस वर्गीकरण विभाजन प्रदान करते हैं (और जरूरी नहीं कि एक संभाव्य तरीके से)। $P(X|Y)$ $P(Y)$ $P(X, Y)$

उदाहरण के लिए, गाऊसी मिश्रण मॉडल और k-mean क्लस्टरिंग की तुलना करें। पूर्व में, हमारे पास एक अच्छा संभाव्य मॉडल है कि कैसे अंक उत्पन्न होते हैं (कुछ संभावना के साथ एक घटक चुनें, और फिर घटक के गौसियन वितरण से नमूना करके एक बिंदु का उत्सर्जन करें), लेकिन ऐसा कुछ भी नहीं है जिसे हम वास्तव में बाद के बारे में कह सकते हैं।

ध्यान दें कि उत्पादक एल्गोरिदम विवेकशील गुण होते हैं, जब से तुम मिल सकता है एक बार आपके पास और , (Bayes के सिद्धांत के आधार पर) हालांकि विवेकशील एल्गोरिदम वास्तव में नहीं है उत्पादक गुण होते हैं। $P(Y|X)$ $P(X|Y)$ $P(Y)$

1: भेदभावपूर्ण एल्गोरिदम आपको अंकों को वर्गीकृत करने की अनुमति देता है, बिना यह मॉडल प्रदान किए कि अंक वास्तव में कैसे उत्पन्न होते हैं। तो ये भी हो सकते हैं:

संभाव्य एल्गोरिदम सीखने की कोशिश करते हैं (जैसे, लॉजिस्टिक प्रतिगमन); $P(Y|X)$
या गैर-संभाव्य एल्गोरिदम जो सीधे बिंदुओं से कक्षाओं तक मैपिंग सीखने की कोशिश करते हैं (उदाहरण के लिए, परसेप्ट्रोन और एसवीएम बस आपको एक अलग हाइपरप्लेन देते हैं, लेकिन नए अंक उत्पन्न करने का कोई मॉडल नहीं)।

तो हाँ, भेदभावपूर्ण क्लासिफायर किसी भी क्लासिफायरियर हैं जो जेनरेटर नहीं हैं।

इसके बारे में सोचने का एक और तरीका यह है कि जेनेरिक एल्गोरिदम आपके मॉडल पर कुछ प्रकार की संरचना धारणाएं बनाते हैं, लेकिन भेदभावपूर्ण एल्गोरिदम कम धारणाएं बनाते हैं। उदाहरण के लिए, Naive Bayes आपकी सुविधाओं की सशर्त स्वतंत्रता को मानता है, जबकि लॉजिस्टिक रिग्रेशन (Naive Bayes का भेदभावपूर्ण "प्रतिपक्ष) नहीं करता है।

2: हाँ, Naive Bayes उदार है क्योंकि यह और पकड़ लेता है । उदाहरण के लिए, यदि हम जानते हैं कि और , अंग्रेजी और फ्रेंच शब्द संभावनाओं के साथ है, तो अब हम पहले दस्तावेज़ की भाषा चुनकर एक नया दस्तावेज़ तैयार कर सकते हैं ( संभाव्यता 0.7 के साथ अंग्रेजी, संभाव्यता 0.3 के साथ फ्रेंच), और फिर चुने हुए भाषा के शब्द संभावनाओं के अनुसार शब्द उत्पन्न करना। $P(X|Y)$ $P(Y)$ $P(Y = English) = 0.7$ $P(Y = French) = 0.3$

हां, मुझे लगता है कि आप उस फैशन में लॉजिस्टिक रिग्रेशन जेनरेट कर सकते हैं, लेकिन यह केवल इसलिए है क्योंकि आप लॉजिस्टिक रिग्रेशन में कुछ जोड़ रहे हैं जो पहले से ही है। यही कारण है, जब आप एक अनुभवहीन Bayes वर्गीकरण प्रदर्शन कर रहे हैं, तो आप सीधे कंप्यूटिंग रहे (दाईं ओर शर्तों, और , वे हैं जो आपको एक नया दस्तावेज़ बनाने की अनुमति देते हैं); लेकिन जब आप लॉजिस्टिक प्रतिगमन में गणना कर रहे हैं, तो आप इन दो चीजों की गणना नहीं कर रहे हैं, आप बस एक लॉजिस्टिक फ़ंक्शन को एक डॉट उत्पाद पर लागू कर रहे हैं। $P(Y|X) \propto P(X|Y) P(Y)$ $P(X|Y)$ $P(Y)$ $P(Y|X)$

3: जेनेरिक मॉडल अक्सर छोटे डेटासेट पर भेदभावपूर्ण मॉडल को पछाड़ते हैं क्योंकि उनकी जेनरिक धारणाएं आपके मॉडल पर कुछ संरचना रखती हैं जो ओवरफिटिंग को रोकती हैं । उदाहरण के लिए, आइए Naive Bayes बनाम लॉजिस्टिक रिग्रेशन पर विचार करें। Naive Bayes धारणा निश्चित रूप से शायद ही कभी संतुष्ट है, इसलिए लॉजिस्टिक प्रतिगमन Naive Bayes को बेहतर बनाने की ओर अग्रसर होगा क्योंकि आपका डेटासेट बढ़ता है (चूंकि यह निर्भरता को कैप्चर कर सकता है जो Naive Bayes नहीं कर सकता है)। लेकिन जब आपके पास केवल एक छोटा सा डेटा सेट होता है, तो लॉजिस्टिक रिग्रैसिएशन उन नकली पैटर्न पर हो सकता है जो वास्तव में मौजूद नहीं हैं, इसलिए Naive Bayes आपके मॉडल पर एक तरह के रेग्युलर के रूप में काम करता है जो ओवरफिटिंग को रोकता है। एंड्रयू बनाम और माइकल जॉर्डन द्वारा भेदभावपूर्ण बनाम जनरेटिव क्लासीफायर पर एक पेपर है जो इस बारे में अधिक बात करता है।

4: मुझे लगता है कि इसका मतलब यह है कि जेनरेटर मॉडल वास्तव में डेटा की अंतर्निहित संरचना को सीख सकते हैं यदि आप अपने मॉडल को सही ढंग से निर्दिष्ट करते हैं और मॉडल वास्तव में रखता है, लेकिन अगर आपकी जेनरल धारणाएं संतुष्ट नहीं होती हैं तो भेदभावपूर्ण मॉडल बेहतर प्रदर्शन कर सकते हैं (क्योंकि भेदभावपूर्ण एल्गोरिदम हैं) कम एक विशेष संरचना से बंधा हुआ है, और वास्तविक दुनिया गड़बड़ है और धारणाएं शायद ही कभी पूरी तरह से संतुष्ट हैं)। (यदि वे भ्रमित कर रहे हैं तो मैं शायद इन उद्धरणों को अनदेखा करूंगा।)

— raegtin
स्रोत