मापदंडों का आकलन करने के लिए मशीन सीखने का 'मौलिक' विचार क्या है?


19

मापदंडों का आकलन करने के लिए सांख्यिकी का 'मौलिक' विचार अधिकतम संभावना है । मैं सोच रहा हूं कि मशीन लर्निंग में क्या विचार है।

Qn 1. क्या यह कहना उचित होगा कि मापदंडों का आकलन करने के लिए मशीन सीखने में 'मौलिक' विचार है: 'नुकसान के कार्य'

[नोट: यह मेरी धारणा है कि मशीन लर्निंग एल्गोरिदम अक्सर एक नुकसान फ़ंक्शन का अनुकूलन करते हैं और इसलिए उपरोक्त प्रश्न।]

Qn 2: क्या कोई साहित्य है जो सांख्यिकी और मशीन सीखने के बीच की खाई को पाटने का प्रयास करता है?

[नोट: शायद, अधिकतम संभावना की तुलना में नुकसान कार्यों से संबंधित के माध्यम से। (उदाहरण के लिए, OLS सामान्य रूप से वितरित त्रुटियों आदि के लिए अधिकतम संभावना के बराबर है)]


3
एक काल्पनिक खाई को पाटने की कोशिश के बारे में मुझे इन सवालों में दिलचस्पी नहीं दिखती। उस सबका उद्देश्य क्या है? इसके अलावा बहुत से अन्य विचार हैं जो सांख्यिकीय में मौलिक हैं ... और हानि कार्य कम से कम 100 वर्ष पुराना है। क्या आप उस तरह का आँकड़ा कम कर सकते हैं? हो सकता है आपके सवाल datamining / आंकड़ा / मशीन में fondamental अवधारणा सीखने लेकिन आप इसे के बारे में है ... तो फिर सवाल पहले से मौजूद है और भी चौड़ा है stats.stackexchange.com/questions/372/...
रॉबिन जिरार्ड

वैसे, मैं मशीन लर्निंग या उसके कनेक्शन के आँकड़ों के बारे में ज्यादा नहीं जानता। किसी भी मामले में, इस प्रश्न को देखें: आंकड़े.stackexchange.com/questions/6/… जो बताता है कि बहुत कम से कम एक ही सवाल का जवाब देने के लिए दृष्टिकोण अलग हैं। क्या यह अस्वाभाविक है कि अगर उनके बीच किसी तरह का संबंध है, तो आश्चर्य होगा? हां, मैं मानता हूं कि आंकड़ों में बहुत सारे विचार हैं। यही कारण है कि मैंने उद्धरणों में मौलिक और ब्याज के मापदंडों का आकलन करने के लिए गुंजाइश को सीमित कर दिया है।

@ कड़ी लिंक क्या है? ध्यान दें कि मैं वास्तव में अच्छी तरह से परिभाषित वस्तुओं के बीच लिंक खोजना पसंद करता हूं, मुझे यह वास्तव में स्वाभाविक लगता है।
रोबिन जिरार्ड

6
के रूप में, यकीनन, एक मशीन सीखने वाला, मैं यहां आपको बताने के लिए हूं कि हम इस संभावना को अधिकतम कर सकते हैं। पुरे समय। मशीन लर्निंग पेपर के भार की शुरुआत "मेरी संभावना को देखो, देखो कि यह कैसे होता है, मुझे अधिकतम देखो"। मुझे लगता है कि यह अनुमान तकनीक के संदर्भ में या तो अनुशासन के एक मौलिक आधार का दावा करने के लिए खतरनाक है। यह अधिक है कि आप किस सम्मेलन में जाते हैं!
माइक देवर

6
मुझे नहीं लगता कि बायेशियन सांख्यिकी के मौलिक विचार होने की अधिकतम संभावना से सहमत होंगे।
मार्क क्लेसेन

जवाबों:


17

यदि आँकड़े सभी संभावना को अधिकतम करने के बारे में हैं, तो मशीन लर्निंग सभी नुकसान को कम करने के बारे में है। चूँकि आप भविष्य के डेटा पर होने वाले नुकसान को नहीं जानते हैं, आप एक अनुमान, यानी नुकसान को कम कर सकते हैं।

उदाहरण के लिए, यदि आपके पास एक भविष्यवाणी कार्य है और गर्भपात की संख्या का मूल्यांकन किया जाता है, तो आप मापदंडों को प्रशिक्षित कर सकते हैं ताकि परिणामस्वरूप मॉडल प्रशिक्षण डेटा पर सबसे कम संख्या में गर्भपात का उत्पादन करे। "गर्भपात की संख्या" (यानी, 0-1 नुकसान) के साथ काम करने के लिए एक कठिन नुकसान कार्य है क्योंकि यह अलग नहीं है, इसलिए आप इसे एक चिकनी "सरोगेट" के साथ अनुमानित करते हैं। उदाहरण के लिए, लॉग लॉस 0-1 नुकसान पर एक ऊपरी सीमा है, इसलिए आप इसके बजाय इसे कम कर सकते हैं, और यह डेटा की सशर्त संभावना को अधिकतम करने के समान होगा। पैरामीट्रिक मॉडल के साथ यह दृष्टिकोण लॉजिस्टिक रिग्रेशन के बराबर हो जाता है।

एक संरचित मॉडलिंग कार्य, और 0-1-हानि के लॉग-लॉस सन्निकटन में, आपको अधिकतम सशर्त संभावना से कुछ अलग मिलता है, आप इसके बजाय (सशर्त) सीमांत संभावना के उत्पाद को अधिकतम करेंगे ।

नुकसान का बेहतर अनुमान प्राप्त करने के लिए, लोगों ने देखा कि नुकसान को कम करने के लिए प्रशिक्षण मॉडल और भविष्य के नुकसान के अनुमान के रूप में उस नुकसान का उपयोग करना एक अत्यधिक अनुकूल अनुमान है। इसलिए अधिक सटीक (भविष्य के नुकसान के लिए) न्यूनतम वे अनुभवजन्य हानि के लिए एक पूर्वाग्रह सुधार शब्द जोड़ते हैं और इसे कम से कम करते हैं, इसे संरचित जोखिम न्यूनतमकरण के रूप में जाना जाता है।

व्यवहार में, सही पूर्वाग्रह सुधार शब्द का पता लगाना बहुत कठिन हो सकता है, इसलिए आप पूर्वाग्रह सुधार शब्द की "भावना" जोड़ते हैं, उदाहरण के लिए, मापदंडों के वर्गों का योग। अंत में, लगभग सभी पैरामीट्रिक मशीन सीखने वाले पर्यवेक्षित वर्गीकरण दृष्टिकोण ने मॉडल को निम्नलिखित को कम करने के लिए प्रशिक्षण को समाप्त कर दिया

Σमैंएल((एक्समैं,w),yमैं)+पी(w)

जहां अपने मॉडल वेक्टर द्वारा parametrized है w , मैं सब datapoints में ले लिया है { x मैं , y मैं } , एल अपना असली नुकसान और से कुछ computationally अच्छा सन्निकटन है पी ( डब्ल्यू ) है कुछ पूर्वाग्रह-सुधार / नियमितीकरण अवधिwमैं{एक्समैं,yमैं}एलपी(w)

उदाहरण के लिए अपने यदि , y { - 1 , 1 } , एक ठेठ दृष्टिकोण बताने के लिए किया जाएगा मीटर ( एक्स ) = संकेत ( wएक्स{-1,1}y{-1,1} , एल ( मीटर ( एक्स ) , y ) = - लॉग ( y × ( एक्स डब्ल्यू ) ) , पी ((एक्स)=संकेत(wएक्स)एल((एक्स),y)=-लॉग(y×(एक्सw)) , और चुनें क्ष पार सत्यापन द्वारापी(w)=क्ष×(ww)क्ष


3
मैं इस नुकसान को क्लस्टरिंग,

खैर, के-साधन के निकटतम पड़ोसी के नुकसान फ़ंक्शन लक्षण वर्णन के लिए, इस पेपर की प्रासंगिक उपधारा (2.5) देखें: hpl.hp.com/conferences/icml2003/papers/21.pdf
जॉन एल। टेलर

@ जॉन फिर भी, यह उद्देश्य के साथ मिश्रण है। बहुत हद तक आप प्रत्येक एल्गोरिथ्म को कुछ को कम करने के संदर्भ में समझा सकते हैं और इसे कुछ "नुकसान" कह सकते हैं। केएनएन का आविष्कार इस तरह से नहीं किया गया था: दोस्तों, मैंने इस तरह से नुकसान के बारे में सोचा है, चलो इसे अनुकूलित करें और देखें कि क्या होगा ;; बल्कि दोस्तों, मान लें कि निर्णय सुविधा स्थान पर कम निरंतर है, तो अगर हमारे पास एक अच्छा समानता माप होगा ... और इसी तरह।

2
"यदि आँकड़े सभी संभावना को अधिकतम करने के बारे में हैं, तो मशीन सीखना नुकसान को कम करने के बारे में है" मैं आपके आधार से असहमत हूं - दृढ़ता से और इसकी संपूर्णता में। हो सकता है कि यह 1920 में आंकड़ों का सच-ईश था, लेकिन यह निश्चित रूप से आज नहीं है।
जेएमएस

19

मैं एक आइटम जवाब दे दूँगा। मांग पर अधिक उद्धरण दे सकता है, हालांकि यह वास्तव में विवादास्पद नहीं है।

  • सांख्यिकी अधिकतम (लॉग) -Likelihood के बारे में नहीं है । यह उन बेतकल्लुफ़ियों के प्रतिमान है जो सिर्फ अपने पोस्टरों को अद्यतन करते हैं या एक उपयुक्त मॉडल के माध्यम से अपनी मान्यताओं का प्रचार करते हैं।
  • आंकड़ों का एक बहुत है नुकसान न्यूनीकरण के बारे में। और इसलिए बहुत सारी मशीन लर्निंग है। एमएल में अनुभवजन्य हानि न्यूनतमकरण का एक अलग अर्थ है। एक स्पष्ट, कथात्मक दृश्य के लिए, जाँच करें कि वैपनिक की "सांख्यिकीय शिक्षा की प्रकृति"
  • मशीन लर्निंग कम से कम नुकसान के बारे में नहीं है । सबसे पहले, क्योंकि एमएल में बहुत सारे बायेसियन हैं; दूसरा, क्योंकि एमएल में कई अनुप्रयोगों को अस्थायी सीखने और अनुमानित डीपी के साथ करना होता है। ज़रूर, एक उद्देश्य फ़ंक्शन है, लेकिन "सांख्यिकीय" सीखने की तुलना में इसका बहुत अलग अर्थ है।

मुझे नहीं लगता कि खेतों के बीच कोई अंतर है, बस कई अलग-अलग दृष्टिकोण हैं, सभी कुछ हद तक अतिव्यापी हैं। मुझे अच्छी तरह से परिभाषित अंतर और समानता के साथ उन्हें व्यवस्थित विषयों में बनाने की आवश्यकता महसूस नहीं होती है, और जिस गति से वे विकसित होते हैं उसे देखते हुए, मुझे लगता है कि यह वैसे भी एक बर्बाद उद्यम है।


8

मैं एक टिप्पणी (इस टिप्पणी के लिए उपयुक्त स्थान) पोस्ट नहीं कर सकता क्योंकि मेरे पास पर्याप्त प्रतिष्ठा नहीं है, लेकिन प्रश्न के मालिक द्वारा सबसे अच्छा जवाब के रूप में स्वीकार किए गए उत्तर को याद करता है।

"अगर आंकड़े सभी संभावना को अधिकतम करने के बारे में हैं, तो मशीन सीखना नुकसान को कम करने के बारे में है।"

संभावना एक हानि कार्य है। मैक्सिमाइज़िंग संभावना एक नुकसान फ़ंक्शन को कम करने के रूप में ही है: अवतरण, जो लॉग-लाइबिलिटी फ़ंक्शन का सिर्फ -2 गुना है। इसी तरह एक कम से कम वर्ग समाधान खोजने के बारे में है नुकसान समारोह को कम करने का वर्णन वर्गों के अवशिष्ट योग।

ML और आँकड़े दोनों एल्गोरिदम का उपयोग कुछ फ़ंक्शन (सबसे व्यापक शब्दों में) के डेटा को फिट करने के लिए करते हैं। अनुकूलन आवश्यक रूप से कुछ नुकसान फ़ंक्शन को कम करना शामिल है।


1
अच्छा बिंदु, अभी भी मुख्य अंतर कहीं और हैं; सबसे पहले, आंकड़े एक मॉडल को किसी डेटा को फिटिंग करने के बारे में हैं, एमएल एक मॉडल के बारे में है जो किसी के पास होगा; दूसरा, आंकड़े यह मानते हैं कि एक प्रक्रिया जो एक अवलोकन पूरी तरह से कुछ शर्मनाक तुच्छ "छिपी" मॉडल द्वारा संचालित होती है जिसे वे खुदाई करना चाहते हैं, जबकि ML TRIES कुछ जटिल बनाने के लिए समस्या-मुक्त मॉडल वास्तविकता की तरह व्यवहार करते हैं।

@mbq। यह आँकड़ों के बजाय कठोर कैरिकेचर है। मैंने पाँच विश्वविद्यालय सांख्यिकी विभागों में काम किया है और मुझे नहीं लगता कि मैं किसी से भी मिला हूँ जो इस तरह के आँकड़ों के बारे में सोचेगा।
रोब हंडमैन

1
@ रोब कैरिकेचर? मुझे लगता है कि यह वही है जो आंकड़ों को सुंदर बनाता है! आप उन सभी गॉसियंस और लीनियरिटी को मान लेते हैं और यह सिर्फ काम करता है - और इसका एक कारण है जिसे टेलर विस्तार कहा जाता है। विश्व एक जटिल का नरक है, लेकिन रैखिक लगभग में। (जो अक्सर नब्बे-कुछ% जटिलता का होता है) शर्मनाक रूप से तुच्छ। एमएल (और गैरपारंपरिक आँकड़े) इन कुछ प्रतिशत स्थितियों में आते हैं जहाँ कुछ और सूक्ष्म दृष्टिकोण की आवश्यकता होती है। यह सिर्फ मुफ्त भोजन नहीं है - यदि आप प्रमेय चाहते हैं, तो आपको मान्यताओं की आवश्यकता है; यदि आप धारणा नहीं चाहते हैं, तो आपको अनुमानित तरीकों की आवश्यकता है।

@mbq। काफी उचित। मुझे आपकी टिप्पणी की गलत व्याख्या करनी चाहिए थी।
रॉब Hyndman

4

एक तुच्छ उत्तर है - मशीन लर्निंग में कोई पैरामीटर अनुमान नहीं है! हम यह नहीं मानते हैं कि हमारे मॉडल कुछ छिपे हुए पृष्ठभूमि मॉडल के बराबर हैं; हम वास्तविकता और मॉडल दोनों को ब्लैक बॉक्स मानते हैं और हम मॉडल बॉक्स (आधिकारिक शब्दावली में ट्रेन) को हिलाने की कोशिश करते हैं ताकि इसका आउटपुट वास्तविकता बॉक्स के समान हो।

न केवल संभावना बल्कि प्रशिक्षण डेटा पर आधारित पूरे मॉडल चयन को अनदेखा डेटा पर सटीकता (जो भी परिभाषित किया गया है; सिद्धांत रूप में वांछित उपयोग में अच्छाई); यह दोनों परिशुद्धता का अनुकूलन और एक युग्मित तरीके से याद करने की अनुमति देता है। यह सामान्यीकरण करने की क्षमता की अवधारणा की ओर जाता है, जो कि सीखने वाले के आधार पर विभिन्न तरीकों से हासिल की जाती है।

प्रश्न दो का उत्तर परिभाषाओं पर अत्यधिक निर्भर करता है; फिर भी मुझे लगता है कि गैर-समरूप आँकड़े कुछ ऐसा है जो दोनों को जोड़ता है।


मुझे यकीन नहीं है कि यह पूरी तरह से सही है। किस अर्थ में मशीन लर्निंग विधियाँ पैरामीटर आकलन के बिना काम करती हैं (मॉडल के पैरामीट्रिक या वितरण-मुक्त सेट के भीतर)?
जॉन एल। टेलर

1
आप किसी चीज़ का आकलन / गणना कर रहे हैं (सटीक शब्द अलग हो सकता है)। उदाहरण के लिए, एक तंत्रिका नेटवर्क पर विचार करें। जब आप कुछ भविष्यवाणी करने की कोशिश कर रहे हैं तो क्या आप नेट के लिए वज़न की गणना नहीं कर रहे हैं? इसके अलावा, जब आप कहते हैं कि आप वास्तविकता से आउटपुट का मिलान करने के लिए प्रशिक्षित हैं, तो आपको लगता है कि कुछ प्रकार के नुकसान फ़ंक्शन के बारे में बात कर रहे हैं।

@ जॉन, @ श्रीकांत शिक्षार्थियों के पास पैरामीटर हैं, लेकिन वे सांख्यिकीय अर्थ में पैरामीटर नहीं हैं। रैखिक प्रतिगमन y = a x (सिम्प के लिए मुफ्त शब्द के बिना) पर विचार करें। a एक पैरामीटर है जो सांख्यिकीय तरीके फिट होगा, इस धारणा से खिलाएं कि y = a x। मशीन लर्निंग बस ट्रेन की सीमा के भीतर x के लिए पूछे जाने पर एक एक्स का उत्पादन करने की कोशिश करेगी (यह समझ में आता है, क्योंकि यह y = x नहीं मान रहा है ); ऐसा करने के लिए यह सैकड़ों मापदंडों के अनुकूल हो सकता है।

3
[प्रशस्ति पत्र की जरूरत]। दूसरे शब्दों में, पेचीदा जवाब, हालांकि यह बहुत सारे एमएल साहित्य के साथ नहीं रहता है (कम से कम)।
5

1
शास्त्रीय एक है ब्रेमेन की "सांख्यिकीय मॉडलिंग: द टू कल्चर"।

2

मुझे नहीं लगता कि मशीन लर्निंग में पैरामीटर आकलन के आसपास एक मौलिक विचार है। एमएल भीड़ खुशी या संभावना को अधिकतम करेगी, जब तक एल्गोरिदम कुशल होते हैं और "सटीक" भविष्यवाणी करते हैं। ध्यान संगणना पर है, और आंकड़ों से परिणाम व्यापक रूप से उपयोग किए जाते हैं।

यदि आप सामान्य रूप से मौलिक विचारों की तलाश कर रहे हैं, तो कम्प्यूटेशनल शिक्षण सिद्धांत में, पीएसी केंद्रीय है; सांख्यिकीय सीखने के सिद्धांत में, संरचनात्मक जोखिम miniminization ; और अन्य क्षेत्र हैं (उदाहरण के लिए, जॉन लैंगफोर्ड द्वारा भविष्यवाणी विज्ञान पोस्ट देखें )।

आँकड़े / एमएल को कम करने पर, विभाजन अतिरंजित लगता है। मुझे "टू कल्चर" के सवाल पर गप्पी का जवाब पसंद आया ।


सांख्यिकीय

1

आप नकारात्मक लॉग संभावना के रूप में नुकसान को परिभाषित करके हानि-न्यूनकरण समस्या के रूप में संभावना-अधिकतमकरण समस्या को फिर से लिख सकते हैं। यदि संभावना स्वतंत्र संभावनाओं या संभाव्यता घनत्व का एक उत्पाद है, तो नुकसान स्वतंत्र शर्तों का एक योग होगा, जिसे कुशलता से गणना की जा सकती है। इसके अलावा, अगर स्टोकेस्टिक वैरिएबल सामान्य रूप से वितरित किए जाते हैं, तो इसी नुकसान-न्यूनतमकरण की समस्या कम से कम वर्गों की समस्या होगी।

यदि एक संभावना-अधिकतमकरण को फिर से लिखना करके एक हानि-कम से कम समस्या पैदा करना संभव है, तो यह खरोंच से नुकसान-कम करने की समस्या पैदा करना पसंद करना चाहिए, क्योंकि यह नुकसान-कम करने की समस्या को जन्म देगा, जो कि (उम्मीद से अधिक) है सैद्धांतिक रूप से स्थापित और कम तदर्थ। उदाहरण के लिए, वज़न, जैसे भारित कम से कम वर्गों में, जिनके लिए आपको आमतौर पर मूल्यवान मूल्यों के लिए होना चाहिए, बस मूल संभावना-अधिकतमकरण समस्या को फिर से लिखने की प्रक्रिया से उभरेंगे और पहले से ही (उम्मीद है) इष्टतम मान होंगे।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.