गणित में एक मजबूत पृष्ठभूमि एमएल के लिए कुल अपेक्षित है?


37

मैं अपने खुद के कौशल को आगे बढ़ाना चाहता हूं और मैं हमेशा मशीन लर्निंग से मोहित रहा हूं। हालांकि, छह साल पहले मैंने इसका पीछा करने के बजाय कंप्यूटर विज्ञान के लिए पूरी तरह से असंबंधित डिग्री लेने का फैसला किया।

मैं अब लगभग 8-10 वर्षों से सॉफ़्टवेयर और एप्लिकेशन विकसित कर रहा हूं, इसलिए मेरे पास एक अच्छा हैंडल है लेकिन मैं अभी मशीन लर्निंग / प्रोबेबिलिटीज / स्टैटिस्टिक्स के मैथ्स साइड में नहीं जा सकता।

मैं सीखने की सामग्री को देखना शुरू करता हूं और पहले पृष्ठ पर इसमें कुछ ऐसा शामिल हो सकता है जो मुझे भ्रमित करता है और तुरंत मेरे सीखने में अवरोध पैदा करता है।

  • गणित में एक मजबूत पृष्ठभूमि एमएल के लिए कुल अपेक्षित है? क्या मुझे एमएल के साथ जारी रखने से पहले अपने गणित के रिक्त स्थान भरने की कोशिश करनी चाहिए? क्या सेल्फ लर्निंग वास्तव में किसी भी मुश्किल कंप्यूटर विज्ञान की पृष्ठभूमि के बिना सिर्फ एक डेवलपर के लिए काम कर सकता है?

संबंधित प्रश्न:


4
मैं कहूंगा कि आपको रैखिक बीजगणित को बहुत कम से कम समझने की आवश्यकता है और शायद बायेसियन अनुप्रयोगों के लिए कुछ संभावना भी है। आपको कोड करने के लिए गणित का अनुवाद करने में भी सहज होना होगा, और नोटेशन कन्वेंशन के अनुकूल भी होना चाहिए (जो कि सुसंगत नहीं है)। अधिकांश कंप्यूटर वैज्ञानिकों के लिए एमएल आसान नहीं है।
जॉन म्यूलर

3
मुझे विश्वास नहीं है कि प्रश्न सभी संबंधित हैं। यह एक बहुत ही आमंत्रित स्टेक्सचेंज साइट बनाने और प्रश्न को बंद करने के लिए धन्यवाद। मैंने किसी को भी किताब की सिफारिश करने का जिक्र नहीं किया। यह "संभव डुप्लिकेट" पर आधारित डुप्लिकेट नहीं है
लेके

2
मैंने मेटा पर एक धागा बनाया (8 घंटे पहले) इसे फिर से खोलने के लिए कहा। meta.stats.stackexchange.com/questions/1442/…
डगलस

1
धन्यवाद। इसे अभी भी "बहुत व्यक्तिपरक" या "एक वास्तविक प्रश्न नहीं" के रूप में बंद किया जा सकता है, लेकिन यह निश्चित रूप से एक डुप्लिकेट नहीं है।
लेके

1
लेके, जैसा कि @Douglas Zare द्वारा शुरू किए गए मेटा थ्रेड में बताया गया है, हम आशा करते हैं कि आप इस प्रश्न को संभावित पक्ष में बंद करने पर विचार करेंगे, क्योंकि यह तुरंत आपको संबंधित थ्रेड्स तक पहुँच प्रदान करता है, जो संभवतः आपके प्रश्न का उत्तर देते हैं। लेकिन जब से आपने टिप्पणी की है कि यह डुप्लिकेट होने का इरादा नहीं है, तो क्या आप इस प्रश्न को स्पष्ट करने के लिए अपने सवाल का संपादन करेंगे कि यह इस साइट पर समान प्रश्नों की नकल नहीं करता है ? हमें खुशी होगी कि इसे फिर से खोला जाए।
whuber

जवाबों:


23

स्टैनफोर्ड (एनजी) और कैलटेक (अबू-मोस्तफा) ने YouTube पर मशीन सीखने की कक्षाएं लगाई हैं। आपको असाइनमेंट देखने को नहीं मिलते हैं, लेकिन व्याख्यान उन पर भरोसा नहीं करते हैं। मैं उन पहले को देखने की कोशिश करने की सलाह देता हूं, क्योंकि वे आपको यह जानने में मदद करेंगे कि आपको कौन सी गणित सीखने की जरूरत है। मेरा मानना ​​है कि एंड्रयूज एनजी द्वारा कसेरा पर असाइनमेंट के साथ एक बहुत ही समान क्लास पढ़ाया जाता है, जिसे बनाने में एनजी ने मदद की।

एक अपवाद: यदि मैं सही ढंग से याद करता हूं, तो स्टैनफोर्ड व्याख्यान में जल्दी, एनजी कुछ गणना करता है जिसमें मैट्रिस के उत्पादों के निशान के डेरिवेटिव शामिल हैं। बल्कि वे अलग-थलग हैं, इसलिए चिंता न करें यदि आप उन गणनाओं का पालन नहीं करते हैं। मुझे यह भी पता नहीं है कि कौन सा कोर्स उन्हें कवर करेगा।

आप संभाव्यता, रैखिक बीजगणित, रैखिक प्रोग्रामिंग और बहुपरत पथरी के साथ कुछ परिचित होना चाहते हैं। हालांकि, आपको उन विषयों पर कई संपूर्ण कॉलेज कक्षाओं में निहित की तुलना में बहुत कम की आवश्यकता है।


3
कैलटेक असाइनमेंट्स: work.caltech.edu/homeworks.html
फ्रेंक डेर्नोनकोर्ट

15

आवेदन के प्रकार के आधार पर, आपको आवश्यक रूप से एक एमएल व्यवसायी के रूप में बहुत सारे गणित की आवश्यकता नहीं है।

एक स्व-सिखाया प्रोग्रामर (~ 15 वर्ष) और गणित (कैलकुलस III) या आँकड़ों में बहुत अधिक पृष्ठभूमि के बिना लगातार कॉलेज छोड़ने के कारण, मैंने कुछ संसाधनों के साथ मशीन लर्निंग / डेटा माइनिंग के साथ शुरुआत की:

  • बेरी और लिनॉफ़ की पुस्तक "मास्टरींग डेटा माइनिंग: द आर्ट एंड साइंस ऑफ़ कस्टमर रिलेशनशिप मैनेजमेंट"

  • एक ही लेखक द्वारा "डाटा माइनिंग तकनीक" पुस्तक

  • विशेष रूप से आर और संकुल पार्टी और एननेट

मैं एक गैर-लाभकारी समर्थन विपणन और संचालन पर काम करता हूं। विशेष रूप से शुरुआत में, मैंने मुख्य रूप से प्रत्यक्ष मेल अपीलों के लिए डेटा माइनिंग का उपयोग किया।

बाद में मैंने रैखिक बीजगणित, एंड्रयू एनजी की मशीन लर्निंग, सांख्यिकीय विधियों का परिचय (एसटीएटी 301) सीएसयू में लिया, आदि।

आपके लिए मैं दो पुस्तकों के साथ शुरू करने की सलाह देता हूं, एंड्रयू एनजी के पाठ्यक्रम, और, आपके आवेदन, निर्णय पेड़ों (आर में पार्टी पैकेज) पर निर्भर करता है।


9

मुझे लगता है कि यह वास्तव में एक अच्छा सवाल है, और अत्यधिक सामयिक है; मुझे यकीन नहीं है अगर वहाँ एक जवाब है, हालांकि। हाल के एक लेख ने डेटा विज्ञान को ऑनलाइन सीखना आसान था, यह सुझाव देकर विवाद का एक सौदा किया ( यहाँ देखें )। हालांकि उस लेख में वर्णित अधिकांश केस स्टडी के बारे में एक उल्लेखनीय बात यह है कि वे एक्ट्युरियल या गणितीय पृष्ठभूमि से आते हैं।

यह एक दिलचस्प बिंदु है, क्योंकि यह इंगित करता है कि कौरसेरा, स्टैनफोर्ड और edX जैसे ऑनलाइन पाठ्यक्रम आवश्यक कंप्यूटर विज्ञान कौशल को सिखाने में सहायक होते हैं, यह संभावना है कि कुछ गणितीय पृष्ठभूमि यह समझने के लिए आवश्यक है कि आप जो मॉडल लागू कर रहे हैं वह क्या है? । दूसरी ओर, एक समान रूप से मजबूत तर्क दिया जा सकता है कि इन लोगों को शुरू करने के लिए सभी विश्लेषणात्मक रूप से दिमाग में थे, और यही कारण है कि वे मात्रात्मक विषयों में काम करते हैं और साथ ही साथ उन्होंने मशीन लर्निंग को आसानी से उठाया और प्रतियोगिताओं में जीत हासिल की।

मुझे मौलिक रूप से लगता है कि यहां विश्लेषण समस्या का एक स्तर चल रहा है। जबकि गणितीय कौशल कभी-कभी आपके द्वारा लागू किए जा रहे एल्गोरिदम की संभाव्य जड़ों को समझने में सहायक होते हैं, वहाँ एक समान तर्क दिया जाता है कि अच्छा सॉफ्टवेयर इंजीनियरिंग कौशल आपको उच्च स्तर के विश्लेषण करने और एल्गोरिदम के कुछ हिस्सों को डालने की अनुमति देकर उतना ही जोड़ सकता है। अपने लक्ष्य को पूरा करने के लिए भले ही आपको पूरी तरह से समझ में न आए कि वे ऐसा क्यों कर रहे हैं । आम तौर पर, डेटा साइंस (और एसोसिएशन द्वारा मशीन लर्निंग) इस चौड़ाई के कारण एक रोमांचक क्षेत्र है - आप समस्याओं का समाधान करने के लिए एक डेटाबेस आदमी हो सकते हैं और जानवर बल का उपयोग कर सकते हैं, या एक गणितज्ञ जो सिमुलेशन का उपयोग करता है, या एक कंप्यूटर वैज्ञानिक जो अच्छी तरह से लाभ उठाता है एक इष्टतम तरीके से विभिन्न एल्गोरिदम और दृष्टिकोणों को एक साथ रखने के लिए कोड।

भविष्यवाणी में जोड़ने वाले सभी दृष्टिकोण अच्छे हैं, इसलिए मैं कहूंगा कि कुछ गणित सीखना क्षेत्र में सफलता का सबसे अच्छा मौका देने के लिए एक अच्छा विचार हो सकता है। यदि आप कुछ अच्छे शुरुआती बिंदु चाहते हैं, तो एमआईटी के पास कुछ अच्छे कम्प्यूटेशनल अनुप्रयोगों के साथ एक बड़ा रैखिक बीजगणित पाठ्यक्रम है , जिसे मुझे समझना आसान लगा। उनके पास स्टोचस्टिक प्रक्रियाओं और बहुक्रियात्मक कलन पर अन्य पाठ्यक्रम भी हैं जो आपके ज्ञान के निर्माण में भी रुचि ले सकते हैं।


गैर-विश्लेषणात्मक रूप से दिमाग वाले लोगों (या गैर या गरीब अमूर्त) को गणित को सरल बनाने से वास्तव में मदद नहीं मिलती है, जिसने हमेशा मुझे (+1) चिंतित किया है। इसके अलावा स्ट्रैंग लीनियर अलजेब्रा कोर्स पसंद आया, लेकिन क्या लीनियर अलजेब्रा ब्रूट गणना से ग्रहण करने वाला पहला गणित नहीं है? जैसा कि डेटा विज्ञान के लिए आसान लिंक है, शायद किसी ने पहले से ही जुटा लिया है, लेकिन हजार शेयर बाजार की प्रतियोगिताओं में 1 या 2 हजार से अधिक जमाखोरी कर सकते हैं, विशेषज्ञों को हरा देगा - इसलिए कोई भी रिकिंग स्टॉक प्राप्त कर सकता है!
फैरनॉन

4

गणित में एक मजबूत पृष्ठभूमि एमएल के लिए कुल अपेक्षित है? - एमएल के लिए एक जवाब और कुछ अटकलें आँकड़े के रूप में अवधारणा ;-)

1990 के आसपास मुझे कंप्यूटर बीजगणित से सहायता की उम्मीद थी, मुझे लगता है कि यह है, लेकिन यह काफी सीमित है। लेकिन यह निश्चित रूप से गणित सीखने में तेजी लाने में मदद करता है (अभ्यास द्वारा मैनिपुलेटरी कौशल विकसित करने की आवश्यकता है या केवल सरल अभ्यास करने में सक्षम होने के साथ प्राप्त करने का प्रयास करें)। मुझे माथेमैटिका के साथ फ्रेड स्जाबो का रैखिक बीजगणित मिला, इसका एक उत्कृष्ट उदाहरण है (लेकिन मैंने पहले से ही एक उन्नत सिद्धांत स्तर रैखिक बीजगणित पाठ्यक्रम लिया था।)

मैं 1988 से काम कर रहा हूं (जवाब देने के लिए कंप्यूटर इंटेंसिव मेथड्स को "आंकड़े से सिद्धांत और सिद्धांत - संक्षिप्त रूप से संक्षिप्त करें" - संक्षेप में) उत्तर नहीं या कम से कम आवश्यक नहीं है (आंकड़ों के लिए)। हमेशा और अधिक तेजी से और अधिक समझने में सक्षम हो जाएगा आम तौर पर अतिरिक्त गणितीय कौशल और समझ के साथ। मुझे लगता है कि मैं पास होना शुरू कर रहा हूं, लेकिन किसी को प्रायिकता पैदा करने वाले मॉडल और अनुमानों के हेरफेर-सक्षम प्रतिनिधित्व की आवश्यकता है जो कि सिर्फ खिलौना समस्याओं से अधिक के लिए वैध और उपयोगी है।

क्या मुझे एमएल के साथ जारी रखने से पहले अपने गणित के रिक्त स्थान भरने की कोशिश करनी चाहिए?

यह एक कठिन प्रयास है - एमएचओ में लगभग हर कोई जो आंकड़ों को समझता है, मानक के साथ बहुत ही सहज रूप से हेरफेर करके वहां पहुंच गया है और विशेष रूप से संभावना पैदा करने वाले मॉडल के मानक गणितीय अभ्यावेदन और अनुमान के गणितीय लक्षण वर्णन (गणितीय आंकड़ों के शीर्ष x%)। तो यह सिर्फ मूल बातें नहीं कर रहा है, लेकिन गणित के साथ वास्तविक आरामदायक है। (एक तरफ के रूप में, मेरे लिए फूरियर सिद्धांत आवश्यक था।)

ये प्रतिनिधित्व कठिन क्यों हैं (गणित के बहुत सारे के साथ भी)?

गर्ड गिजेनेज़र ने बहुत अधिक स्थापित किया है कि सरल बीमारी के साथ कोई चुनौती नहीं है। लिंक किए गए प्रश्न से एक संदर्भ का अच्छा उपयोग लगता है कि http://www.autonlab.org/tutorials/prob18.pdf

सामान्यीकरण करना कठिन क्यों है?

के परीक्षणों के लिए (दोहराया और अलग) - 2 ^ के

वी मान लेने वाले परीक्षणों के लिए - v ^ k

तो बाइनरी अज्ञात के लिए - 2 * v ^ k नमूना पथ संभावनाएं

पी मल्टीपल बाइनरी अज्ञात के लिए 2 ^ पी * वी ^ के

पी के लिए कई तर्कसंगत अज्ञात क्यू ^ पी * वी ^ के

इसके साथ सामना करने के लिए एक त्वरित रूप से गणनीय और बेशुमार शिशुओं के साथ गणित की ओर बढ़ता है, जो गणितीय विशेषज्ञता के साथ भी कई गलतफहमी और प्रतीत होने वाली विरोधाभास की ओर जाता है (जैसे बोरेल के विरोधाभास?)

इसके अतिरिक्त गैर-रेखीय खतरनाक गलतफहमी के लिए रेखीय है (जैसे कि पूर्व वितरण के बारे में जानकारी के बिना Noninformative Priors Winbugs और अन्य MCMC निर्दिष्ट करने के छिपे हुए खतरे ) और बातचीत और यादृच्छिक प्रभाव, आदि।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.