जहां एक अनुभवी डेवलपर के लिए आंकड़ों के साथ शुरू करना है


47

2015 की पहली छमाही के दौरान मैंने मशीन लर्निंग (एंड्रयू एनजी, ग्रेट कोर्स द्वारा) का कोर्स किया। और मशीन लर्निंग (लीनियर रिग्रेशन, लॉजिस्टिक रिग्रेशन, एसवीएम, न्यूरोनल नेटवर्क्स ...) की मूल बातें सीखीं।

इसके अलावा, मैं 10 वर्षों के लिए डेवलपर रहा हूं, इसलिए नई प्रोग्रामिंग भाषा सीखना कोई समस्या नहीं होगी।

हाल ही में, मैंने मशीन लर्निंग एल्गोरिदम को लागू करने के लिए आर सीखना शुरू कर दिया है।

हालाँकि मैंने महसूस किया है कि अगर मैं सीखते रहना चाहता हूँ तो मुझे आँकड़ों की अधिक औपचारिक जानकारी की आवश्यकता होगी, वर्तमान में मुझे इसके बारे में एक गैर-औपचारिक ज्ञान है, लेकिन इतना सीमित है कि, उदाहरण के लिए, मैं ठीक से यह निर्धारित नहीं कर सकता कि कौन से कई रैखिक मॉडल हैं बेहतर होगा (आम तौर पर मैं इसके लिए आर-स्क्वायर का उपयोग करता हूं, लेकिन जाहिर है कि यह बहुत अच्छा विचार नहीं है)।

इसलिए मेरे लिए यह बहुत स्पष्ट है कि मुझे आंकड़ों की मूल बातें सीखने की जरूरत है (मैंने अध्ययन किया है कि मैंने यूनीआई में अध्ययन किया है, लेकिन यह सबसे अधिक भूल गया), मुझे कहां सीखना चाहिए, कृपया ध्यान दें कि मुझे वास्तव में पूरी तरह से व्यापक पाठ्यक्रम की आवश्यकता नहीं है, बस कुछ एक महीने के भीतर मुझे पर्याप्त जानने की अनुमति मिलती है ताकि मैं उत्सुक हो सकूं और अधिक सीख सकूं :)।

अब तक मैंने " आँसू के बिना सांख्यिकी " के बारे में पढ़ा है , कोई अन्य सुझाव?


2
सांख्यिकी के लिए: कैसेला, जी और आरएल बर्जर (2002): सांख्यिकीय आविष्कार, डक्सबरी। इकोनोमेट्रिक्स के लिए: हयाशी, एफ (2000): इकोनोमेट्रिक्स, प्रिंसटन यूनिवर्सिटी प्रेस। दूसरे दृष्टिकोण के लिए: आंकड़े.stackexchange.com/questions/91863/…
Guilherme Salomé

मैंने referencesटैग जोड़ा । आप उस विषय पर हिट के पहले पृष्ठ के माध्यम से स्कैन करना पसंद कर सकते हैं।
Glen_b

3
मुझे नहीं लगता कि इसे बंद किया जाना चाहिए। मैं इसे सीडब्ल्यू बनाने के लिए एक तर्क देखता हूं, हालांकि।
गंग - मोनिका

2
मेरे दृष्टिकोण से, ज्ञान पक्षपाती होगा यदि आप पहले संभावना सिद्धांतों के परिचित के बिना आंकड़े सीखना शुरू करते हैं।
मेटेरियट

2
मैं एक सावधानी शब्द जोड़ना चाहूंगा। मुझे लगता है कि आप इसे कुछ हद तक पहले से ही समझ रहे हैं, लेकिन मैं सिर्फ यह कहना चाहता हूं। मैं एक एमडी / पीएचडी छात्र हूं। मेरी एमडी डिग्री के साथ, मैं आंतरिक चिकित्सा का अभ्यास करने की योजना बना रहा हूं। मेरी पीएचडी के लिए, मैं बायोस्टैटिस्टिक्स का अध्ययन कर रहा हूं। मैं चाहता हूं कि आप यह जान सकें कि 1 महीने में आपको आंकड़ों की महारत हासिल नहीं हो सकती है। मैं किसी भी तरह से आपको सीखने के आंकड़ों से हतोत्साहित करने की कोशिश कर रहा हूं। इसके विपरीत, मुझे आशा है कि आप इसे भव्यता से समझेंगे। लेकिन सिर्फ यह समझें कि उदाहरण के लिए, डेवलपर बनने की चाह में यह किसी से कम नहीं है।
विन्सेन्ट लॉफर

जवाबों:


26

मैं आपको इसके बारे में एक बुनियादी रोड-मैप सुझाऊंगा कि इसके बारे में कैसे जाना जाए:

बोनस:

इस तरह के रोड मैप के लिए एक अद्भुत साइट मेटाकैडमी है , जिसे मैं व्यक्तिगत रूप से वेब पर सर्वश्रेष्ठ डेटा विज्ञान संसाधनों में से एक के रूप में लिखूंगा

Gitxiv एक और सुंदर साइट है, जो प्रासंगिक ओपन सोर्स इंप्लीमेंटेशन / लाइब्रेरीज़ के साथ डेटा साइंस पर Arxiv रिसर्च पेपर्स को जोड़ती है।


2
ओपी ने पहले ही एनजी का कोर्स कर लिया है, इसीलिए उसने उसे पहली बार में सवाल पूछने के लिए प्रेरित किया।
अक्कल

4
@ अक्षल मैंने इसे नोटिस किया है। लेकिन, इसे रोड मैप के एक हिस्से के रूप में शामिल किया। वास्तव में इससे कोई फर्क नहीं पड़ेगा, इसलिए मैंने सोचा कि इसमें उन लोगों की मदद की जाएगी जो इस पोस्ट को पढ़ रहे हैं।
Dawny33

12

क्या आपने या तो थिंक स्टैट्स या थिंक बेयस की जाँच कर ली है - ये दोनों (फ्री) स्टैटिस्टिक्स बुक्स हैं जो प्रोग्रामर की ओर और ढेर सारे पायथन कोड के साथ तैयार हैं।

इसके अलावा, यदि आप R सीखने में रुचि रखते हैं तो CRAN में बहुत सारे (मुफ्त) पीडीएफ़ हैं जिन्हें आप चेक आउट करना चाह सकते हैं, जैसे कि परिचय टू प्रोबेबिलिटी एंड स्टैटिस्टिक्स यू आर का उपयोग करना । वहाँ एक क्रेसरा कोर्स भी है जो आर का उपयोग करता है जो बहुत सारे लोग वास्तव में प्यार करते हैं (वे इस पाठ्यपुस्तक का उपयोग करते हैं , जिसे आप बाहर भी देख सकते हैं, और डेटाकैम्प पर प्रयोगशालाएं हैं , मुझे विश्वास है)।

इसके अलावा, यदि आप कुछ स्टैट्स विषयों पर ब्रश करना चाहते हैं, तो आप हमेशा खान अकादमी में युगल वीडियो देख सकते हैं ।


मुझे थिंक स्टैट्स और थिंक बेयस पसंद हैं लेकिन वे कोड के माध्यम से चीजों को प्राप्त करने के पक्ष में जानबूझकर बहुत से औपचारिक सांख्यिकीय सिद्धांत से बचते हैं। विषय पर सहज ज्ञान प्राप्त करने के लिए बढ़िया है, लेकिन उतना अच्छा नहीं है यदि आपका लक्ष्य अंतर्निहित सिद्धांत को समझना है।
मारियस

@ मेरी: मुझे पता है कि आपका क्या मतलब है। मैं सोच रहा था, हालांकि, क्योंकि वह पहले से ही एक प्रोग्रामर है और इसलिए भी कि वह "कुछ छोटा, सरल और त्वरित" चाहता था कि यह वह है जो वह ढूंढ रहा है।
स्टीव एस।

8

यदि आप कभी भी दूर के अतीत में थे , तो इस सूची में समस्याओं को हल करने में सक्षम हैं , तो आपको "ठीक से" लागू आंकड़ों का अध्ययन करने का प्रयास करना चाहिए । मैं तुम्हें एक सरल दो कदम एल्गोरिथ्म दे दूँगा।

सबसे पहले, संभावना सिद्धांत के साथ गति करने के लिए उठो। कई बेहतरीन किताबें हैं। फेलर की मेरी पसंदीदा क्लासिक किताब है। इसे "परिचय" कहा जाता है, लेकिन शीर्षक से मूर्ख मत बनो, यह उतना ही गहरा है जितना आप जाना चाहते हैं, फिर भी बहुत अच्छी तरह से लिखा और सरल है अगर आप सतह को स्किम करना चाहते हैं।

दूसरा चरण सांख्यिकी है। फिर, वहाँ महान पुस्तकों का एक टन है। मैं आपको एक प्रयोग करता हूं जो मैंने गुजराती "बेसिक इकोनोमेट्रिक्स", एक चौथा संस्करण द्वारा एक सभ्य परिचय पाठ का उपयोग किया है। अर्थमिति अर्थशास्त्र के लिए लागू आँकड़े हैं । एक संदर्भ के लिए, एक लड़का जो हर कोई सोचता है कि डेटा वैज्ञानिक अगले 10 वर्षों में एक सबसे सेक्सी नौकरी करने जा रहा है, बर्कले के अर्थशास्त्री हैल वेरियन है। बहुत सारी मशीन सीखने का सामान बुनियादी आँकड़ों, रिग्रेशन आदि पर आधारित होता है। इस किताब में जो कुछ भी शामिल है, और आपको यह सब पढ़ने की ज़रूरत नहीं है, यह इस तरह से लिखा गया है कि आप अपने स्वयं के क्रम में अध्याय चुन सकते हैं।

आपको यह देखकर आश्चर्य होगा कि इन ग्रंथों को पढ़ते हुए एनजी की कक्षा के बाहर जाने के बाद कितने अंतराल खुले रहते हैं।

एक चिकित्सक के रूप में, आपको इन दो चरणों के बाद बहुत अधिक सिद्धांत की आवश्यकता नहीं है। आप इस क्षेत्र में विशेष रूप से पुस्तकों को पढ़ते हुए एमएल तकनीक सीख सकते हैं। यह महत्वपूर्ण है कि शुरुआत में संभावना और आँकड़ों में बहुत गहराई तक न जाएं। अपना कोड पहले एमएल के लिए जा रहा है, और जैसे ही आप जाते हैं उसे अंतराल में भरें।


4

हर कोई Casella & Berger की सिफारिश कर रहा है, जो लगभग सार्वभौमिक रूप से स्नातक सांख्यिकी कार्यक्रमों में उपयोग किया जाता है। यह एक खराब संदर्भ पुस्तक नहीं है, लेकिन मुझे यकीन नहीं है कि मैं पहले 4-5 अध्यायों को स्कैन करने से ज्यादा करूंगा। मुझे नहीं लगता कि आपको "सांख्यिकी" अर्थात डेटा विश्लेषण में देरी करने से पहले नेमन-पियर्सन प्रकार परीक्षण का निर्माण करने के सिद्धांत की आवश्यकता है।

इसके बजाय, मैं सीखने के तरीकों पर ध्यान केंद्रित करूँगा। मेरे स्नातक कार्यक्रम में अक्सर होने वाले परीक्षणों के लिए एप्लाइड रैखिक सांख्यिकीय तरीके का उपयोग किया गया था, और यह एक बहुत ही अच्छा व्यापक संदर्भ है, लेकिन स्व-शिक्षण दृष्टिकोण से सबसे अधिक स्वीकार्य पुस्तक नहीं हो सकता है। MIT या coursera से एक या दो कोर्स उस पर शुरू करने का एक बेहतर तरीका हो सकता है, क्योंकि आपको एक पुस्तक पढ़ने से अधिक उदाहरणों के साथ एक व्यापक अवलोकन मिलेगा।

बेयस के लिए, मैंने जिस पुस्तक का सबसे अधिक बार उपयोग किया है, वह है डूइंग बेयसियन डेटा एनालिसिस , जो पिल्ला चित्रों के साथ आता है (स्पष्ट रूप से, यह पुस्तक अन्य बायेसियन परिचयात्मक पाठ्यपुस्तकों से बेहतर है)। मैंने स्वयं पुस्तक का उपयोग कभी नहीं किया है, लेकिन मैंने इसके माध्यम से छेड़ा है और यह जेलमैन की पुस्तक की तुलना में बहुत अच्छा है - बहुत अच्छा लगता है, जो मुझे बायसेनियन आंकड़ों में दो वर्गों के बीच कुछ समझ से बाहर पाया - स्पष्टीकरण भयानक हैं।


1
C & B के पहले 5 अध्याय वास्तव में आंकड़े नहीं हैं, पृष्ठभूमि की तरह अधिक ... अध्याय 6 की शुरुआत में एक आंकड़े की अवधारणा को संबोधित किया गया है! इस बिंदु पर, सीखने के तरीके शायद इस विशिष्ट व्यक्ति की मदद नहीं करेंगे। यह उसे आंकड़े लागू करने में मदद करेगा, इसे नहीं समझेगा, जो कि उसकी जरूरत है। अगर उनके पास गणितीय प्रशिक्षण है, तो वे इसे कुछ हद तक छोड़ सकते हैं, लेकिन उनका जवाब है कि वे वर्तमान में एमएल के आधार को समझने में असमर्थ हैं ... जो दृढ़ता से सुझाव देता है कि उनका गणित सीमित है (मेरे लिए, कम से कम)। सी एंड बी शुरू करने के लिए एक बुरी जगह नहीं हो सकती है।
विन्सेन्ट लॉफर

1
वे आंकड़े नहीं हो सकते हैं, लेकिन संभावना वितरण पर पृष्ठभूमि किसी भी प्रकार के मॉडलिंग करने के लिए आवश्यक है - आपको यह जानना होगा कि एक बर्नौली वितरण क्या है और इसके गुण क्या हैं इससे पहले कि आप लॉजिस्टिक प्रतिगमन को समझ सकें, उदाहरण के लिए। मैं अभी भी कभी-कभी C & B का संदर्भ देता हूं, लेकिन मुझे नहीं लगता कि मैंने उस पुस्तक का उपयोग करने वाली कक्षा के बाहर अध्याय 6 के बाहर कभी भी कुछ भी उपयोग किया है।
श्रवणप्लस

1
मैं आपके द्वारा कही गई बातों से काफी सहमत हूं, लेकिन यह प्रमुख बिंदु के बजाय विषयांतर से संबंधित है - जो कि पहली जगह में विषयांतर को जोड़ने के लिए मेरी गलती है। किसी भी दर पर, मुख्य बिंदु यह है कि जैसा कि कई अन्य लोगों ने सुझाव दिया है, ओपी को वास्तव में क्या करना है, सैद्धांतिक गणित और आंकड़ों की बेहतर समझ प्राप्त करना है। पोस्ट में ऐसा नहीं है जहां यह इंगित करता है कि उसे अधिक सांख्यिकीय परीक्षणों को लागू करने में मदद की आवश्यकता है। वह ऐसा कर सकता है। वह उन्हें और गहराई से समझना चाहता है। इसके लिए, C & B एप्लिकेशन ओरिएंटेड तैयारी पर अधिक हाथ सीखने से बेहतर है।
विंसेंट लॉफर

3

यह एक पूर्ण उत्तर होने का इरादा नहीं है, यह सिर्फ एक सुझाव है। यदि आप आँकड़ों (नींव) के बारे में अधिक जानना चाहते हैं, तो आप पढ़ सकते हैं:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

यह सांख्यिकीविदों के लिए एक सुंदर मानक पुस्तक है और इसके कई दिलचस्प परिणाम हैं। आपको प्रमेयों के सभी प्रमाणों से गुजरने की जरूरत नहीं है, लेकिन आप परिणामों के साथ अधिक सुरक्षित महसूस करने के लिए कुछ अभ्यास करना चाह सकते हैं।

यदि आप अर्थमिति (डेटा के लिए मॉडल) के बारे में अधिक जानना चाहते हैं, तो आप इस पर एक नज़र डाल सकते हैं:

Hayashi, F. (2000): Econometrics, Princeton University Press

किसी और ने वास्तव में कुछ ऐसा ही पूछा जो आपने पूछा और एक अच्छा जवाब मिला: "कैसला और बर्गर" के बाद क्या करना है

इसके अलावा, यदि आप वास्तव में इन पुस्तकों को पढ़ने का इरादा रखते हैं, तो एक अर्थमिति के पाठ्यक्रम का यह पाठ्यक्रम आपको काफी अच्छी दिशा और गति प्रदान कर सकता है कि क्या पढ़ना है (सीबी और हयाशी) और कब पढ़ना है।


सुझाव के लिए धन्यवाद, हालांकि पहली पुस्तक जिसका आप उल्लेख करते हैं, लगभग 660 पृष्ठों पर है ... मैंने बड़ी पुस्तकें पढ़ी हैं, लेकिन क्या कुछ छोटी, सरल और त्वरित है ताकि मुझे इसका एक मूल समझ मिल सके?
जुआन एंटोनियो गोमेज़ मोरियानो

3
कैसला और बर्जर आपको आंकड़ों के सिद्धांत का एक हिस्सा देगा, लेकिन आप डेटा विश्लेषण के बारे में बहुत कम सीखेंगे।
ग्लेन_ बी

1
@JuanAntonioGomezMoriano आप कितने छोटे थे? मैं हमेशा एक शुरुआती बिंदु के रूप में आंकड़ों के साथ झूठ बोलने का प्रशंसक था ।
icc97

(-1) वे ध्वनि जो किसी ऐसे व्यक्ति के लिए एकदम सही विकल्प हैं, जो सांख्यिकी के लिए गणितीय या सैद्धांतिक दृष्टिकोण पसंद करता है, ओपी द्वारा अनुरोधित चीज़ों के विपरीत।
गाला

1
उन्होंने कहा कि उन्हें आंकड़ों के बारे में अधिक "औपचारिक" ज्ञान और बुनियादी ज्ञान की आवश्यकता थी।
गिलहर्मे सालोमे

2

मैं एक नई पुस्तक का सुझाव दूंगा जो मूल प्रश्न के बाद से आई है: सांख्यिकीय रीथिंकिंग: ए बायेसियन कोर्स विथ एग्ज़ेम्‍स इन आर एंड स्‍टैन बाय रिचर्ड मैकलेर्थ, सीआरसी प्रेस।

यह बहुत अच्छी तरह से लिखा गया है और एक बायेसियन दृष्टिकोण का उपयोग करता है। यह बहुत इंटरैक्टिव है, और आप समस्याओं को हल करना चाहते हैं या आप आधे रास्ते से गुजर सकते हैं और खो जाना शुरू कर सकते हैं।

यह बहुत बुनियादी है और बहु-स्तरीय मॉडल के साथ शुरू होता है, और यह काफी उन्नत वैज्ञानिकों के उद्देश्य से है, जिनके पास कुछ सांख्यिकीय ज्ञान है, लेकिन आंकड़ों के साथ समग्र रूप से सहज महसूस नहीं करते हैं क्योंकि यह उन्हें सिखाया गया था। तो मैं बिल्कुल नहीं कह सकता कि यह एक शुरुआत की किताब है, लेकिन यह बहुत सरलता से शुरू होती है और उसके पास एक शानदार चाप और शैली है।

शीर्षक का "स्टेन" भाग एक सामान्य-उद्देश्य बेयसियन नमूनाकरण उपकरण है। अनिवार्य रूप से, यह एक प्रोग्रामिंग भाषा है जो C ++ में स्वचालित रूप से संकलित होती है और फिर एक निष्पादन योग्य के लिए संकलित हो जाती है। (बायेसियन इंट्रेंस सामान्य है, विकल्पों के विपरीत, इसलिए आपके पास एक सामान्यीकृत टूल हो सकता है।)


1

लगा कि मैं इस उत्तर को पोस्टीरिटी के लिए फेंक दूंगा, भले ही यह आपके लिए उपयोगी होने की संभावना है। लैरी वासरमैन के सभी सांख्यिकी को मशीन लर्निंग, अन्य COMP विज्ञान विषयों, या गणित में पृष्ठभूमि वाले लोगों के लिए एक पाठ्यक्रम के रूप में कल्पना की गई थी, जिनके पास कोई औपचारिक सांख्यिकी प्रशिक्षण नहीं था - यानी, लोग वास्तव में आपकी वर्तमान स्थिति में। औपचारिक आँकड़ों की इसी तरह की कमी के कारण, कुछ दोस्तों और मैंने एक स्व-अध्ययन समूह का गठन किया, जो कि धीरे-धीरे स्कूल में पढ़ता था। मुझे लगता है कि मैं वास्तव में उस अनुभव से लाभान्वित हुआ हूं।

वैशरमन मॉडल और बूटस्ट्रैपिंग जैसे विशिष्ट "संभाव्यता और सांख्यिकीय निष्कर्ष" पाठ्यक्रम सामग्री से परे अतिरिक्त विषय वासरमैन मशीन सीखने में काम करने वाले किसी व्यक्ति के लिए विशेष रूप से प्रासंगिक हैं। मुझे यह कहना चाहिए कि कैसैला और बर्जर जैसी किसी चीज की तुलना में पुस्तक बहुत अच्छी हो सकती है, इसलिए यदि आप कुछ हिस्सों के लिए अधिक विवरण या प्रेरणा चाहते हैं (विशेष रूप से प्रमाण) तो आपको इसे अन्य पठन सामग्री के साथ पूरक करना पड़ सकता है। इसने कहा, मैंने यह भी पाया कि पुस्तक को अच्छी संख्या में अभ्यास की समस्याओं के साथ स्पष्ट रूप से लिखा गया है, और यह एक उत्कृष्ट त्वरित संदर्भ है।

एक महीने बहुत समय नहीं है। यदि आप एक बहुत ही आक्रामक गति निर्धारित करते हैं, हालांकि, मुझे लगता है कि आप निश्चित रूप से एक सेमेस्टर में इस पाठ से बहुत कुछ प्राप्त कर सकते हैं: हमने अपने आत्म-अध्ययन समूह को गर्मियों में किया था, उदाहरण के लिए। यह विशेष रूप से सच है अगर आप ज्यादातर रैखिक मॉडलिंग में रुचि रखते हैं, जिसे आप Ch से मारेंगे। 13-14।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.