लागू डेटा विज्ञान में सूचना सिद्धांत का उपयोग


9

आज मैं जेम्स स्टोन द्वारा "सूचना सिद्धांत: एक ट्यूटोरियल परिचय" पुस्तक में भाग गया और लागू डेटा विज्ञान में सूचना सिद्धांत के उपयोग की सीमा के बारे में एक या दो क्षणों के लिए सोचा (यदि आप इसके साथ सहज नहीं हैं, तब भी कुछ अस्पष्ट शब्द हैं,) डेटा विश्लेषण , जो IMHO डेटा विज्ञान का गौरवशाली संस्करण है) के बारे में सोचें । मैं का काफी प्रयोग से अच्छी तरह परिचित हूँ सूचना सिद्धांत आधारित दृष्टिकोण , तरीकों और उपायों , विशेष रूप से एन्ट्रापी , हुड के नीचे विभिन्न सांख्यिकीय तकनीकों और डेटा विश्लेषण के तरीकों की।

हालांकि, मैं के बारे में उत्सुक हूँ हद / स्तर ज्ञान है कि एक के लिए आवश्यक है की लागू सामाजिक वैज्ञानिक करने के लिए सफलतापूर्वक चयन और लागू सिद्धांत का गणितीय मूल में भी गहरे गोते के बिना उन अवधारणाओं, उपाय और उपकरण। मैं आपके उत्तर की प्रतीक्षा कर रहा हूं, जो उपर्युक्त पुस्तक (या अन्य समान पुस्तकों के संदर्भ में मेरी चिंता को दूर कर सकता है - अनुशंसा करने के लिए स्वतंत्र महसूस) या सामान्य रूप से।

मैं प्रिंट या ऑनलाइन स्रोतों के लिए कुछ सिफारिशों की भी सराहना करूंगा, जो सूचना सिद्धांत और इसकी अवधारणाओं, दृष्टिकोण, विधियों और उपायों के संदर्भ में ( अन्य की तुलना में ) पारंपरिक सांख्यिकीय दृष्टिकोणों ( लगातार और बायेसियन ) की सराहना करते हैं ।


2
शायद एक पेड़ के निर्माण के दौरान एंट्रॉपी के उपयोग के सबसे ज्ञात और "लागू" मामले में से एक होता है। एल्गोरिथ्म विभाजित होने की संभावनाओं में से एक सूचना लाभ मीट्रिक लेना है, जो शीर्ष स्तर और डाउन स्तर के बीच एन्ट्रापी के बीच का अंतर है। अधिक जानकारी आप यहाँ है en.wikipedia.org/wiki/Information_gain_in_decision_trees
D.Castro

@ डी। कास्त्रो: आपकी टिप्पणी के लिए धन्यवाद - मैं उस मामले से अवगत हूं (और यहां तक ​​कि इस सटीक विषय पर एक उत्तर भी पोस्ट किया है यहां या तो क्रॉस मान्य, या डेटा साइंस एसई साइट पर)। मैं विषय के अधिक व्यापक कवरेज / चर्चा के लिए आशा कर रहा हूं।
अलेक्सांद्र बेलेख

1
मेरे लिए, और बड़े हिस्से में, यह अनुशासन या क्षेत्र की बात है जिसमें एक को प्रशिक्षित किया जाता है और साथ ही साथ भौगोलिक महाद्वीप भी। मेरे विचार से, भौतिकविदों, गणितज्ञों और शुद्ध मशीन लर्निंग के चिकित्सकों को सूचना सिद्धांत, जैसे, सांख्यिकीविदों, अर्थशास्त्रियों या मात्रात्मक वित्तीय विश्लेषकों की तुलना में अधिक गहराई से प्राप्त होने की संभावना है। इसके अलावा, मैं यूरोप में प्रशिक्षित लोगों के लिए इस पर दोगुना कर दूंगा, यानी यूरोपीय लोग आईटी से परिचित होने की अधिक संभावना रखते हैं। हालांकि, सांख्यिकीय सीखने के लिए मॉडल का आगमन राज्यों में डेटा वैज्ञानिकों के लिए बदल रहा है।
माइक हंटर

@DJohnson मिनट अंक के Minutest लेकिन ब्रिटेन में और शायद कहीं और आईटी == सूचना प्रौद्योगिकी। अन्यथा आपके इंप्रेशन मेरा लगते हैं।
निक कॉक्स

@NickCox धन्यवाद, आपकी बात राज्यों के लिए भी है। यह एक लंबी टिप्पणी थी और, अंतरिक्ष की अनुमति, मैंने शब्दों को बाहर कर दिया होगा या, अभी तक बेहतर, पहले के बिंदु पर परिचित का अर्थ पेश किया है।
माइक हंटर

जवाबों:


4

तो सवाल का पहला भाग: क्या डेटा वैज्ञानिकों को सूचना सिद्धांत जानने की आवश्यकता है ? मुझे लगा कि इसका उत्तर अभी हाल तक नहीं है। मेरे दिमाग को बदलने का कारण एक महत्वपूर्ण घटक है: शोर।

कई मशीन लर्निंग मॉडल (स्टोचस्टिक या नहीं) दोनों अपने एन्कोडिंग और ट्रांसफॉर्मेशन प्रक्रिया के हिस्से के रूप में शोर का उपयोग करते हैं और इनमें से कई मॉडलों में, आपको उस संभावना का पता लगाने की आवश्यकता होती है जो मॉडल के रूपांतरित आउटपुट को डिकोड करने के बाद प्रभावित होने वाले शोर को प्रभावित करती है। मुझे लगता है कि यह सूचना सिद्धांत का एक मुख्य हिस्सा है। इतना ही नहीं, डीप लर्निंग में, केएल डाइवर्जेंस एक बहुत ही महत्वपूर्ण उपाय है जिसका उपयोग सूचना सिद्धांत से भी होता है।

सवाल का दूसरा हिस्सा: मुझे लगता है कि सबसे अच्छा स्रोत डेविड मैकके की सूचना सिद्धांत, आविष्कार और लर्निंग एल्गोरिदम है । वह सूचना सिद्धांत से शुरू होता है और उन विचारों को अनुमान और तंत्रिका नेटवर्क दोनों में ले जाता है। Pdf डेव की वेबसाइट पर मुफ्त है और व्याख्यान ऑनलाइन हैं जो महान हैं


3
यह एक उत्कृष्ट पुस्तक है। किसी को भी रुचि en.wikipedia.org/wiki/David_J._C._MacKay
निक कॉक्स

आपके उत्तर के लिए धन्यवाद (+1 और संभावित स्वीकार, यदि कोई अधिक व्यापक उत्तर जल्द ही पर्याप्त नहीं होगा)। संदर्भों के लिए विशेष प्रशंसा। मुझे आश्चर्य है कि आप इस लगभग भूल गए, लेकिन महत्वपूर्ण, मेरा सवाल है। :-)
अलेक्सांद्र बेलेख

हाँ यह दिलचस्प है। आपको एक सवाल पर कभी हार नहीं माननी चाहिए। NIPS2016 में भाग लेने के बाद मेरे पास आया और मैंने केएल विचलन और एनकोडर पर शोर प्रभाव पर उन सभी वार्ता को देखा।
अंबोडी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.