सांख्यिकीय अंतर्ज्ञान / डेटा अर्थ


20

मैं दूसरे वर्ष का स्नातक छात्र हूं, मैथ की पढ़ाई कर रहा हूं, और मैं अपने एक प्रोफेसर से गणित की क्षमता और सांख्यिकीय क्षमता के बीच के अंतर के बारे में अच्छी बात कर रहा हूं। उनके द्वारा लाए गए प्रमुख अंतरों में से एक "डेटा सेंस" था, जिसे उन्होंने तकनीकी क्षमता के संयोजन के रूप में समझाया था, जो कि मैं अनौपचारिक रूप से "सामान्य ज्ञान संयम" कहलाता था, अर्थात समस्या की वास्तविकता को देखते हुए नहीं हारता था। बहुत सारे सिद्धांत। यह एक उदाहरण है कि मैं किस बारे में बात कर रहा था, जो गोवर्स के ब्लॉग पर दिखाई दिया:

ब्रिटेन के कई हिस्सों में पुलिस ने आंकड़े इकट्ठा किए जहां सड़क दुर्घटनाएं हुईं, दुर्घटना ब्लैकस्पॉट की पहचान की, वहां स्पीड कैमरे लगाए, और अधिक आंकड़े एकत्र किए। स्पीड कैमरा लगाए जाने के बाद इन ब्लैकस्पॉट्स पर दुर्घटनाओं की संख्या के लिए एक निश्चित प्रवृत्ति थी। क्या यह निर्णायक रूप से दिखाता है कि स्पीड कैमरे सड़क सुरक्षा में सुधार करते हैं?

वही व्यक्ति जिसने बातचीत के खेल में यादृच्छिक रणनीति के लिए तर्क दिया, वह मूल रूप से इस प्रश्न का उत्तर पहले से ही जानता था। उन्होंने कहा कि नहीं, यदि आप चरम मामलों को उठाते हैं, तो आप उन्हें फिर से प्रयोग चलाने की उम्मीद करेंगे। मैंने इस सवाल पर जल्दी से आगे बढ़ने का फैसला किया क्योंकि कहने के लिए बहुत कुछ नहीं था। लेकिन मैंने लोगों को मेरे पास एक योजना के बारे में बताया, जो कि एक संगीन टेलीपैथी प्रयोग करना था। मैं उन्हें 20 सिक्के के परिणामों के परिणामों का अनुमान लगाने के लिए मिलूंगा, जो मैं उन्हें टेलीपैथिक रूप से बीम करने का प्रयास करूंगा। मैं फिर तीन सबसे अच्छे कलाकार और तीन सबसे खराब प्रदर्शन करूंगा, और सिक्कों को फिर से उछालूंगा, इस बार सबसे अच्छे लोगों से मुझे सबसे बुरे लोगों के जवाब देने में मदद करने के लिए कहेंगे। लोग आसानी से देख सकते थे कि प्रदर्शन में सुधार की उम्मीद की जाएगी और इसका टेलीपैथी से कोई लेना-देना नहीं होगा।

मैं यह पूछ रहा हूं कि इस "डेटा सेंस" के बारे में अधिक जानने के लिए , विषय पर किसी भी प्रकाशन के माध्यम से, यदि वे मौजूद हैं, या क्या अन्य उपयोगकर्ताओं ने इस कौशल को विकसित करने में मददगार पाया है। अगर इस प्रश्न को स्पष्ट करने की आवश्यकता है तो मुझे खेद है; यदि हां, तो कृपया अपने प्रश्न पोस्ट करें! धन्यवाद।


आंकड़ों के साथ कैसे झूठ बोलना शुरू करने के लिए एक शानदार जगह है।
मॉन्सटी

ड्रंकर्ड वॉक भी एक सुलभ, स्मारक रूपरेखा में आंकड़े रखता है।
माक्र्स मॉरिस

जवाबों:


10

मैं सबसे पहले कहूंगा कि हमें मामूली गणित नहीं करना चाहिए। यह सांख्यिकीय सिद्धांत के विकास में एक महत्वपूर्ण उपकरण है और सांख्यिकीय तरीके सिद्धांत द्वारा उचित हैं। सिद्धांत आपको यह भी बताता है कि क्या गलत है और क्या तकनीकी बेहतर हो सकता है (जैसे अधिक कुशल)। इसलिए मुझे लगता है कि एक अच्छा सांख्यिकीविद् होने के लिए गणितीय ज्ञान और सोच महत्वपूर्ण (लगभग आवश्यक) है। लेकिन यह निश्चित रूप से पर्याप्त नहीं है। मुझे लगता है कि टिप्पणियों में संदर्भित पुस्तकें अच्छी हैं। मुझे कुछ और दे दो।

डेटा की समझ बनाना: एक व्यावहारिक गाइड डेटा विश्लेषण और डेटा खनन करने के लिए

डेटा की नब्ज बनाना: डेटा विज़ुअलाइज़ेशन, एडवांस्ड डेटा माइनिंग मेथड्स, और एप्लिकेशन के लिए एक प्रैक्टिकल गाइड

सांख्यिकीय सोच: व्यावसायिक प्रदर्शन में सुधार

व्यापार और उद्योग में सांख्यिकी की भूमिका

सांख्यिकी में एक कैरियर: नंबर से परे

हैन और स्नी की पुस्तकें विशेष रूप से मूल्यवान और दिलचस्प हैं क्योंकि ये गणितीय कौशल और व्यावहारिक अनुभव के साथ प्रसिद्ध औद्योगिक सांख्यिकीविद् हैं।


7
लिंक और टिप्पणी के लिए धन्यवाद। मुझे लगता है कि आम तौर पर [manuscript title](uri) लिंक मार्कडाउन का उपयोग करके उत्तरों में सुधार किया जा सकता है । एक लंबे दिन के बाद, मुझे लगता है कि लंबे हाइपरलिंक्स के साथ जवाबों का आना अवचेतन रूप से घबराहट हो सकता है, और दुर्भाग्य से एक अन्यथा अच्छे उत्तर के खिलाफ एक पाठक को पूर्वाग्रह हो सकता है।
jthetzel

@jthetzel मैं देख सकता हूं कि एक लिंक में url की जगह नाम रखना बेहतर क्यों है। जब मेरे पास समय होगा तो मैं इसे करना सीख जाऊंगा। मुझे पता है कि यह आसान है। लेकिन मैंने तीन या चार लिंक दिए। लिंक पर क्लिक करने और यह देखने के लिए लगभग कोई समय नहीं है। इसलिए मुझे वास्तव में यह समझ में नहीं आता है कि इतने सारे समुदाय के सदस्य इस पर एक बड़ा सौदा क्यों करते हैं।
माइकल आर। चेरिक

6

आपके द्वारा उल्लेखित उदाहरण में, मूल मुद्दा कारणगत निष्कर्ष है। एंड्रयू जेलमैन द्वारा इस ट्रिपल-बुक-रिव्यू , और उसमें समीक्षा की गई किताबों की समीक्षा के लिए एक अच्छी जगह है। कारण अनुमान के बारे में सीखने के अलावा, आपको खोजपूर्ण डेटा विश्लेषण, विवरण और भविष्यवाणी के मूल्य के बारे में सीखना चाहिए।

मैंने सामाजिक वैज्ञानिकों को प्रकाशित काम, ब्लॉग , सेमिनार, और व्यक्तिगत बातचीत में एक-दूसरे के शोध की आलोचना करते हुए सुनकर एक अविश्वसनीय राशि सीखी है - सीखने के बहुत सारे तरीके हैं। इस साइट और एंड्रयू जेलमैन के ब्लॉग का अनुसरण करें।

बेशक, यदि आप डेटा-सेंस चाहते हैं, तो आपको वास्तविक डेटा के साथ काम करने की आवश्यकता है। सामान्य डेटा-सेंस कौशल हैं, लेकिन डेटा-सेंस भी है जो किसी समस्या क्षेत्र के लिए विशिष्ट है, या इससे भी अधिक विशेष रूप से डेटा-सेंस एक विशेष डेटासेट के लिए विशिष्ट है।


5

एक अच्छा, मुफ्त संसाधन संभावना समाचार विकी है । इसमें कई उदाहरण हैं जो वास्तविक उदाहरणों से अच्छे और बुरे बिंदुओं की चर्चा के साथ खींचे जाते हैं कि लोग डेटा और आंकड़ों की व्याख्या कैसे करते हैं। अक्सर चर्चा के प्रश्न भी होते हैं (दृष्टि की प्रेरणा का एक हिस्सा आँकड़ों के शिक्षकों को छात्रों के साथ चर्चा करने के लिए वास्तविक दुनिया के उदाहरण देना है)।


5

एक महान प्रश्न के लिए +1! (और सभी उत्तरदाताओं के लिए +1 इस प्रकार अब तक।)

मुझे लगता है कि डेटा सेंस के रूप में बहुत कुछ ऐसा है, लेकिन मुझे नहीं लगता कि इसके लिए कुछ रहस्यमय है। मैं जिस उपमा का उपयोग करता हूं वह ड्राइविंग के लिए है। जब आप सड़क पर गाड़ी चला रहे होते हैं, तो आपको पता होता है कि दूसरी कारों के साथ क्या हो रहा है। उदाहरण के लिए, आप जानते हैं कि आपके सामने वाला लड़का उस गली के चिन्ह की तलाश कर रहा है, जहाँ वह मुड़ने वाला है, भले ही वह अपने टर्न-सिग्नल का उपयोग न कर रहा हो। आप स्वचालित रूप से धीमे, अधिक सतर्क चालक की पहचान करते हैं और अनुमान लगाते हैं कि वे विभिन्न स्थितियों में कैसे प्रतिक्रिया देंगे। आप उस किशोरी को हाजिर कर सकते हैं जो सिर्फ उतनी ही तेजी से दौड़ना चाहती है जितना वह जा सकती है। आपके पास एक मान्यता-आधारित भावना है कि सभी कारें क्या कर रही हैं। यह बिल्कुल डेटा सेंस के समान है। यह अनुभव से आता है, बहुत सारेअनुभव का। यदि आप सिद्धांत के बारे में पर्याप्त जानते हैं, तो आपको वास्तविक डेटासेट के साथ खेलना शुरू करना होगा। आपको DASL जैसी साइट की खोज में रुचि हो सकती है । हालांकि एक शर्त यह है कि आपको सिर्फ डेटासेट लोड करने, परीक्षण चलाने और पी-मान प्राप्त करने का अनुभव नहीं होना चाहिए। आपको डेटा का पता लगाने की आवश्यकता होगी, शायद इसे अलग-अलग तरीके से प्लॉट करें, कुछ मॉडल फिट करें, और सोचें कि क्या चल रहा है। (ध्यान दें कि EDA यहां एक सामान्य धागा रहा है।)

इस प्रक्रिया के बारे में संभवतः एक गैर-स्पष्ट तथ्य यह है कि डेटा अर्थ किसी दिए गए सामयिक क्षेत्र में स्थानीयकृत किया जा सकता है। उदाहरण के लिए, आपको प्रायोगिक डेटा और एनोवा के साथ काम करने का बहुत अनुभव मिल सकता है, लेकिन जरूरी नहीं है कि जब आप समय-श्रृंखला डेटा या उत्तरजीविता डेटा को देखें तो क्या हो रहा है।

मुझे एक और रणनीति जोड़ने दें जो मुझे बहुत मददगार लगी है: मुझे लगता है कि यह थोड़ा (सांख्यिकीय) प्रोग्रामिंग सीखने के लिए आपके समय के लायक है। आपको इसमें बहुत अच्छा होने की ज़रूरत नहीं है (मुझे "हास्य रूप से अक्षम" कोड लिखने के लिए जाना जाता है)। हालांकि, एक बार जब आप कुछ बुनियादी प्रक्रियात्मक कोड (जैसे कहते हैं R) लिख सकते हैं , तो आप अनुकरण कर सकते हैं । मेरे लिए यह बहुत कठिन होगा कि मैं बहुत सरल सिमुलेशन को संचालित करने में कितना सक्षम हो सकता हूं। इसके लिए आप एक चीज का उपयोग कर सकते हैं, जब आपकी पढ़ाई के दौरान, आप कुछ संपत्ति के बारे में पढ़ते हैं, तो आप उसका पता लगा सकते हैं। उदाहरण के लिए, यदि आप जानते हैं (अमूर्त रूप से) कि यह निर्धारित करना मुश्किल है कि कोई लॉजिट या प्रोबेट मॉडल किसी डेटासेट के लिए बेहतर है, तो आप इस के सरल सिमुलेशन को कोड कर सकते हैंऔर विचार को पूरी तरह से समझने के लिए उनके साथ खेलें। यह आपको अनुभव प्रदान करेगा, लेकिन थोड़े अलग प्रकार का, और आपको अपने डेटा अर्थ को विकसित करने में भी मदद करेगा।


+1 सिमुलेशन से सीखने के मूल्य पर जोर देने के लिए।
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.