डेटा खनिक के लिए प्रयोगात्मक डिजाइन में एक कोर्स


11

मैं डाटा खनन में काम करने वाला एक कंप्यूटर वैज्ञानिक हूं। यह कहना कोई रहस्य नहीं है कि कंप्यूटर वैज्ञानिक व्यवस्थित प्रयोगात्मक डिजाइन और मूल्यांकन करने में काफी गरीब हैं - पी-मूल्यों और आत्मविश्वास अनुमानों का उपयोग उन्नत माना जाता है :)।

क्या मैं जानना चाहूंगा कि क्या अच्छे प्रयोगात्मक डिजाइन के बारे में कंप्यूटर वैज्ञानिकों को सिखाने के लिए अच्छे पाठ्यक्रम / सामग्री हैं। इसे और अधिक विशिष्ट बनाने के लिए, मैं निम्नलिखित जानकारी जोड़ूंगा:

  • पाठ्यक्रम को स्नातक छात्रों पर लक्षित किया जाना चाहिए, जिन्हें संभाव्यता की एक उचित समझ है, लेकिन आंकड़ों में सीमित पृष्ठभूमि।
  • पाठ्यक्रम को "अनियंत्रित अप्राकृतिक सेटिंग्स" में प्रयोगात्मक डिजाइन पर ध्यान केंद्रित करना चाहिए: दूसरे शब्दों में न तो एक अंतर्निहित भौतिक जमीनी सच्चाई है या डेटा एकत्रित करने की प्रक्रिया को नियंत्रित करने का एक तरीका है (मानव विषयों के साथ)। बेशक एक अच्छा पाठ्यक्रम बुनियादी बातों पर केंद्रित होगा, लेकिन इसे इस परिदृश्य से महत्वपूर्ण तरीके से निपटना चाहिए।
  • एक कम्प्यूटेशनल तत्व एक बोनस होगा लेकिन अनिवार्य नहीं है। हम बहुत सारे डेटा से निपटते हैं, लेकिन जरूरत पड़ने पर कम्प्यूटेशनल मुद्दों का पता लगा सकते हैं।

1
आपके द्वारा वर्णित प्रयोग की सभी शर्तें मुझे ए / बी-टेस्ट की याद दिलाती हैं ... संयोग? :)
स्टीफन

जवाबों:


5

[नूह स्मिथ] [१] और [डेविड स्मिथ] [२] कुछ समय पहले JHU में समान प्रेरणाओं के साथ एक कोर्स की पेशकश की।

रूपरेखा:

  • व्याख्यान 1: परिचय, आंकड़ों की समीक्षा, परिकल्पना परीक्षण, नमूनाकरण
  • व्याख्यान 2: ब्याज के आँकड़े: का अर्थ है, मात्राएँ, विचरण
  • व्याख्यान 3–4: रनटाइम और "स्पेस" के साथ प्रयोग
  • व्याख्यान 5: खोजपूर्ण डेटा विश्लेषण
  • व्याख्यान 6: पैरामीट्रिक मॉडलिंग, प्रतिगमन और वर्गीकरण
  • व्याख्यान 7: सांख्यिकीय डिबगिंग और प्रोफाइलिंग
  • व्याख्यान 8: सारांश और समीक्षा

विवरण के लिए, कंप्यूटर विज्ञान में अनुभवजन्य अनुसंधान के तरीके (600.408) http://www.cs.jhu.edu/~nasmith/erm/ देखें


4

मैं आपको पाठ्यक्रमों के बजाय दो किताबें दे सकता हूं

पहला, जैव सूचना विज्ञान के अनुप्रयोग के रूप में और दूसरा किसी भी विषय के लिए



3

अच्छा प्रश्न। मैं प्रतिक्रियाओं को देखने के लिए उत्सुक हूं।

एक सांख्यिकीय दृष्टिकोण से दो मुद्दों को संबोधित करने की आवश्यकता है: अधिकांश आंकड़े और सांख्यिकीय डिजाइन छोटे नमूना आंकड़ों पर चर्चा करते हैं और इंजीनियरों द्वारा उपयोग की जाने वाली अधिकांश कार्यप्रणाली "आधुनिक" आंकड़े नहीं हैं।

मेरे पास डेटा माइनिंग / एक्सप्लोरेशन में अच्छी स्कूली शिक्षा और जनसंख्या के विश्लेषण (या बड़े नमूने) के आँकड़ों के साथ सामना करने के दौरान सांख्यिकीय रूप से अलग होने के अर्थ से परे पहली समस्या के लिए कोई तत्काल सुझाव नहीं है।

हालाँकि छात्रों को आँकड़ों से परिचित कराने के लिए रुचि की दो पुस्तकें रैंड विलकॉक्स (एक मनोवैज्ञानिक) से होंगी:

विलकॉक्स, आरआर (2012)। रोबस्ट अनुमान और परिकल्पना परीक्षण का परिचय, 3 एड। अकादमिक प्रेस।

विलकॉक्स, आरआर (2010)। आधुनिक सांख्यिकीय विधियों के मूल तत्व: शक्ति और सटीकता में सुधार, स्प्रिंगर, 2 एड।


2
यह मुझे लगता है कि पहला मुद्दा अनुसंधान के लिए एक है, और अभी तक "सर्वोत्तम अभ्यास" नहीं हो सकता है। यह बहुत अच्छी तरह से हो सकता है कि कई परिकल्पना समस्या में बुनियादी परीक्षण और ड्रिलिंग के लिए एक ठोस परिचय शुरू करने के लिए सबसे अच्छी जगह हो सकती है।
सुरेश वेंकटसुब्रमण्यन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.