large-data पर टैग किए गए जवाब

Situations बड़ा डेटा ’उन स्थितियों को संदर्भित करता है जहां टिप्पणियों (डेटा बिंदुओं) की संख्या इतनी बड़ी है कि यह डेटा विश्लेषक के विश्लेषण के बारे में सोचने या संचालित करने के तरीके में बदलाव की आवश्यकता है। ('उच्च आयामीता' के साथ भ्रमित होने की नहीं।)

12
मुझे शून्य सहित गैर-नकारात्मक डेटा को कैसे बदलना चाहिए?
यदि मेरे पास अत्यधिक सकारात्मक डेटा है तो मैं अक्सर लॉग लेता हूं। लेकिन मुझे अत्यधिक तिरछे गैर-नकारात्मक डेटा के साथ क्या करना चाहिए जिसमें शून्य शामिल हैं? मैंने दो परिवर्तन देखे हैं: log(x+1)लॉग इन करें⁡(एक्स+1)\log(x+1) जिसमें नीट फीचर है जो 0 मैप से 0 तक है। log(x+c)लॉग इन करें⁡(एक्स+सी)\log(x+c) …

14
क्या बड़े डेटा सेट परिकल्पना परीक्षण के लिए अनुपयुक्त हैं?
अम्स्टैट न्यूज़ के एक हालिया लेख में , लेखकों (मार्क वैन डेर लान और शीरी रोज़) ने कहा कि "हम जानते हैं कि बड़े पर्याप्त नमूने के आकार के लिए, प्रत्येक अध्ययन - जिसमें कोई प्रभाव नहीं है की शून्य परिकल्पना सच है - की घोषणा करेगा सांख्यिकीय रूप से …

5
बड़े पैमाने पर सांख्यिकीय विश्लेषण करने के लिए कौन से कौशल की आवश्यकता होती है?
कई सांख्यिकीय नौकरियां बड़े पैमाने पर डेटा के साथ अनुभव के लिए पूछती हैं। सांख्यिकीय और कम्प्यूटेशनल कौशल के प्रकार क्या हैं जिन्हें बड़े डेटा सेट के साथ काम करने की आवश्यकता होगी। उदाहरण के लिए, प्रतिगमन मॉडल के निर्माण के बारे में 10 मिलियन नमूनों के साथ डेटा सेट …

7
उद्योग बनाम कागल की चुनौतियां। क्या अधिक अवलोकन एकत्र करना और फैंसी मॉडलिंग की तुलना में अधिक चर का उपयोग करना अधिक महत्वपूर्ण है?
मुझे आशा है कि शीर्षक स्व व्याख्यात्मक है। कागले में, अधिकांश विजेता एमएसई, सटीकता के कुछ अतिरिक्त% निचोड़ने के लिए कभी-कभी सैकड़ों आधार मॉडल के साथ स्टैकिंग का उपयोग करते हैं ... सामान्य तौर पर, आपके अनुभव में, फैंसी मॉडलिंग जैसे कि स्टैकिंग बनाम बस अधिक डेटा और अधिक सुविधाएँ …

8
क्या data बड़े डेटा ’के समय में नमूना लेना प्रासंगिक है?
या अधिक "तो यह होगा"? बिग डेटा आँकड़ों और प्रासंगिक ज्ञान को और अधिक महत्वपूर्ण बनाता है लेकिन नमूना थ्योरी को रेखांकित करता है। मैंने 'बिग डेटा' के आसपास यह प्रचार देखा है और आश्चर्यचकित नहीं कर सकता कि "क्यों" मैं हर चीज का विश्लेषण करना चाहता हूं ? क्या …

10
एक विशाल रीड-एक बार डेटा सेट के मध्य का अनुमान लगाने के लिए एक अच्छा एल्गोरिथ्म क्या है?
मैं एक अच्छे एल्गोरिथ्म (न्यूनतम संगणना, न्यूनतम भंडारण आवश्यकताओं का अर्थ) की तलाश कर रहा हूं ताकि किसी डेटा सेट के मध्य का अनुमान लगाया जा सके, जो स्टोर करने के लिए बहुत बड़ा है, जैसे कि प्रत्येक मूल्य को केवल एक बार पढ़ा जा सकता है (जब तक कि …

10
वास्तव में बिग डेटा क्या है?
मुझे कई अवसरों पर सवाल पूछा गया है: बिग-डेटा क्या है? छात्रों और मेरे रिश्तेदारों द्वारा जो आंकड़े और एमएल के आसपास चर्चा उठा रहे हैं। मुझे यह सीवी-पोस्ट मिला । और मुझे लगता है कि मैं वहां एकमात्र जवाब से सहमत हूं। विकिपीडिया पृष्ठ भी इस पर कुछ टिप्पणी …
44 large-data 

2
"बड़े डेटा" से वैध निष्कर्ष कैसे निकालें?
"बिग डेटा" मीडिया में हर जगह है। हर कोई कहता है कि "बड़ा डेटा" 2012 के लिए बड़ी बात है, उदाहरण के लिए KDNuggets 2012 के लिए गर्म विषयों पर सर्वेक्षण । हालाँकि, मेरी यहाँ गहरी चिंताएँ हैं। बड़े डेटा के साथ, हर कोई बस कुछ भी पाने के लिए …

6
महत्व आकार परीक्षण महत्व के लिए परिकल्पना के रूप में
आज, क्रॉस वेलिडेटेड जर्नल क्लब में (आप वहां क्यों नहीं थे?), @Mbq ने पूछा: क्या आपको लगता है कि हम (आधुनिक डेटा वैज्ञानिक) जानते हैं कि महत्व क्या है? और यह हमारे परिणामों में हमारे विश्वास से कैसे संबंधित है? @ मिचेल ने उत्तर दिया कि कुछ (मेरे सहित) आमतौर …

5
बहुत उच्च आयामी वर्गीकरण के लिए मुफ्त डेटा सेट [बंद]
1000 से अधिक सुविधाओं के साथ वर्गीकरण के लिए स्वतंत्र रूप से उपलब्ध डेटा सेट क्या हैं (या नमूना अंक यदि इसमें वक्र हैं)? मुफ्त डेटा सेट के बारे में पहले से ही एक समुदाय विकि है: स्वतंत्र रूप से उपलब्ध डेटा नमूनों का पता लगाना लेकिन यहाँ, एक और …

3
स्किकिट-सीख का उपयोग कर बहुपद प्रतिगमन
मैं बहुपद प्रतिगमन के लिए scikit-learn का उपयोग करने की कोशिश कर रहा हूं। मैं बहुपद प्रतिगमन को जो भी पढ़ता हूं वह रैखिक प्रतिगमन का एक विशेष मामला है। मैं सोच रहा था कि हो सकता है कि scitit के सामान्यीकृत रैखिक मॉडल में से एक को उच्च क्रम …

9
सांख्यिकी और डेटा खनन सॉफ्टवेयर उपकरण बड़े डेटासेट से निपटने के लिए
वर्तमान में मुझे लगभग 20M रिकॉर्ड का विश्लेषण करना है और भविष्यवाणी मॉडल का निर्माण करना है। अब तक मैंने स्टैटिस्टिका, एसपीएसएस, रैपिडमाइनर और आर। की कोशिश की है। इनमें से स्टेटिस्टिका डेटा माइनिंग से निपटने के लिए सबसे उपयुक्त प्रतीत होती है और रैपिडमाइनर यूजर इंटरफेस भी बहुत काम …

1
कला स्ट्रीमिंग सीखने की अवस्था
मैं हाल ही में बड़े डेटा सेट के साथ काम कर रहा हूं और स्ट्रीमिंग विधियों के बहुत सारे पेपर पाए गए हैं। कुछ नाम है: अनुवर्ती नियमित नेता और मिरर डीसेंट: समतुल्यता सिद्धांत और L1 नियमितीकरण ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) स्ट्रीमिंग लर्निंग: एक-पास एसवीएम ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) पेगासोस: एसवीएम के …

1
एक विशाल विरल आकस्मिक तालिका की कल्पना कैसे करें?
मेरे पास दो चर हैं: ड्रग नाम (डीएन) और इसी प्रतिकूल घटना (एई), जो कई-से-कई संबंधों में हैं। 33,556 दवा के नाम और 9,516 प्रतिकूल घटनाएं हैं। नमूना का आकार लगभग 5.8 मिलियन अवलोकन है। मैं डीएन और एई के बीच संबंध / संबंध का अध्ययन और समझना चाहता हूं। …

3
बड़े डेटा के लिए पहला कदम (
मान लें कि आप प्रति दिन अरबों टिप्पणियों की धुन पर एक विशाल डेटा सेट का विश्लेषण कर रहे हैं, जहां प्रत्येक अवलोकन में कुछ हज़ार विरल और संभवतः निरर्थक संख्यात्मक और श्रेणीबद्ध चर हैं। मान लीजिए कि एक प्रतिगमन समस्या है, एक असंतुलित बाइनरी वर्गीकरण समस्या है, और एक …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.