"बिग डेटा" मीडिया में हर जगह है। हर कोई कहता है कि "बड़ा डेटा" 2012 के लिए बड़ी बात है, उदाहरण के लिए KDNuggets 2012 के लिए गर्म विषयों पर सर्वेक्षण । हालाँकि, मेरी यहाँ गहरी चिंताएँ हैं। बड़े डेटा के साथ, हर कोई बस कुछ भी पाने के लिए खुश लगता है। लेकिन क्या हम सभी क्लासिक सांख्यिकीय सिद्धांतों जैसे कि परिकल्पना परीक्षण और प्रतिनिधि नमूनाकरण का उल्लंघन नहीं कर रहे हैं?
जब तक हम समान डेटा सेट के बारे में केवल भविष्यवाणियां करते हैं, यह ठीक होना चाहिए। इसलिए अगर मैं ट्विटर उपयोगकर्ता के व्यवहार की भविष्यवाणी करने के लिए ट्विटर डेटा का उपयोग करता हूं, तो शायद ठीक है। हालाँकि, उदाहरण के लिए ट्विटर डेटा का उपयोग करते हुए चुनाव पूरी तरह से इस तथ्य की उपेक्षा करते हैं कि ट्विटर उपयोगकर्ता पूरी आबादी के लिए एक प्रतिनिधि नमूना नहीं हैं। इसके अलावा, अधिकांश विधियां वास्तव में एक सच्चे "जमीनी स्तर" के मूड और एक अभियान के बीच अंतर करने में सक्षम नहीं होंगी। और ट्विटर अभियानों से भरा है। इसलिए जब ट्विटर का विश्लेषण करते हैं, तो आप जल्दी से सिर्फ प्रचार और बॉट्स को मापते हैं। (उदाहरण के लिए देखें "याहू अमेरिका के राजनीतिक विजेताओं की भविष्यवाणी करता है"जो चुनाव को कोसने से भरा है और "भावना का विश्लेषण बहुत बेहतर है"। उन्होंने भविष्यवाणी की "रोमनी के नामांकन जीतने की 90 प्रतिशत संभावना है, और दक्षिण कैरोलिना प्राथमिक जीतने की" (उनके पास 28% थी, जबकि गिंगरिच के पास इस प्राथमिक में 40% थी)।
क्या आप जानते हैं कि अन्य ऐसे बड़े डेटा विफल हो जाते हैं ? मुझे मोटे तौर पर याद है कि एक वैज्ञानिक ने भविष्यवाणी की थी कि आप 150 से अधिक मित्रता नहीं रख सकते। उन्होंने वास्तव में केवल फ्रेंडस्टर में एक कैप लिमिट की खोज की थी ...
जैसा कि ट्विटर डेटा, या वास्तव में वेब से एकत्र किए गए किसी भी "बड़े डेटा" के लिए है, मेरा मानना है कि अक्सर लोग अपने डेटा को इकट्ठा करने के तरीके से भी अतिरिक्त पूर्वाग्रह का परिचय देते हैं। कुछ ट्विटर के सभी होगा। उनके पास एक निश्चित उपसमूह होगा जो उन्होंने खर्च किया था, और यह अभी तक उनके डेटा सेट में एक और पूर्वाग्रह है।
डेटा को एक परीक्षण सेट में विभाजित करना या क्रॉस सत्यापन करने की संभावना से बहुत मदद नहीं मिलती है। दूसरे सेट में एक ही पूर्वाग्रह होगा। और बड़े डेटा के लिए, मुझे अपनी जानकारी को इतनी दृढ़ता से "संपीड़ित" करने की आवश्यकता है कि मैं ओवरफिट होने की संभावना नहीं हूं।
मैंने हाल ही में इस मजाक को सुना, बड़े डेटा वैज्ञानिक के साथ जो पता चला कि दुनिया में लगभग 6 लिंग हैं ... और मैं ऐसा होने की सिर्फ कल्पना कर सकता हूं ... "पुरुष, महिला, Orc, प्यारे, हाँ और नहीं"।
तो क्या तरीकों में हमें विश्लेषण में कुछ सांख्यिकीय वैधता प्राप्त करना है, विशेष रूप से "बड़े डेटा" डेटा के बाहर कुछ भविष्यवाणी करने की कोशिश करते समय?