"बड़े डेटा" से वैध निष्कर्ष कैसे निकालें?


40

"बिग डेटा" मीडिया में हर जगह है। हर कोई कहता है कि "बड़ा डेटा" 2012 के लिए बड़ी बात है, उदाहरण के लिए KDNuggets 2012 के लिए गर्म विषयों पर सर्वेक्षण । हालाँकि, मेरी यहाँ गहरी चिंताएँ हैं। बड़े डेटा के साथ, हर कोई बस कुछ भी पाने के लिए खुश लगता है। लेकिन क्या हम सभी क्लासिक सांख्यिकीय सिद्धांतों जैसे कि परिकल्पना परीक्षण और प्रतिनिधि नमूनाकरण का उल्लंघन नहीं कर रहे हैं?

जब तक हम समान डेटा सेट के बारे में केवल भविष्यवाणियां करते हैं, यह ठीक होना चाहिए। इसलिए अगर मैं ट्विटर उपयोगकर्ता के व्यवहार की भविष्यवाणी करने के लिए ट्विटर डेटा का उपयोग करता हूं, तो शायद ठीक है। हालाँकि, उदाहरण के लिए ट्विटर डेटा का उपयोग करते हुए चुनाव पूरी तरह से इस तथ्य की उपेक्षा करते हैं कि ट्विटर उपयोगकर्ता पूरी आबादी के लिए एक प्रतिनिधि नमूना नहीं हैं। इसके अलावा, अधिकांश विधियां वास्तव में एक सच्चे "जमीनी स्तर" के मूड और एक अभियान के बीच अंतर करने में सक्षम नहीं होंगी। और ट्विटर अभियानों से भरा है। इसलिए जब ट्विटर का विश्लेषण करते हैं, तो आप जल्दी से सिर्फ प्रचार और बॉट्स को मापते हैं। (उदाहरण के लिए देखें "याहू अमेरिका के राजनीतिक विजेताओं की भविष्यवाणी करता है"जो चुनाव को कोसने से भरा है और "भावना का विश्लेषण बहुत बेहतर है"। उन्होंने भविष्यवाणी की "रोमनी के नामांकन जीतने की 90 प्रतिशत संभावना है, और दक्षिण कैरोलिना प्राथमिक जीतने की" (उनके पास 28% थी, जबकि गिंगरिच के पास इस प्राथमिक में 40% थी)।

क्या आप जानते हैं कि अन्य ऐसे बड़े डेटा विफल हो जाते हैं ? मुझे मोटे तौर पर याद है कि एक वैज्ञानिक ने भविष्यवाणी की थी कि आप 150 से अधिक मित्रता नहीं रख सकते। उन्होंने वास्तव में केवल फ्रेंडस्टर में एक कैप लिमिट की खोज की थी ...

जैसा कि ट्विटर डेटा, या वास्तव में वेब से एकत्र किए गए किसी भी "बड़े डेटा" के लिए है, मेरा मानना ​​है कि अक्सर लोग अपने डेटा को इकट्ठा करने के तरीके से भी अतिरिक्त पूर्वाग्रह का परिचय देते हैं। कुछ ट्विटर के सभी होगा। उनके पास एक निश्चित उपसमूह होगा जो उन्होंने खर्च किया था, और यह अभी तक उनके डेटा सेट में एक और पूर्वाग्रह है।

डेटा को एक परीक्षण सेट में विभाजित करना या क्रॉस सत्यापन करने की संभावना से बहुत मदद नहीं मिलती है। दूसरे सेट में एक ही पूर्वाग्रह होगा। और बड़े डेटा के लिए, मुझे अपनी जानकारी को इतनी दृढ़ता से "संपीड़ित" करने की आवश्यकता है कि मैं ओवरफिट होने की संभावना नहीं हूं।

मैंने हाल ही में इस मजाक को सुना, बड़े डेटा वैज्ञानिक के साथ जो पता चला कि दुनिया में लगभग 6 लिंग हैं ... और मैं ऐसा होने की सिर्फ कल्पना कर सकता हूं ... "पुरुष, महिला, Orc, प्यारे, हाँ और नहीं"।

तो क्या तरीकों में हमें विश्लेषण में कुछ सांख्यिकीय वैधता प्राप्त करना है, विशेष रूप से "बड़े डेटा" डेटा के बाहर कुछ भविष्यवाणी करने की कोशिश करते समय?

जवाबों:


31

आपके डर अच्छी तरह से स्थापित और अवधारणात्मक हैं। याहू और शायद कई अन्य कंपनियां उपयोगकर्ताओं पर यादृच्छिक प्रयोग कर रही हैं और इसे अच्छी तरह से कर रही हैं। लेकिन अवलोकन संबंधी आंकड़े कठिनाइयों से भरे हैं। यह एक सामान्य गलत धारणा है कि नमूना आकार बढ़ने के साथ समस्याएं कम हो जाती हैं। यह विचरण के लिए सही है, लेकिन पूर्वाग्रह n वृद्धि के रूप में स्थिर रहता है। जब पूर्वाग्रह बड़ा होता है, तो बहुत कम सच में यादृच्छिक नमूना या यादृच्छिक अध्ययन 100,000,000 टिप्पणियों से अधिक मूल्यवान हो सकता है।


8
बिग डेटा शायद एक ऐसा क्षेत्र है जहाँ पूर्वाग्रह विघटन मददगार नहीं है - डेटा गुणवत्ता और डेटा प्रबंधन अधिक महत्वपूर्ण हैं। ऐसा इसलिए है क्योंकि हम हर डेटा बिंदु या विशेष मामलों को जानने की उम्मीद नहीं कर सकते हैं
प्रायिकतायोगिक

24

प्रायोगिक डिजाइन और विश्लेषण में कई तकनीकें हैं जो आपको अपने पूर्वाग्रह को कम करने में मदद कर सकती हैं, लेकिन यह फिर से एक ही चीज को उबालता है: किसी को यह जानना होगा कि क्या कर रहा है। बिग डेटा विश्लेषण में किसी भी अन्य डेटा विश्लेषण के समान समस्या है; यह परिकल्पना की कमी से ग्रस्त है।

एक स्पष्ट उदाहरण चरणबद्ध चर चयन के साथ कई प्रतिगमन है। बहुत अच्छा, एक का कहना है कि, लेकिन मापा सांख्यिकीय कानूनों 100 चर के साथ हुक्म कि उनमें से कुछ होगा एक महत्वपूर्ण संबंध जब शून्य से काफी है कि क्या संबंधित गुणांक अलग है की तलाश द्वारा मूल्यांकन दिखा। तो आपके डेटासेट में जितने अधिक वैरिएबल हैं, दो को खोजने का उतना अधिक मौका है कि कुछ (अर्थहीन) संबंध दिखाते हैं। और आपके डेटासेट जितने बड़े होते हैं, उदाहरण के लिए अर्थहीन मॉडल के लिए अधिक मौका। यदि आप कई मॉडलों का परीक्षण करते हैं (और केवल 10 चर भी जो बहुत सारे मॉडल हो सकते हैं), तो आपको कम से कम एक महत्वपूर्ण खोजने की संभावना है। क्या इसका कुछ मतलब है? नहीं।

फिर क्या करना चाहिए? अपने दिमाग का इस्तेमाल करो:

  • डेटा एकत्र करने से पहले एक परिकल्पना तैयार करें और उस परिकल्पना का परीक्षण करें। यह सुनिश्चित करने का एकमात्र तरीका है कि आपके आंकड़े वास्तव में एक कहानी बताएं।
  • कुछ परीक्षण करने से पहले अपने नमूने का स्तरीकरण करने के लिए अपने सहसंयोजकों का उपयोग करें। मूर्खतापूर्ण उदाहरण: यदि आपके डाटासेट में 1000 पुरुष और 100 महिलाएं हैं, तो औसतन 50 आबादी का चयन करें यदि आप औसत आबादी के बारे में बात करना चाहते हैं। यह वास्तव में कुछ ऐसा है जहां बड़ा डेटा काम में आता है: आपके पास पर्याप्त से अधिक नमूना है।
  • परीक्षण की आबादी का अच्छी तरह से वर्णन करें, इसलिए यह स्पष्ट है कि किस जनसंख्या के लिए आपके निष्कर्ष तैयार किए गए हैं।
  • यदि आप खोजपूर्ण उद्देश्यों के लिए अपने बड़े डेटासेट का उपयोग करते हैं, तो एक नए और अलग - अलग डेटासेट पर इस अन्वेषण के दौरान आपके द्वारा आने वाली परिकल्पनाओं का परीक्षण करें , न कि आपके द्वारा एकत्र किए गए एक उपसमुच्चय का। और सभी आवश्यक सावधानियों का उपयोग करके फिर से उनका परीक्षण करें।

ये बातें सभी स्पष्ट और प्रसिद्ध हैं। हेक, पहले से ही 1984 में रोसेनबाम और रुबिन ने बताया कि अवलोकन संबंधी अध्ययनों में पूर्वाग्रह को कम करने के लिए प्रवृत्ति स्कोर का उपयोग कैसे किया जाता है, और यही सबसे बड़ा डेटासेट हैं: अवलोकन डेटा। फेंग एट अल के हाल के काम में , महालनोबिस दूरी का उपयोग करने की भी वकालत की गई है। और वास्तव में, मेरे सांख्यिकीय नायकों में से एक, कोचरन ने 1973 में पहले से ही उस समस्या के बारे में एक समीक्षा लिखी थी ! या रुबिन के बारे में क्या है, जिन्होंने 1979 में पहले से ही सही नमूनाकरण और प्रतिगमन का मिलान किया था। पुराने प्रकाशनों को गंभीरता से कम करके आंका गया है और जहाँ तक अक्सर आँकड़ों की तरह एक क्षेत्र में नजरअंदाज किया जाता है।

इन सभी तकनीकों में पेशेवरों और विपक्ष हैं, और किसी को यह समझना होगा कि पूर्वाग्रह को कम करना पूर्वाग्रह को खत्म करने के समान नहीं है। लेकिन अगर आप इससे अवगत हैं:

  • आप क्या परीक्षण करना चाहते हैं, और
  • आप कैसे कर रहे हैं

बड़ा डेटा फर्जी परिणामों के साथ आने का बहाना नहीं है।


@DW की (correc) टिप्पणी के बाद संपादित जिसने बताया कि मैंने गलत संदर्भ में 'ओवरफिटिंग' शब्द का इस्तेमाल किया है।


12
"आपका डेटासेट बड़ा, अर्थहीन ओवरफिटिंग के लिए अधिक मौका" - दरअसल, यह पीछे की ओर है। संभव मॉडल का सेट जितना बड़ा होगा, ओवरफिटिंग की संभावना उतनी ही अधिक होगी (बाकी सभी समान हैं)। बड़ा डाटासेट, छोटे overfitting का मौका (और सब एक समान हों)।
DW

@DW ऐसा कैसे? वास्तव में, अगर सिमुलेशन में पूर्ण स्वतंत्रता है, तो छोटे और बड़े डेटासेट के साथ एक महत्वपूर्ण मॉडल पर उतना ही मौका है (सरल सिमुलेशन आपको दिखाता है कि)। काश, मैं अभी तक एक डाटासेट को पूरा करने के लिए जहां स्वतंत्रता एकदम सही है। जिस क्षण आपके पास बहुत छोटा भ्रम प्रभाव होता है, बड़े डेटासेट छोटे डेटासेट की तुलना में अर्थहीन महत्वपूर्ण परिणाम देने की अधिक संभावना रखते हैं।
जोरिस मे

अच्छा जवाब - महत्वपूर्ण प्रभावों को खोजने के बारे में आपकी टिप्पणी मॉडल चयन के "इन-या-आउट" तरीकों पर संकोचन विधियों के लिए एक अच्छा तर्क प्रदान करती है।
probabilityislogic

10
@DW ओवरफिटिंग के बारे में एक बयान दे रहा है, और सही लगता है - विशेष रूप से बड़े डेटा सेट के बाद से, डेटा के सबसेट पर क्रॉस-वैद्यता को रोकने के लिए अधिक मौका। जोरिस मेय सांख्यिकीय महत्व के बारे में एक बयान दे रहा है। यह भी सही है। लेकिन बड़े डेटा सेट में सांख्यिकीय महत्व मूट है - यह प्रभाव का आकार है जो मायने रखता है क्योंकि लगभग सब कुछ "सांख्यिकीय रूप से महत्वपूर्ण" है।
zbicyclist

1
@zbicyclist बहुत सही अवलोकन। मैं मानता हूं कि मैंने डीडब्ल्यू की गलत व्याख्या की और गलत संदर्भ में ओवरफिटिंग शब्द का इस्तेमाल किया। मुझे सही साबित होना है।
जोरिस मेस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.