आंकड़ों में 'बड़ी समस्याएं' क्या हैं?


77

गणित की अपनी प्रसिद्ध मिलेनियम समस्याएं हैं (और, ऐतिहासिक रूप से, हिल्बर्ट 23 ), ऐसे प्रश्न जिन्होंने क्षेत्र की दिशा को आकार देने में मदद की।

मुझे बहुत कम अंदाजा है, हालांकि, रिमान हाइपोथेसिस और पी बनाम एनपी के आंकड़े क्या होंगे।

तो, आंकड़ों में भारी सवाल क्या हैं?

जोड़ने के लिए संपादित: सामान्य आत्मा के उदाहरण के रूप में (यदि बहुत विशिष्टता नहीं है) तो मैं तलाश कर रहा हूं, मुझे 21 वीं शताब्दी के "मठ चुनौतियों" सम्मेलन में डेविड डोनोहो द्वारा एक "हिल्बर्ट के 23" -प्रकाशित व्याख्यान मिला: हाई-डायमेंशनल डेटा एनालिसिस: द कर्सिस एंड ब्लेसिंग ऑफ डायमेंशनलिटी

तो एक संभावित उत्तर बड़े डेटा के बारे में बात कर सकता है और यह महत्वपूर्ण क्यों है, सांख्यिकीय चुनौतियों के प्रकार उच्च-आयामी डेटा पोज़ हैं, और ऐसे तरीकों को विकसित करने की आवश्यकता है या प्रश्न जिन्हें हल करने के लिए उत्तर देने की आवश्यकता है।


5
इसे पोस्ट करने के लिए आपका धन्यवाद। यह एक महत्वपूर्ण (और संभावित प्रेरक) चर्चा है।
whuber

जवाबों:


48

एक बड़े प्रश्न में सांख्यिकीय कार्यप्रणाली के प्रमुख मुद्दे शामिल होने चाहिए या, क्योंकि आँकड़े पूरी तरह से अनुप्रयोगों के बारे में हैं, यह चिंता करना चाहिए कि आँकड़े समाज के लिए महत्वपूर्ण समस्याओं के साथ कैसे उपयोग किए जाते हैं।

यह लक्षण वर्णन बताता है कि निम्नलिखित को बड़ी समस्याओं के किसी भी विचार में शामिल किया जाना चाहिए:

  • ड्रग ट्रायल करने के लिए कितना अच्छा है । वर्तमान में, शास्त्रीय परिकल्पना परीक्षण के लिए अध्ययन के कई औपचारिक चरणों की आवश्यकता होती है। बाद में (पुष्टिकर) चरण, आर्थिक और नैतिक मुद्दे बड़े होते हैं। क्या हम बेहतर कर सकते हैं? क्या हमें सैकड़ों या हजारों बीमार लोगों को नियंत्रण समूहों में रखना होगा और उन्हें एक अध्ययन के अंत तक वहां रखना होगा, उदाहरण के लिए, या क्या हम उन उपचारों की पहचान करने के बेहतर तरीके खोज सकते हैं जो वास्तव में काम करते हैं और उन्हें परीक्षण के सदस्यों को वितरित करते हैं (और अन्य) जितनी जल्दी हो सके?

  • वैज्ञानिक प्रकाशन पूर्वाग्रह के साथ नकल । नकारात्मक परिणाम बहुत कम प्रकाशित किए जाते हैं, क्योंकि वे केवल एक जादू पी-मूल्य प्राप्त नहीं करते हैं। विज्ञान की सभी शाखाओं को वैज्ञानिक रूप से महत्वपूर्ण लाने के लिए बेहतर तरीके खोजने की जरूरत है , न कि केवल सांख्यिकीय रूप से महत्वपूर्ण, परिणाम प्रकाश में। (कई तुलनात्मक समस्या और उच्च-आयामी डेटा का सामना करना इस समस्या की उपश्रेणियाँ हैं।)

  • मशीन सीखने और मशीन अनुभूति के साथ सांख्यिकीय विधियों और उनके इंटरफेस की सीमाओं का परीक्षण करना । कंप्यूटिंग तकनीक में अपरिहार्य प्रगति हमारे जीवन काल में एआई को सुलभ बनाएगी। हम कृत्रिम दिमाग का कार्यक्रम कैसे करेंगे? इन अग्रिमों को बनाने में सांख्यिकीय सोच और सांख्यिकीय शिक्षा की क्या भूमिका हो सकती है? सांख्यिकीविद कृत्रिम अनुभूति, कृत्रिम सीखने, उनकी सीमाओं की खोज करने और अग्रिम बनाने के बारे में सोचने में कैसे मदद कर सकते हैं?

  • भू-स्थानिक डेटा का विश्लेषण करने के लिए बेहतर तरीके विकसित करना । अक्सर यह दावा किया जाता है कि अधिकांश, या विशाल बहुमत, डेटाबेस में स्थानीय संदर्भ होते हैं। जल्द ही कई लोग और डिवाइस वास्तविक समय में जीपीएस और सेल फोन प्रौद्योगिकियों के साथ स्थित होंगे। सांख्यिकीय डेटा का विश्लेषण करने और उनका दोहन करने के लिए सांख्यिकीय तरीके वास्तव में केवल उनकी प्रारंभिक अवस्था में हैं (और जीआईएस और स्थानिक सॉफ़्टवेयर के लिए फिर से आरोपित होने लगते हैं जो आमतौर पर गैर-सांख्यिकीविदों द्वारा उपयोग किया जाता है)।


1
ऐसे कौन से तरीके हैं जिनसे लोग इन समस्याओं को हल करने की कोशिश कर रहे हैं?
राएजटिन

3
@ त्यागुर: यह चार उत्कृष्ट प्रश्न हैं (प्लस कई और अधिक, क्योंकि आपकी प्रतिक्रिया इस धागे के हर उत्तर पर लागू होती है)। वे सभी विस्तृत जवाब के लायक हैं, लेकिन जाहिर है कि यहां इसके लिए कोई जगह नहीं है: एक बार में एक सवाल, कृपया!
whuber

3
पहली बुलेट के संबंध में (दवा के परीक्षण): यहां तक कि लोग हैं, जो अन्यथा चिकित्सा प्रयोग पढ़ना चाहिए NYTimes लेख में कोई दिलचस्पी नहीं हो सकता है नई दवाओं क्लिनिकल परीक्षण के बुनियादी नियमों पर बहस चलाते ( nytimes.com/2010/09/19/health/research/ … )। सांख्यिकीय साक्षर पाठक तुरंत प्रयोगात्मक डिजाइन और निर्णय लेने के लिए पी-मूल्यों का उपयोग करने से संबंधित अस्थिरता को देखेंगे। इस लेख में वर्णित जीवन-मरण के लिए कहीं न कहीं एक सांख्यिकीय संकल्प है।
whuber

26

माइकल जॉर्डन का एक लघु लेख है जिसे बेयसियन स्टैटिस्टिक्स में ओपन प्रॉब्लम क्या हैं? जिसमें उन्होंने सांख्यिकी में खुली समस्याओं पर अपने विचारों के लिए सांख्यिकीविदों का एक समूह मतदान किया। मैं यहाँ थोड़ा (उर्फ, कॉपी-और-पेस्ट) संक्षेप में प्रस्तुत करूँगा, लेकिन यह शायद मूल पढ़ने के लिए सबसे अच्छा है।

नोनपामेट्रिक्स और सेमीपैरेट्रिक्स

  • बेसेनियन नॉनपैमेट्रिक्स किन समस्याओं के लिए उपयोगी और परेशानी के लायक है?
  • डेविड डनसन: "नॉनपैरेमेट्रिक बेयस मॉडल में असीम रूप से कई पैरामीटर शामिल होते हैं और आमतौर पर बिना किसी उचित उद्देश्य या व्यक्तिपरक औचित्य के साथ उचित मानों पर सेट हाइपरपरमेटर्स की सुविधा के लिए पादरियों को चुना जाता है।"
  • "यह कई लोगों द्वारा नोट किया गया था कि लगातार nonparametrics के आकर्षक अनुप्रयोगों में से एक अर्धवृत्ताकार अंतर्ग्रहण है, जहां मॉडल का nonparametric घटक एक उपद्रव पैरामीटर है। इन लोगों ने महसूस किया कि यह (अक्सरवादी) सिद्धांत को मांस देने के लिए वांछनीय होगा। बायेसियन सेमीप्रिमेट्रिक्स। "

महंतों

  • "इलीटेशन खुली समस्याओं का एक प्रमुख स्रोत है।"
  • 'एड वैन डेर वॉर्ट ने अपने उद्देश्य पर बेयस को उसके सिर पर घुमाया और "स्थितियों के लिए सिद्धांत की कमी की ओर इशारा किया, जहां कोई चाहता है कि वह पहले के माध्यम से आ जाए।" केवल स्मरण के लिए बायेसियन दृष्टिकोण प्रदान करने के विपरीत। "

बायेसियन / लगातार रिश्ते

  • "कई उत्तरदाताओं ने बायेसियन / अक्सरवादी रिश्तों को आगे बढ़ाने की इच्छा व्यक्त की। यह उच्च-आयामी मॉडल और डेटा के संदर्भ में सबसे अधिक प्रचलित था, जहां न केवल पुजारियों के विनिर्देशन के लिए व्यक्तिपरक दृष्टिकोण लागू करना मुश्किल है, लेकिन सुविधा के पुजारी हो सकते हैं (अत्यधिक) भ्रामक। "
  • 'कुछ उत्तरदाताओं ने गैर-स्पर्शोन्मुख सिद्धांत के लिए तैयार किया जो बेयसियन विधियों के अधिक पूरी तरह से लाभकारी लाभ को प्रकट कर सकता है; उदाहरण के लिए, डेविड डूनसन: "अक्सर, अक्सर इष्टतम दर प्रक्रियाओं द्वारा प्राप्त की जाती है जो स्पष्ट रूप से फ़ेनेसियन दृष्टिकोण की तुलना में परिमित नमूनों में बहुत खराब होती है।" '

संगणना और आँकड़े

  • एलन गेलफैंड: "यदि एमसीएमसी अब उन समस्याओं के लिए व्यवहार्य नहीं है, जो लोग संबोधित करना चाहते हैं, तो एबीसी दृष्टिकोण की, वैचारिक विधियों की INLA की भूमिका क्या है?"
  • "कई उत्तरदाताओं ने कम्प्यूटेशनल विज्ञान और सांख्यिकीय विज्ञान के अधिक गहन एकीकरण के लिए कहा, यह देखते हुए कि किसी भी स्थिति में किसी भी स्थिति में पहुंच सकने वाले इनफैक्ट्स संयुक्त रूप से मॉडल, पूर्व, डेटा और कम्प्यूटेशनल संसाधनों का एक फ़ंक्शन हैं, और इच्छा इन राशियों के बीच ट्रेडऑफ के अधिक स्पष्ट प्रबंधन के लिए। वास्तव में, रोब कास ने "हीन सॉल्वेबिलिटी" की धारणा की संभावना को उठाया, जहां कुछ समस्याओं को आशा से परे समझा जाता है (जैसे,प्रतिगमन में मॉडल का चयन जहां "मामूली शोर के अधीन डेटा की मामूली मात्रा के लिए यह प्रतिगमन गुणांक के बारे में उपयोगी विश्वास अंतराल प्राप्त करना संभव है जब बड़ी संख्या में चर होते हैं जिनकी उपस्थिति या मॉडल में अनुपस्थिति एक अनिर्दिष्ट है") और जहां अन्य समस्याएं हैं ("कुछ कार्य जिनके लिए उपयोगी कॉन्फिडेंस अंतराल मौजूद हैं") जिनके लिए आशा है। "
  • "कई उत्तरदाताओं ने, एक निश्चित अस्पष्टता के लिए माफी माँगते हुए, एक भावना व्यक्त की कि डेटा की एक बड़ी मात्रा में आवश्यक रूप से बड़ी मात्रा में गणना नहीं होती है; बल्कि, किसी भी तरह बड़े डेटा में मौजूद हीन शक्ति एल्गोरिथ्म में स्थानांतरित होनी चाहिए और इसे संभव बनाना चाहिए। संतोषजनक (अनुमानित) हीन समाधान प्राप्त करने के लिए कम कम्प्यूटेशनल चरणों के साथ करने के लिए। "

मॉडल चयन और परिकल्पना परीक्षण

  • जॉर्ज कैसेला: "हम अब मॉडल का चयन करते हैं, लेकिन बेयसियन चयनित मॉडल पर बेसमेंट के अनुमान के गुणों के बारे में चिंता नहीं करते हैं। अगर यह गलत है तो क्या होगा? जब आप एक निश्चित पैरामीटर लिए विश्वसनीय क्षेत्र स्थापित करने के परिणाम हैं। गलत मॉडल का चयन किया है? क्या हम किसी प्रकार की गारंटी के साथ प्रक्रिया कर सकते हैं? "β1
  • मॉडल चयन में निर्णय-सिद्धांत संबंधी नींव पर अधिक काम करने की आवश्यकता है।
  • डेविड स्पीगेल्टर: "पूर्व / डेटा संघर्ष को बायेसियन विश्लेषण का एक अभिन्न अंग बनाने के लिए चेक कैसे बनाना सबसे अच्छा है?"
  • एंड्रयू जेलमैन: "मॉडल की जाँच के लिए, एक प्रमुख खुली समस्या मॉडल को समझने और तुलना करने के लिए ग्राफिकल टूल विकसित कर रही है। ग्राफिक्स कच्चे डेटा के लिए नहीं है, बल्कि, जटिल बायेसियन मॉडल बेहतर और अधिक प्रभावी खोजपूर्ण डेटा विश्लेषण के लिए अवसर देते हैं।"

13

मुझे यकीन नहीं है कि वे कितने बड़े हैं, लेकिन आंकड़ों में अनसुलझी समस्याओं के लिए एक विकिपीडिया पृष्ठ है । उनकी सूची में शामिल हैं:

इंजेक्शन और परीक्षण

  • व्यवस्थित त्रुटियां
  • ग्रेबिल-डील अनुमानक की अनुकूलन क्षमता
  • मेटा-विश्लेषण में निर्भर पी-वैल्यू का संयोजन
  • Behrens- फिशर समस्या
  • एकाधिक तुलना
  • बायेसियन आंकड़ों में खुली समस्याएं

प्रयोगात्मक डिजाइन

  • लैटिन वर्गों में समस्याएं

अधिक दार्शनिक प्रकृति की समस्याएं

  • प्रजातियों की समस्या का नमूना लेना
  • कयामत का दिन
  • विनिमय विरोधाभास

6

सामान्य आत्मा के उदाहरण के रूप में (यदि काफी विशिष्टता नहीं है) तो मैं देख रहा हूँ, मुझे "हिल्बर्ट के २३" में डेविड डोन्हो द्वारा "२१ वीं सदी के गणित की चुनौतियां" सम्मेलन में दिए गए व्याख्यान मिले:

हाई-डायमेंशनल डेटा एनालिसिस: द कर्सेस एंड ब्लेसिंग्स ऑफ डायमेंशनलिटी


2
क्या मेरा सुझाव है कि आप इस जानकारी को शामिल करने के लिए अपने मुख्य प्रश्न को संपादित करें?
russellpierce

4

Mathoverflow संभावना संभावना सिद्धांत में बड़ी समस्याओं के बारे में एक समान सवाल है

यह उस पृष्ठ से प्रकट होगा कि सबसे बड़ा सवाल यादृच्छिक परिधि और विकृतियों से बचने के लिए स्वयं के साथ करना है।


1
मुझे लगता है कि सांख्यिकी संभावना सिद्धांत से एक अलग क्षेत्र है, हालांकि।
रांगेय

3
@raegtin - मुझे नहीं लगता कि संभाव्यता सिद्धांत आँकड़ों से अलग है, बल्कि यह सिद्धांत है। "सांख्यिकी" संभावित समस्याओं (यानी अभ्यास) के लिए संभाव्यता सिद्धांत का अनुप्रयोग है।
प्रोबेबिलिसलॉजिक

4

आप इस वर्ष की शुरुआत में आयोजित हार्वर्ड की "सामाजिक विज्ञान की बोलचाल में कठिन समस्याएं" की जांच कर सकते हैं । इनमें से कई वार्ता सामाजिक विज्ञानों में सांख्यिकी और मॉडलिंग के उपयोग में मुद्दों की पेशकश करती है।


3

मेरा जवाब अक्सरवादी और बेयसियन आंकड़ों के बीच संघर्ष होगा। जब लोग आपसे पूछते हैं कि आप "किस पर विश्वास करते हैं", यह अच्छा नहीं है! विशेषकर वैज्ञानिक अनुशासन के लिए।


2
किसी चीज में वैज्ञानिक "विश्वास" के साथ कुछ भी गलत नहीं है, विशेष रूप से एक बायेसियन संभावना कुछ प्रस्ताव की सच्चाई के बारे में विश्वास या ज्ञान की डिग्री का प्रतिनिधित्व करती है।
डिक्रान मार्सुपियल

2
... समस्या तभी उत्पन्न होती है जब कोई वैज्ञानिक किसी विश्वास और तथ्य के बीच अंतर नहीं कर सकता। इस विश्वास में कुछ भी अवैज्ञानिक नहीं है कि बायेसियन या लगातार आंकड़े बेहतर हैं, क्योंकि कोई भी उद्देश्य परीक्षण नहीं है जो उत्तर (AFAIK) तय कर सकता है, इसलिए पसंद मोटे तौर पर व्यक्तिपरक और / "पाठ्यक्रमों के लिए घोड़े" की बात है।
डिक्रान मार्सुपियल

@propofol - मैं मानता हूं कि "विश्वास" शब्द आंकड़ों में उपयोग करने के लिए एक उपयुक्त धारणा नहीं है - यह गलत प्रकार के अर्थों को वहन करता है। जानकारी एक अधिक उपयुक्त शब्द है जो मुझे लगता है (यानी "आपके पास क्या जानकारी है?")। यह मैथ्स या बायेसियन विश्लेषण की इष्टतमता प्रमेयों को नहीं बदलता है, लेकिन यह उन्हें उनका उचित अर्थ देता है कि वे वास्तव में कैसे उपयोग किए जाते हैं। उदाहरण के लिए एक भौतिक सिद्धांत या कारण तंत्र का ज्ञान जानकारी है, और विश्वास नहीं है।
probabilityislogic
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.