सिंथेटिक डेटा सेट बनाने के लिए कुछ मानक अभ्यास क्या हैं?


26

संदर्भ के रूप में: जब एक बहुत बड़े डेटा सेट के साथ काम करते हैं, तो मुझे कभी-कभी पूछा जाता है कि क्या हम एक सिंथेटिक डेटा सेट बना सकते हैं, जहां हम भविष्यवक्ताओं और प्रतिक्रिया चर के बीच संबंध या भविष्यवक्ताओं के बीच संबंधों को "जानते" हैं।

इन वर्षों में, मुझे या तो एक-बंद सिंथेटिक डेटा सेटों का सामना करना पड़ रहा है, जो यह देखते हैं कि वे एक तदर्थ तरीके से पकाया गया था, या अधिक संरचित डेटा सेट जो विशेष रूप से शोधकर्ता के प्रस्तावित मॉडलिंग पद्धति के लिए अनुकूल लगते हैं।

मेरा मानना ​​है कि मैं सिंथेटिक डेटा सेट बनाने के लिए मानक तरीके देख रहा हूं। हालाँकि, सिंथेटिक डेटा सेट बनाने के लिए बूटस्ट्रैप रेज़म्पलिंग एक सामान्य तरीका है, लेकिन यह इस शर्त को पूरा नहीं करता है कि हम संरचना को प्राथमिकता देते हैं । इसके अलावा, डेटा जेनरेट करने के तरीके के बजाय दूसरों के साथ बूटस्ट्रैप के नमूनों का आदान-प्रदान अनिवार्य रूप से डेटा के आदान-प्रदान की आवश्यकता है।

यदि हम डेटा के लिए एक पैरामीट्रिक वितरण फिट कर सकते हैं, या एक पर्याप्त रूप से करीब पैरामीरिड मॉडल पा सकते हैं, तो यह एक उदाहरण है जहां हम सिंथेटिक डेटा सेट उत्पन्न कर सकते हैं।

क्या अन्य तरीके मौजूद हैं? मैं विशेष रूप से उच्च आयामी डेटा, विरल डेटा और समय श्रृंखला डेटा में रुचि रखता हूं। उच्च आयामी डेटा के लिए, मैं उन तरीकों की तलाश करूंगा जो ब्याज के ढांचे (उदाहरण के लिए कोवरियन संरचना, रैखिक मॉडल, पेड़, आदि) उत्पन्न कर सकते हैं। समय सीरीज़ डेटा के लिए, FFTs, AR मॉडल, या विभिन्न अन्य फ़िल्टरिंग या पूर्वानुमान मॉडल पर वितरण से एक शुरुआत की तरह लगता है। विरल डेटा के लिए, एक स्पार्सिटी पैटर्न को पुन: पेश करना उपयोगी लगता है।

मेरा मानना ​​है कि ये केवल सतह को खरोंचते हैं - ये विधर्मी हैं, औपचारिक कार्य नहीं। क्या सिंथेटिक डेटा उत्पन्न करने के लिए संदर्भ या संसाधन हैं जो चिकित्सकों को ज्ञात होना चाहिए?


नोट 1: मुझे पता है कि यह सवाल साहित्य को संबोधित करता है कि किसी विशेष समय श्रृंखला मॉडल की तरह डेटा कैसे उत्पन्न हो सकता है। यहां एक विशेष डेटा सेट के लिए एक ज्ञात संरचना (मेरा प्रश्न), बनाम समानता / निष्ठा को इंगित करने के लिए, विशेष रूप से प्रथाओं में अंतर है। यह मेरे मामले में समानता के लिए आवश्यक नहीं है, जितना कि ज्ञात संरचना, हालांकि समानता को असमानता के लिए बहुत पसंद किया जाता है। एक विदेशी सिंथेटिक डेटा सेट जिसके लिए एक मॉडल वादा दिखाता है एक यथार्थवादी सिमुलेशन की तुलना में कम पसंद किया जाता है।

नोट 2: सिंथेटिक डेटा के लिए विकिपीडिया प्रविष्टि बताती है कि रुबिन और फ़ेनबर्ग जैसे प्रकाशकों ने इस मुद्दे को संबोधित किया है, हालांकि मुझे सर्वोत्तम प्रथाओं पर कोई संदर्भ नहीं मिला है। यह जानना दिलचस्प होगा कि, एनल्स ऑफ एप्लाइड स्टैटिस्टिक्स (या एओएस), या इन या अन्य पत्रिकाओं में समीक्षा कार्यों के साथ क्या होगा। सरल और सनकी शब्दों में, कोई यह पूछ सकता है कि "(स्वीकृत रूप से) पका हुआ" और "बहुत पका हुआ" के बीच की सीमा कहां मौजूद है?

नोट 3: हालांकि यह सवाल को प्रभावित नहीं करता उपयोग परिदृश्य के मॉडलिंग में है, बड़े, उच्च आयामी डेटा सेट में भिन्नता है जहां अनुसंधान एजेंडा है जानने के लिए (दोनों मानव और मशीन ;-) द्वारा) डेटा की संरचना। अविभाजित, द्विभाजित और अन्य निम्न आयामी परिदृश्यों के विपरीत, संरचना आसानी से अनुमान नहीं है। जब हम संरचना की बेहतर समझ की ओर बढ़ते हैं, तो समान गुणों के साथ डेटा सेट उत्पन्न करने में सक्षम होना यह देखने के लिए रुचि रखता है कि कैसे एक मॉडलिंग विधि डेटा के साथ सहभागिता करती है (जैसे पैरामीटर स्थिरता की जांच करने के लिए)। बहरहाल, कम आयामी सिंथेटिक डेटा पर पुराने गाइड एक शुरुआती बिंदु हो सकते हैं जो उच्च आयामी डेटा सेट के लिए बढ़ाया या अनुकूलित किया जा सकता है।

जवाबों:


7

मुझे यकीन नहीं है कि सिंथेटिक डेटा उत्पन्न करने के लिए मानक प्रथाएं हैं - यह अनुसंधान के इतने अलग-अलग पहलुओं में इतनी भारी रूप से उपयोग किया जाता है कि उद्देश्य-निर्मित डेटा अधिक सामान्य और यकीनन अधिक उचित दृष्टिकोण प्रतीत होता है।

मेरे लिए, मेरा सबसे अच्छा मानक अभ्यास डेटा सेट करना नहीं है, इसलिए यह मॉडल के साथ अच्छी तरह से काम करेगा। यह रिसर्च स्टेज का हिस्सा है, डेटा जनरेशन स्टेज का हिस्सा नहीं है। इसके बजाय, डेटा को डेटा उत्पादन प्रक्रिया को प्रतिबिंबित करने के लिए डिज़ाइन किया जाना चाहिए । उदाहरण के लिए, महामारी विज्ञान में सिमुलेशन अध्ययन के लिए, मैं हमेशा एक ज्ञात वितरण के साथ एक बड़ी काल्पनिक आबादी से शुरू करता हूं, और फिर सीधे "अध्ययन आबादी" उत्पन्न करने के बजाय, उस आबादी से अध्ययन के नमूने का अनुकरण करता हूं।

उदाहरण के लिए, नीचे हमारी चर्चा के आधार पर, नकली डेटा के दो उदाहरण मैंने किए हैं:

  • नीचे आपके SIR- मॉडल उदाहरण के समान, मैंने एक बार अनुकरण के माध्यम से खुद को दिखाने के लिए एक नेटवर्क पर बीमारी के प्रसार का एक गणितीय मॉडल का उपयोग किया था जो कि एक विशेष निरंतर पैरामीटर जरूरी नहीं था कि परिणाम के रूप में परिणामों का इलाज किया जाए। एक पलटन अध्ययन की। जब मैंने विश्लेषणात्मक समाधान के लिए खुदाई की तो यह अवधारणा का एक उपयोगी प्रमाण था।
  • मैं केस-कंट्रोल अध्ययन के लिए एक निश्चित नमूना योजना के प्रभाव का पता लगाना चाहता था। अध्ययन को एक समान रूप से उत्पन्न करने की कोशिश करने के बजाय, मैं प्रक्रिया के प्रत्येक चरण से गुजरा। 1,000,000 लोगों की आबादी, बीमारी के एक ज्ञात प्रचलन और एक ज्ञात कोवरिएट पैटर्न के साथ। फिर उस नमूनाकरण प्रक्रिया का अनुकरण करने से - इस मामले में, जनसंख्या से कैसे मामलों और नियंत्रणों को खींचा गया। इसके बाद ही मैंने एक वास्तविक सांख्यिकीय मॉडल "एकत्रित अध्ययन" पर फेंक दिया।

अध्ययन भर्ती के तरीकों, कोवरिएट्स के लिए नियंत्रित करने के लिए सांख्यिकीय दृष्टिकोण, आदि के प्रभाव की जांच करते समय उत्तरार्द्ध जैसे सिमुलेशन बहुत आम हैं।


जवाब के लिए धन्यवाद। हालांकि, जो मैं महामारी विज्ञान के बारे में जानता हूं, उसके आधार पर, काफी उपयोगी स्टोचस्टिक मॉडल विकसित करने में बहुत कुछ किया गया है, सबसे विशेष रूप से एसआईआर मॉडल। यह बहुत से अन्य डोमेन में सच नहीं है, हालांकि स्वीकार्य स्टोचस्टिक डेटा मॉडल को जल्दी से विकसित करना मेरे इरादे का हिस्सा है।
इटरेटर

@ इटरेटर जो आप कहाँ हैं, और किस महामारी विज्ञान के किस पहलू पर आप बात कर रहे हैं, पर निर्भर करता है। उदाहरण के लिए, एक कैंसर महामारी विशेषज्ञ, यह सुनकर हैरान हो जाएगा कि "बहुत अधिक" एसआईआर मॉडल के साथ किया गया है - वे अपने काम में कभी भी सामना नहीं करेंगे। जबकि SIR- प्रकार के मॉडल महामारी विज्ञान के एक विशेष भाग का एक पहलू हैं (संक्रामक रोग एपि, और फिर भी, आईडी एपि का एक बड़ा उपसमूह भी नहीं ), एक क्षेत्र के रूप में महामारी विज्ञान सांख्यिकीय मॉडल, विशेष रूप से सामान्य रैखिक मॉडल, अस्तित्व का जबरदस्त उपयोग करता है। विश्लेषण और समय श्रृंखला।
फोमाइट

वाह। कोई अपराध का इरादा नहीं है, मैंने केवल यह कहा है कि SIR मॉडल एक मानक डेटा जनरेट करने वाले मॉडल का एक बहुत अच्छा उदाहरण है। निश्चित रूप से मैं जानता हूं कि एपि के अन्य क्षेत्र हैं जो मॉडलिंग विधियों के एक पूरे स्पेक्ट्रम का उपयोग करते हैं। यदि आपके पास महामारी विज्ञान में उपयोग किए जाने वाले अन्य डेटा जनरेट करने के तरीकों पर कुछ संकेत या संदर्भ हैं, तो मैं उनके लिए काफी खुला हूं।
इटरेटर

1
@Iterator क्षमा करें अगर मैंने छाप दिया तो मैं नाराज था। बहुत ज्यादा नहीं;); यह सिर्फ कुछ मैं क्योंकि मैं गणितीय एपि और पर्यवेक्षणीय महामारी विज्ञान के बीच चौराहे में वर्ग बैठना है, और एक क्षेत्र में लोगों को कर रहे हैं मुश्किल में पड़ अन्य क्षेत्र मौजूद है। मैं अपने उत्तर को गैर-एसआईआर प्रकार के उदाहरण के साथ संपादित करूँगा।
फोमाइट

2

R सांख्यिकीय पैकेज में एक अनुकरण फ़ंक्शन है जो मौजूदा डेटा के लिए एक मॉडल के आधार पर डेटा का अनुकरण करेगा। यह फिट मॉडल को "ज्ञात" जनसंख्या संबंध के रूप में उपयोग करता है, फिर उस मॉडल के आधार पर नए डेटा का अनुकरण करता है। इस फ़ंक्शन के लिए lme4 पैकेज में एक विधि है। ये फिट की गई वस्तुएं यादृच्छिक और निश्चित प्रभाव और सहसंबंध (समय श्रृंखला के लिए स्वत :संबंध सहित) को ध्यान में रख सकती हैं।

यह वह काम कर सकता है जो आप चाहते हैं।


सलाह के लिये धन्यवाद। यह फ़ंक्शन निश्चित रूप से उपयोगी है, हालांकि मेरी रुचि किसी विशेष समाधान के लिए कोड के बजाय सांख्यिकीय प्रथाओं और कार्यप्रणाली के संदर्भ में अधिक है। यह नमूना विधियों या प्रतिलिपि प्रस्तुत करने योग्य विश्लेषणों के बारे में पूछने के लिए समान है, बजाय विशेष पैकेजों के जो कहा तरीकों और विश्लेषणों को लागू करते हैं। बहरहाल, अच्छे तरीके पैकेज बनने चाहिए। :)
Iterator
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.