संदर्भ के रूप में: जब एक बहुत बड़े डेटा सेट के साथ काम करते हैं, तो मुझे कभी-कभी पूछा जाता है कि क्या हम एक सिंथेटिक डेटा सेट बना सकते हैं, जहां हम भविष्यवक्ताओं और प्रतिक्रिया चर के बीच संबंध या भविष्यवक्ताओं के बीच संबंधों को "जानते" हैं।
इन वर्षों में, मुझे या तो एक-बंद सिंथेटिक डेटा सेटों का सामना करना पड़ रहा है, जो यह देखते हैं कि वे एक तदर्थ तरीके से पकाया गया था, या अधिक संरचित डेटा सेट जो विशेष रूप से शोधकर्ता के प्रस्तावित मॉडलिंग पद्धति के लिए अनुकूल लगते हैं।
मेरा मानना है कि मैं सिंथेटिक डेटा सेट बनाने के लिए मानक तरीके देख रहा हूं। हालाँकि, सिंथेटिक डेटा सेट बनाने के लिए बूटस्ट्रैप रेज़म्पलिंग एक सामान्य तरीका है, लेकिन यह इस शर्त को पूरा नहीं करता है कि हम संरचना को प्राथमिकता देते हैं । इसके अलावा, डेटा जेनरेट करने के तरीके के बजाय दूसरों के साथ बूटस्ट्रैप के नमूनों का आदान-प्रदान अनिवार्य रूप से डेटा के आदान-प्रदान की आवश्यकता है।
यदि हम डेटा के लिए एक पैरामीट्रिक वितरण फिट कर सकते हैं, या एक पर्याप्त रूप से करीब पैरामीरिड मॉडल पा सकते हैं, तो यह एक उदाहरण है जहां हम सिंथेटिक डेटा सेट उत्पन्न कर सकते हैं।
क्या अन्य तरीके मौजूद हैं? मैं विशेष रूप से उच्च आयामी डेटा, विरल डेटा और समय श्रृंखला डेटा में रुचि रखता हूं। उच्च आयामी डेटा के लिए, मैं उन तरीकों की तलाश करूंगा जो ब्याज के ढांचे (उदाहरण के लिए कोवरियन संरचना, रैखिक मॉडल, पेड़, आदि) उत्पन्न कर सकते हैं। समय सीरीज़ डेटा के लिए, FFTs, AR मॉडल, या विभिन्न अन्य फ़िल्टरिंग या पूर्वानुमान मॉडल पर वितरण से एक शुरुआत की तरह लगता है। विरल डेटा के लिए, एक स्पार्सिटी पैटर्न को पुन: पेश करना उपयोगी लगता है।
मेरा मानना है कि ये केवल सतह को खरोंचते हैं - ये विधर्मी हैं, औपचारिक कार्य नहीं। क्या सिंथेटिक डेटा उत्पन्न करने के लिए संदर्भ या संसाधन हैं जो चिकित्सकों को ज्ञात होना चाहिए?
नोट 1: मुझे पता है कि यह सवाल साहित्य को संबोधित करता है कि किसी विशेष समय श्रृंखला मॉडल की तरह डेटा कैसे उत्पन्न हो सकता है। यहां एक विशेष डेटा सेट के लिए एक ज्ञात संरचना (मेरा प्रश्न), बनाम समानता / निष्ठा को इंगित करने के लिए, विशेष रूप से प्रथाओं में अंतर है। यह मेरे मामले में समानता के लिए आवश्यक नहीं है, जितना कि ज्ञात संरचना, हालांकि समानता को असमानता के लिए बहुत पसंद किया जाता है। एक विदेशी सिंथेटिक डेटा सेट जिसके लिए एक मॉडल वादा दिखाता है एक यथार्थवादी सिमुलेशन की तुलना में कम पसंद किया जाता है।
नोट 2: सिंथेटिक डेटा के लिए विकिपीडिया प्रविष्टि बताती है कि रुबिन और फ़ेनबर्ग जैसे प्रकाशकों ने इस मुद्दे को संबोधित किया है, हालांकि मुझे सर्वोत्तम प्रथाओं पर कोई संदर्भ नहीं मिला है। यह जानना दिलचस्प होगा कि, एनल्स ऑफ एप्लाइड स्टैटिस्टिक्स (या एओएस), या इन या अन्य पत्रिकाओं में समीक्षा कार्यों के साथ क्या होगा। सरल और सनकी शब्दों में, कोई यह पूछ सकता है कि "(स्वीकृत रूप से) पका हुआ" और "बहुत पका हुआ" के बीच की सीमा कहां मौजूद है?
नोट 3: हालांकि यह सवाल को प्रभावित नहीं करता उपयोग परिदृश्य के मॉडलिंग में है, बड़े, उच्च आयामी डेटा सेट में भिन्नता है जहां अनुसंधान एजेंडा है जानने के लिए (दोनों मानव और मशीन ;-) द्वारा) डेटा की संरचना। अविभाजित, द्विभाजित और अन्य निम्न आयामी परिदृश्यों के विपरीत, संरचना आसानी से अनुमान नहीं है। जब हम संरचना की बेहतर समझ की ओर बढ़ते हैं, तो समान गुणों के साथ डेटा सेट उत्पन्न करने में सक्षम होना यह देखने के लिए रुचि रखता है कि कैसे एक मॉडलिंग विधि डेटा के साथ सहभागिता करती है (जैसे पैरामीटर स्थिरता की जांच करने के लिए)। बहरहाल, कम आयामी सिंथेटिक डेटा पर पुराने गाइड एक शुरुआती बिंदु हो सकते हैं जो उच्च आयामी डेटा सेट के लिए बढ़ाया या अनुकूलित किया जा सकता है।