सामान्य दृष्टिकोण एक बहुआयामी यादृच्छिक प्रक्रिया को परिभाषित करने के लिए आपके डेटा सेट पर पारंपरिक सांख्यिकीय विश्लेषण करना है जो समान सांख्यिकीय विशेषताओं के साथ डेटा उत्पन्न करेगा। इस दृष्टिकोण का गुण यह है कि आपका सिंथेटिक डेटा आपके एमएल मॉडल से स्वतंत्र है, लेकिन सांख्यिकीय रूप से आपके डेटा के "करीब" है। (अपने विकल्प की चर्चा के लिए नीचे देखें)
संक्षेप में, आप प्रक्रिया से जुड़े बहुभिन्नरूपी वितरण का अनुमान लगा रहे हैं। एक बार जब आप वितरण का अनुमान लगा लेते हैं, तो आप मोंटे कार्लो विधि या इसी तरह के दोहराया नमूना तरीकों के माध्यम से सिंथेटिक डेटा उत्पन्न कर सकते हैं। यदि आपका डेटा कुछ पैरामीट्रिक डिस्ट्रीब्यूशन (जैसे lognormal) जैसा दिखता है तो यह दृष्टिकोण सीधा और विश्वसनीय है। मुश्किल हिस्सा चर के बीच निर्भरता का अनुमान लगाने के लिए है। देखें: https://www.encyclopediaofmath.org/index.php/Multi-dimensional_statutic_analysis ।
यदि आपका डेटा अनियमित है, तो गैर-पैरामीट्रिक तरीके आसान हैं और शायद अधिक मजबूत हैं। बहुभिन्नरूपी कर्नेल घनत्व अनुमान एक ऐसी विधि है जो सुलभ है और एमएल पृष्ठभूमि वाले लोगों को आकर्षित करती है। एक सामान्य परिचय और विशिष्ट विधियों के लिंक के लिए, देखें: https://en.wikipedia.org/wiki/Nonparametric_statistics ।
यह पुष्टि करने के लिए कि यह प्रक्रिया आपके लिए काम करती है, आप मशीन लर्निंग प्रोसेस के माध्यम से फिर से संश्लेषित डेटा के साथ जाते हैं, और आपको एक मॉडल के साथ समाप्त होना चाहिए जो आपके मूल के काफी करीब है। इसी तरह, यदि आप संश्लेषित डेटा को अपने एमएल मॉडल में रखते हैं, तो आपको ऐसे आउटपुट प्राप्त करने चाहिए जो आपके मूल आउटपुट के समान वितरण हों।
इसके विपरीत, आप इसे प्रस्तावित कर रहे हैं:
[मूल डेटा -> निर्माण मशीन लर्निंग मॉडल -> सिंथेटिक डेटा उत्पन्न करने के लिए एमएल मॉडल का उपयोग करें .... !!!
यह कुछ अलग है कि विधि मैं अभी वर्णित है। यह उलटा समस्या को हल करेगा : "क्या इनपुट मॉडल आउटपुट के किसी भी सेट को उत्पन्न कर सकता है"। जब तक आपका एमएल मॉडल आपके मूल डेटा से अधिक फिट नहीं होता है, तब तक यह संश्लेषित डेटा आपके मूल डेटा की तरह हर मामले में, या यहां तक कि सबसे अधिक नहीं दिखेगा।
एक रेखीय प्रतिगमन मॉडल पर विचार करें। एक ही रेखीय प्रतिगमन मॉडल में डेटा के लिए समान फिट हो सकता है जिसमें बहुत अलग विशेषताएं हैं। इसका एक प्रसिद्ध प्रदर्शन Anscombe की चौकड़ी के माध्यम से है ।
मैंने सोचा कि मेरे पास संदर्भ नहीं हैं, मेरा मानना है कि यह समस्या लॉजिस्टिक रिग्रेशन, सामान्यीकृत रैखिक मॉडल, एसवीएम और के-साधन क्लस्टरिंग में भी उत्पन्न हो सकती है।
कुछ एमएल मॉडल प्रकार (जैसे निर्णय वृक्ष) हैं जहां सिंथेटिक डेटा उत्पन्न करने के लिए उन्हें उलटना संभव है, हालांकि इसमें कुछ काम लगते हैं। देखें: डेटा माइनिंग पैटर्न से मिलान करने के लिए सिंथेटिक डेटा बनाना ।