मूल डेटासेट के साथ सीखे गए मशीन लर्निंग मॉडल का उपयोग करके सिंथेटिक डेटासेट कैसे उत्पन्न करें?


19

आम तौर पर, मशीन लर्निंग मॉडल डेटासेट पर बनाया जाता है। मैं जानना चाहूंगा कि क्या इस तरह के प्रशिक्षित मशीन लर्निंग मॉडल का उपयोग करके सिंथेटिक डेटासेट उत्पन्न करने का कोई तरीका है जो मूल डेटासेट विशेषताओं को संरक्षित करता है?

[मूल डेटा -> निर्माण मशीन लर्निंग मॉडल -> सिंथेटिक डेटा उत्पन्न करने के लिए एमएल मॉडल का उपयोग करें .... !!!

क्या यह संभव है ? यदि संभव हो तो कृपया मुझे संबंधित संसाधन की ओर संकेत करें।

जवाबों:


27

सामान्य दृष्टिकोण एक बहुआयामी यादृच्छिक प्रक्रिया को परिभाषित करने के लिए आपके डेटा सेट पर पारंपरिक सांख्यिकीय विश्लेषण करना है जो समान सांख्यिकीय विशेषताओं के साथ डेटा उत्पन्न करेगा। इस दृष्टिकोण का गुण यह है कि आपका सिंथेटिक डेटा आपके एमएल मॉडल से स्वतंत्र है, लेकिन सांख्यिकीय रूप से आपके डेटा के "करीब" है। (अपने विकल्प की चर्चा के लिए नीचे देखें)

संक्षेप में, आप प्रक्रिया से जुड़े बहुभिन्नरूपी वितरण का अनुमान लगा रहे हैं। एक बार जब आप वितरण का अनुमान लगा लेते हैं, तो आप मोंटे कार्लो विधि या इसी तरह के दोहराया नमूना तरीकों के माध्यम से सिंथेटिक डेटा उत्पन्न कर सकते हैं। यदि आपका डेटा कुछ पैरामीट्रिक डिस्ट्रीब्यूशन (जैसे lognormal) जैसा दिखता है तो यह दृष्टिकोण सीधा और विश्वसनीय है। मुश्किल हिस्सा चर के बीच निर्भरता का अनुमान लगाने के लिए है। देखें: https://www.encyclopediaofmath.org/index.php/Multi-dimensional_statutic_analysis

यदि आपका डेटा अनियमित है, तो गैर-पैरामीट्रिक तरीके आसान हैं और शायद अधिक मजबूत हैं। बहुभिन्नरूपी कर्नेल घनत्व अनुमान एक ऐसी विधि है जो सुलभ है और एमएल पृष्ठभूमि वाले लोगों को आकर्षित करती है। एक सामान्य परिचय और विशिष्ट विधियों के लिंक के लिए, देखें: https://en.wikipedia.org/wiki/Nonparametric_statistics

यह पुष्टि करने के लिए कि यह प्रक्रिया आपके लिए काम करती है, आप मशीन लर्निंग प्रोसेस के माध्यम से फिर से संश्लेषित डेटा के साथ जाते हैं, और आपको एक मॉडल के साथ समाप्त होना चाहिए जो आपके मूल के काफी करीब है। इसी तरह, यदि आप संश्लेषित डेटा को अपने एमएल मॉडल में रखते हैं, तो आपको ऐसे आउटपुट प्राप्त करने चाहिए जो आपके मूल आउटपुट के समान वितरण हों।

इसके विपरीत, आप इसे प्रस्तावित कर रहे हैं:

[मूल डेटा -> निर्माण मशीन लर्निंग मॉडल -> सिंथेटिक डेटा उत्पन्न करने के लिए एमएल मॉडल का उपयोग करें .... !!!

यह कुछ अलग है कि विधि मैं अभी वर्णित है। यह उलटा समस्या को हल करेगा : "क्या इनपुट मॉडल आउटपुट के किसी भी सेट को उत्पन्न कर सकता है"। जब तक आपका एमएल मॉडल आपके मूल डेटा से अधिक फिट नहीं होता है, तब तक यह संश्लेषित डेटा आपके मूल डेटा की तरह हर मामले में, या यहां तक ​​कि सबसे अधिक नहीं दिखेगा।

एक रेखीय प्रतिगमन मॉडल पर विचार करें। एक ही रेखीय प्रतिगमन मॉडल में डेटा के लिए समान फिट हो सकता है जिसमें बहुत अलग विशेषताएं हैं। इसका एक प्रसिद्ध प्रदर्शन Anscombe की चौकड़ी के माध्यम से है ।

सरल सारांश आँकड़ों का उपयोग करके जांच किए जाने पर सभी चार सेट समान होते हैं, लेकिन ग्राफ़ किए जाने पर काफी भिन्न होते हैं

मैंने सोचा कि मेरे पास संदर्भ नहीं हैं, मेरा मानना ​​है कि यह समस्या लॉजिस्टिक रिग्रेशन, सामान्यीकृत रैखिक मॉडल, एसवीएम और के-साधन क्लस्टरिंग में भी उत्पन्न हो सकती है।

कुछ एमएल मॉडल प्रकार (जैसे निर्णय वृक्ष) हैं जहां सिंथेटिक डेटा उत्पन्न करने के लिए उन्हें उलटना संभव है, हालांकि इसमें कुछ काम लगते हैं। देखें: डेटा माइनिंग पैटर्न से मिलान करने के लिए सिंथेटिक डेटा बनाना


मोंटे-कार्लो और बहुआयामी सांख्यिकीय विश्लेषण पर अधिक पढ़ने का समय ... अच्छी व्याख्या के लिए धन्यवाद .. !!!
हडूपर

2

असंतुलित डेटासेट से निपटने के लिए एक बहुत ही सामान्य दृष्टिकोण है, जिसे एसएमओटीई कहा जाता है, जो अल्पसंख्यक वर्ग से सिंथेटिक नमूने उत्पन्न करता है। यह अपने पड़ोसियों के साथ मतभेदों का उपयोग करके अल्पसंख्यक नमूनों को बनाए रखने से काम करता है (0 और 1 के बीच कुछ यादृच्छिक संख्या से गुणा)

यहाँ thew मूल कागज से एक उद्धरण है:

सिंथेटिक नमूने निम्नलिखित तरीके से उत्पन्न होते हैं: विचार के तहत सुविधा वेक्टर (नमूना) और उसके निकटतम पड़ोसी के बीच अंतर करें। 0 और 1 के बीच एक यादृच्छिक संख्या से इस अंतर को गुणा करें, और इसे विचार के तहत फीचर वेक्टर में जोड़ें।

आप अधिक जानकारी यहाँ पा सकते हैं ।


1

डेटा वृद्धि मौजूदा डेटा के आधार पर कृत्रिम रूप से नमूने बनाने की प्रक्रिया है। मौजूदा डेटा उपन्यास डेटा उत्पन्न करने के लिए थोड़ा गड़बड़ा हुआ है जो मूल डेटा गुणों में से कई को बरकरार रखता है। उदाहरण के लिए, यदि डेटा छवियां हैं। छवि पिक्सेल बदली जा सकती है। डेटा वृद्धि तकनीकों के कई उदाहरण यहां देखे जा सकते हैं

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.