(मुझे कोई वास्तविक विचार नहीं है कि मुझे इस बारे में क्या पता होना चाहिए क्योंकि मैं कोई सांख्यिकीविद् नहीं हूं और मुझे नहीं पता कि यह किस क्षेत्र में आता है। अधिक उपयुक्त टैग जोड़ने के लिए स्वतंत्र महसूस करें।)
मैं एक कंपनी के लिए काम करता हूं जो डेटा विश्लेषण सॉफ्टवेयर का उत्पादन करती है, और हमें अपने नवीनतम उत्पाद के परीक्षण और प्रदर्शन के लिए डेटा का एक सभ्य सेट चाहिए। हम सिर्फ एक यादृच्छिक संख्या जनरेटर के आउटपुट के साथ डेटाबेस को नहीं भर सकते क्योंकि कार्यक्रम के आउटपुट निरर्थक हो जाएंगे। इस तरह के डेटा को प्राप्त करने के सबसे सरल तरीकों में से एक क्लाइंट से है; हमारे पास चलाए गए परीक्षण से डेटा का एक बड़ा निकाय है। अब, स्पष्ट रूप से हम एक ग्राहक के वास्तविक डेटा को प्रकाशित नहीं कर सकते हैं, इसलिए हमें इसे थोड़ा बदलने की आवश्यकता है, लेकिन हमें अभी भी वास्तविक डेटा की तरह व्यवहार करने की आवश्यकता है।
यहाँ उद्देश्य उनके डेटा के सेट को लेना है, और इसे "फ़ज़" लागू करना है ताकि इसे विशेष रूप से उनके रूप में पहचाना न जा सके। सांख्यिकीय सिद्धांत की मेरी स्मृति अपने आप में थोड़ी फजी है, इसलिए मैं इसे आप लोगों द्वारा चलाना चाहूंगा:
अनिवार्य रूप से, हमारे पास (क्लाइंट से) जो डेटा है, वह सभी डेटा का एक नमूना है जो मौजूद है (देश, या दुनिया में)। मैं जानना चाहता हूं कि किस प्रकार के संचालन को लागू किया जा सकता है ताकि नमूने को ग्राहक की नमूना आबादी का दृढ़ता से प्रतिनिधि न बनाया जा सके, जबकि यह अभी भी दुनिया की आबादी का लगभग प्रतिनिधि है।
संदर्भ के लिए, जहां तक हम जानते हैं कि हमारे पास आमतौर पर मौजूद डेटा सामान्य (गॉसियन) वितरणों का अनुसरण करता है।
मूल डाटासेट व्यापक रूप से उपलब्ध नहीं है, लेकिन सैद्धांतिक रूप से कुछ क्षेत्रीय विशिष्ट विशेषताओं से पहचाना जा सकता है (हम नहीं जानते कि वे विशेषताएँ क्या हैं, और यह संदिग्ध है कि क्या कोई पर्याप्त स्तर पर करता है, लेकिन हम जानते हैं कि भिन्नताएं जगह से मौजूद हैं रखना)। वैसे भी, मैं अभ्यास के बजाय इस के सिद्धांत में अधिक रुचि रखता हूं - मैं जानना चाहता हूं कि क्या कोई ऑपरेशन असंभव है (या कम से कम मुश्किल है) पैरामीटर X द्वारा स्रोत डेटासेट की पहचान करना, किसी के पास है या नहीं या बाहर काम कर सकता है। पैरामीटर X पहली जगह में।
जिस दृष्टिकोण के साथ मैं आया हूं, वह रीडिंग को विभिन्न प्रकारों में अलग करना है, (बहुत दूर दिए बिना, मान लें कि एक समूह "लंबाई" या "एक्स करने के लिए लिया गया समय" हो सकता है।) उनमें से प्रत्येक के लिए, गणना करें। मानक विचलन। फिर, प्रत्येक मान के लिए, (n * stddev) के सकारात्मक और नकारात्मक मूल्यों के बीच एक यादृच्छिक मान जोड़ें जहां n कुछ अंश है जिसका उपयोग मैं परिणाम को ट्यून करने के लिए कर सकता हूं जब तक कि डेटा पर्याप्त रूप से "फ़ज़ी" न हो। मैं केवल एक स्थिर रेंज (मूल मान के 90% और 110% के बीच यादृच्छिक कहना) लागू नहीं करना चाहता था, क्योंकि कुछ मान दूसरों की तुलना में बहुत अधिक या कम भिन्न होते हैं - कुछ मापों में, औसत से 10% अधिक मुश्किल से ध्यान देने योग्य है , लेकिन दूसरों में यह आपको एक गंभीर परिणाम बनाता है।
क्या यह मूल डेटा के स्रोत को मास्क करने के लिए पर्याप्त है? यदि नहीं, तो कौन से सांख्यिकीय उपायों से डेटा अभी भी पहचाना जा सकेगा, और परिणामी डेटा को यथार्थवादी रखते हुए मैं उन्हें कैसे मास्क करूंगा?