मैं डेटा का उपयोग करने के तरीके के आधार पर एक अलग शब्द का उपयोग करता हूं। अगर मुझे बना-बनाया डेटासेट चारों ओर पड़ा हुआ मिल गया है और इस पर अपने एल्गोरिथ्म को पुष्ट तरीके से इंगित किया है, तो "सिंथेटिक" शब्द ठीक है।
हालाँकि, जब भी मैं इस प्रकार के डेटा का उपयोग करता हूं, मैंने अपने एल्गोरिथ्म की क्षमताओं को दिखाने के विशिष्ट इरादे के साथ डेटा का आविष्कार किया है। दूसरे शब्दों में, मैंने "अच्छे परिणाम" प्राप्त करने के विशिष्ट उद्देश्य के लिए डेटा का आविष्कार किया। ऐसी परिस्थितियों में, मुझे डेटा के लिए मेरी अपेक्षाओं के स्पष्टीकरण के साथ-साथ "आकस्मिक" शब्द का शौक है। ऐसा इसलिए है क्योंकि मैं नहीं चाहता कि कोई यह सोचकर गलती करे कि मैंने अपने एल्गोरिथ्म को कुछ मनमाने सिंथेटिक डेटासेट्स पर इंगित किया है जो मुझे चारों ओर पड़े हुए मिले और यह वास्तव में अच्छी तरह से काम करता है। अगर मेरे पास चेरी-उठाया डेटा है (वास्तव में इसे बनाने के लिए) विशेष रूप से मेरे एल्गोरिथ्म को अच्छी तरह से काम करने के लिए, तो मैं कहता हूं। ऐसा इसलिए है क्योंकि ऐसे परिणाम सबूत देते हैं कि मेरा एल्गोरिथ्म क्या कर सकता हैअच्छी तरह से बाहर काम करते हैं, लेकिन केवल बहुत कमजोर सबूत प्रदान करते हैं कि एक एल्गोरिथ्म सामान्य रूप से अच्छी तरह से काम करने की उम्मीद कर सकता है । "Contrived" शब्द वास्तव में अच्छी तरह से सच है कि मैंने "अच्छे परिणाम" को ध्यान में रखते हुए डेटा चुना है, एक प्राथमिकता है।
"क्या यह कपटपूर्ण डेटा का आभास देता है ?"
नहीं, लेकिन, किसी भी डेटासेट के स्रोत के बारे में स्पष्ट होना महत्वपूर्ण है और किसी भी डेटासेट पर आपके परिणामों की रिपोर्ट करते समय प्रयोगकर्ता के रूप में आपकी प्राथमिकताओं की अपेक्षाएं। "धोखाधड़ी" शब्द में स्पष्ट रूप से कुछ को कवर करने या एकमुश्त झूठ होने का एक पहलू शामिल है। विज्ञान के क्षेत्र में धोखाधड़ी के बचने आयोग को # 1 तरीका बस हो रहा है ईमानदार और स्पष्टवादी अपने डेटा और अपनी उम्मीदों की प्रकृति के बारे। दूसरे शब्दों में, यदि आपका डेटा गढ़ा गया है और आप किसी भी तरह से अधिक नहीं कह सकते हैं , और कुछ इस तरह की अपेक्षा है कि डेटा गढ़े नहीं गए हैं या बदतर हैं, तो आप दावा करते हैं कि डेटा कुछ गैर-फैब्रिकेटेड सॉर्ट में एकत्रित हैं रास्ता, तो वह है"धोखा"। उस बात को मत करो। यदि आप "गढ़े हुए" शब्द के लिए कुछ पर्यायवाची शब्द का उपयोग करना चाहते हैं, जो "बेहतर लगता है", जैसे "सिंथेटिक", कोई भी आपको दोष नहीं देगा, लेकिन साथ ही मुझे नहीं लगता कि किसी को भी आपके अलावा अंतर को नोटिस किया जाएगा।
एक साइड नोट:
कम स्पष्ट परिस्थितियां हैं, जहां एक का दावा है कि प्राथमिकताओं की अपेक्षाएं थीं जो वास्तव में पोस्ट स्पष्टीकरण हैं । यह डेटा का कपटपूर्ण विश्लेषण भी है।
इसका खतरा तब होता है जब कोई एल्गोरिदम की क्षमताओं को "दिखावा" करने के इरादे से विशेष रूप से डेटा चुनता है, जो अक्सर सिंथेटिक डेटा के साथ होता है।
DHHDD
HDHD
ऐसा करने में कोई समस्या नहीं है, इसलिए जब तक आप ईमानदार हैं और आपने जो किया है उसके बारे में स्पष्ट रूप से। यदि आप "अच्छे परिणाम" देने वाले डेटासेट बनाने के लिए दर्द से गुज़रे हैं, तो ऐसा कहें। जब तक आप पाठक को आपके डेटा विश्लेषण में आपके द्वारा उठाए गए कदमों के बारे में बताते हैं, तब तक आपके पास अपने परिकल्पना के लिए या सबूतों को प्रभावी ढंग से तौलने के लिए आवश्यक जानकारी है। जब आप ईमानदार नहीं होते हैं या स्पष्ट नहीं होते हैं , तो इससे यह आभास हो सकता है कि वास्तव में यह आपके साक्ष्य से अधिक मजबूत है। जब आप जानबूझकर की तुलना में कम कर रहे हैं ईमानदार और स्पष्टवादी अपने सबूत बनाने के लिए मजबूत की तुलना में यह वास्तव में है लगता है, तो वह यह है कि, वास्तव में, धोखाधड़ी।
किसी भी मामले में, यह इसलिए है कि मैं इस तरह के डेटासेट के लिए "contrived" शब्द पसंद करता हूं, साथ ही एक छोटी व्याख्या के साथ कि वे वास्तव में एक परिकल्पना को ध्यान में रखते हुए चुने गए हैं। "वंचित" इस अर्थ को व्यक्त करता है कि न केवल मैंने एक सिंथेटिक डेटासेट बनाया, बल्कि मैंने विशेष इरादों के साथ ऐसा किया जो इस तथ्य को दर्शाता है कि मेरी परिकल्पना मेरे डेटासेट के निर्माण से पहले ही थी।
एक उदाहरण द्वारा स्पष्ट करने के लिए: आप मनमाने समय-श्रृंखला के विश्लेषण के लिए एक एल्गोरिथ्म बनाते हैं। आप अनुमान लगाते हैं कि यह एल्गोरिथ्म "अच्छे परिणाम" देगा जब समय-श्रृंखला में बताया जाएगा। अब, निम्न दो संभावनाओं पर विचार करें: 1) आप कुछ सिंथेटिक डेटा बनाते हैं जो उस तरह का दिखता है जिससे आप उम्मीद करते हैं कि आप अपने एल्गोरिथ्म को अच्छा प्रदर्शन करेंगे। आप इस डेटा का विश्लेषण करते हैं और एल्गोरिथ्म अच्छा प्रदर्शन करता है। 2) आप कुछ सिंथेटिक डेटासेट लेते हैं क्योंकि वे उपलब्ध हैं इसलिए नहीं। आप इस डेटा का विश्लेषण करते हैं और एल्गोरिथ्म अच्छा प्रदर्शन करता है। इन दो परिस्थितियों में से कौन सा बेहतर सबूत प्रदान करता है कि आपका एल्गोरिथ्म मनमाना समय-श्रृंखला पर अच्छा प्रदर्शन करता है? स्पष्ट रूप से, यह विकल्प 2 है। हालांकि, विकल्प 1 या विकल्प 2 में रिपोर्ट करना आसान हो सकता है कि "हमने एल्गोरिथम लागू कियाADx.y
tl; डॉ
आपको जो भी शब्द पसंद हो उसका उपयोग करें, "सिंथेटिक", "कंट्रोल्ड", "फैब्रिकेटेड", "काल्पनिक"। हालाँकि, आपके द्वारा उपयोग किया जाने वाला शब्द यह सुनिश्चित करने के लिए अपर्याप्त है कि आपके परिणाम भ्रामक नहीं हैं । सुनिश्चित करें कि आप अपनी रिपोर्ट में इस बारे में स्पष्ट हैं कि डेटा कैसे आया, डेटा के लिए आपकी अपेक्षाएं और उन कारणों के लिए जिनमें आपने डेटा चुना था।