मेकअप डेटा के लिए सर्वश्रेष्ठ शब्द?


23

मैं एक उदाहरण लिख रहा हूं और कुछ आंकड़े बनाए हैं। मैं चाहता हूं कि यह पाठक के लिए स्पष्ट हो कि यह वास्तविक डेटा नहीं है, लेकिन मैं द्वेष की धारणा भी नहीं देना चाहता, क्योंकि यह सिर्फ एक उदाहरण के रूप में कार्य करता है।

इस विशेष डेटा में कोई (छद्म) यादृच्छिक घटक नहीं है, इसलिए यह मुझे लगता है कि 'सिम्युलेटेड' उचित नहीं है। अगर मैं इसे काल्पनिक या मनगढ़ंत कहूं तो क्या यह कपटपूर्ण डेटा का आभास देता है ? क्या 'मेकअप' एक ऐसा शब्द है जो वैज्ञानिक संदर्भ में फिट होगा?

गैर-सिम्युलेटेड निर्मित डेटा के लिए सांख्यिकीय साहित्य में शब्दावली क्या है?


9
बस एक टिप्पणी जोड़ने के लिए जो कई उत्तर में फैलती है: "सिंथेटिक" बना हुआ डेटा के लिए एक अच्छा शब्द है जो यथासंभव यथार्थवादी दिखने की कोशिश करता है, जबकि "मॉक अप" डेटा का सुझाव देता है जिसे कुछ विशेष प्रदर्शित करने के लिए तैयार किया गया है। उदाहरण के लिए, "मॉक अप" डेटा में बेतुका आउटलेर शामिल हो सकते हैं, बस यह प्रदर्शित करने के लिए कि आउटलेर से ठीक से निपटना कितना महत्वपूर्ण है।
कॉर्ट अमोन -

मैं व्यक्तिगत रूप से "सिम्युलेटेड" शब्द को पसंद करता हूं और इसे सांख्यिकीय साहित्य में सबसे अधिक सामना करना पड़ा है (यानी, "हमने अपने मॉडल बनाम एक्स, वाई, जेड .... की तुलना करने के लिए सिमुलेशन का संचालन किया है"
समीर रचिद ज़िम

जवाबों:


45

मैं शायद इसे "सिंथेटिक" या "कृत्रिम" डेटा कहूंगा, हालांकि मैं इसे "सिम्युलेटेड" भी कह सकता हूं (अनुकरण बहुत सरल है)।


30
एक "खिलौना डेटा," "खिलौना उदाहरण," और "डमी डेटा" सुनता है। इसके अलावा, मैं मानता हूं कि यादृच्छिक संख्याओं के अभाव में भी "नकली" अच्छी तरह से फिट हो सकता है।
रोलैंडो

7
"चित्रण डेटा" या "उदाहरण डेटा" भी काम कर सकता है
हेनरी

8
+1 ' सिंथेटिक डेटा ' और ' टॉय उदाहरण ' दोनों ऐसे शब्द हैं जिनका मैं उपयोग कर सकता हूं, यदि अवसर उत्पन्न हुआ है, जैसा कि 'निर्मित उदाहरण' है। कभी-कभी मैं "उदाहरणात्मक उदाहरण" या ऐसा ही कुछ कहता हूं, खासकर जब उदाहरण में विशेष सुविधाओं के लिए स्पष्ट रूप से निर्माण किया गया था (उदाहरण के लिए जब कुछ गलत धारणा के प्रतिरूप के रूप में डिजाइन किया गया हो)।
Glen_b -Reinstate मोनिका

1
मैं असली (मापा) डेटा सेट के लिए खिलौना डेटा ( कृत्रिम या नकली के बिना ) का उपयोग करने के लिए करता हूं जो कि मैं कुछ दिखाने के लिए "दुरुपयोग" करता हूं।
केबेलाइट्स

1
यह आपके एप्लिकेशन पर थोड़ा निर्भर करता है कि सबसे अच्छा क्या काम करेगा। उदाहरण के लिए, मैं "नकली" डेटा के साथ एक परियोजना भी कर रहा हूं, लेकिन परियोजना के एक अन्य भाग में कंप्यूटर मॉडल सिमुलेशन का उपयोग करना शामिल है। तो यह मेरे लिए पाठक को भ्रमित कर सकता है कि नकली डेटा को "सिम्युलेटेड" के रूप में संदर्भित करें, डेटा को गलत तरीके से सिमुलेशन से आते हैं। इसलिए मैं "कृत्रिम" पर भरोसा कर रहा हूं, और कई बार मैं डेटा को "निर्मित" के रूप में वर्णित करता हूं। मैं व्यक्तिगत रूप से "सिंथेटिक" से बचना चाहूंगा क्योंकि मेरे लिए इस शब्द का अर्थ यह होगा कि डेटा अन्य डेटा स्रोतों (जैसे डेटा ए और डेटा बी का एक "संश्लेषण") के संयोजन का कुछ प्रकार है।
सेफ़

12

यदि आप अपने डेटा को काल्पनिक के रूप में संदर्भित करना चाहते हैं, तो आप अच्छी कंपनी में होंगे, क्योंकि फ्रांसिस एंस्कोम्बे ने अपनी प्रसिद्ध चौपाई का वर्णन किया है ।

Anscombe से, FJ (1973)। " सांख्यिकीय विश्लेषण में रेखांकन ", एम। स्टेट। 27 (1):

इनमें से कुछ बिंदुओं को चार काल्पनिक डेटा सेट द्वारा दर्शाया गया है, जिनमें से प्रत्येक में ग्यारह (x, y) जोड़े शामिल हैं, तालिका में दिखाए गए हैं।

लेकिन मुझे लगता है कि आपकी सावधानी अच्छी तरह से रखी गई है, क्योंकि मेरा OED (v4) इंगित करता है कि काल्पनिक का यह प्रयोग अप्रचलित है

काल्पनिक , a।

(Fɪktɪʃəs)

[च। एल। फ़िक्टिसी-यू (फैशन के लिए, फ़िंगर) + -उस: देख-समझदार।]

१.१ natural ए। १. कृत्रिम प्राकृतिक (अवलोकित) के विपरीत। b.1.b नकली, 'नकल', दिखावा; नकली।


पठनीयता के संदर्भ में पहला सुझाव और टिप्पणियाँ ज्यादा बेहतर विकल्प हैं। असामान्य, जटिल शब्दों का उपयोग करने की आवश्यकता नहीं है।
टिम

1
@ समय: मैं सहमत होना चाहता हूं, लेकिन मैं पूरी तरह से निश्चित नहीं हूं कि मैं किस बात से सहमत हूं। क्या आप कह रहे हैं कि पहले भी इसी तरह के संदर्भ में इस्तेमाल किए जाने के बावजूद काल्पनिक गलत विकल्प होगा? क्योंकि मैं वही कह रहा हूं।
अक्सेल

7

आईटी में हम अक्सर इसे मॉकअप डेटा कहते हैं , जिसे मॉकअप (एप्लिकेशन) के माध्यम से प्रस्तुत किया जा सकता है।

मॉकअप डेटा को पूरी तरह कार्यात्मक एप्लिकेशन के माध्यम से भी प्रस्तुत किया जा सकता है, उदाहरण के लिए नियंत्रित तरीके से एप्लिकेशन की कार्यक्षमता का परीक्षण करना।


5
अच्छी बात है, लेकिन मेरा मानना ​​है कि मॉकअप डेटा और सिम्युलेटेड डेटा बिल्कुल समान नहीं हैं। यूनिट परीक्षणों के लिए मॉकअप डेटा बनाते समय, आपको केवल वास्तविक डेटा के कुछ बहुत ही मूल गुणों को संरक्षित करने की आवश्यकता होती है, जबकि सांख्यिकीय विश्लेषण के लिए नकली डेटा का उपयोग करते समय, आप आमतौर पर अधिक परिष्कृत डेटा उदाहरणों का उपयोग करते हैं।
टिम :

2
मुझे अभी भी विश्वास है कि एरिक सही है, जब आप विश्लेषणात्मक कोड लिखते हैं तो आपको वास्तविक चीज़ या नकली डेटा की आवश्यकता होती है। मॉक डेटा उतना ही बड़ा हो सकता है जितना आप इसे इमो करना चाहते हैं।
मैथिज सीजर

1
मुझे शायद लगता है कि शब्दावली का उपयोग करने के तरीके अलग-अलग हैं। हमारे कई परीक्षणों और विश्लेषणों के लिए हम लाइव डेटा का उपयोग करते हैं जो सुरक्षा और गुमनामी के कारणों के लिए "डिफ्यूज़" किया गया है। दूसरों के लिए हम टिम के वर्णन के अनुसार नंगे हड्डियों का डेटा बनाते हैं। मेरे पास कोई मजबूत राय नहीं है लेकिन हम मॉकअप शब्द का इस्तेमाल काफी शिथिल करते हैं।
एरिक

3

मैंने "सिंथेटिक डेटा" शब्द के लिए बार-बार सुझाव देखे हैं। हालाँकि इस शब्द का व्यापक रूप से उपयोग किया गया है, और जो आप व्यक्त करना चाहते हैं, उससे बहुत भिन्न अर्थ है: https://en.wikipedia.org/wiki/Synthetic_data

मुझे यकीन नहीं है कि आम तौर पर स्वीकृत वैज्ञानिक शब्द है, लेकिन "उदाहरण डेटा" शब्द गलतफहमी के लिए कठिन लगता है?


1
यह लेख थोड़ा उलझा हुआ लगता है - गुमनामी का रिश्ता बहुत कठिन है।
मैट क्रॉउज

+1 लेकिन मैं पिछली टिप्पणी से सहमत हूं: दूसरे पैराग्राफ (यह कहते हुए कि संश्लेषित डेटा एक प्रकार का अज्ञात डेटा है) के अलावा, उस विकिपीडिया लेख के बाकी हिस्से का वर्णन यह लगता है कि प्रश्नकर्ता क्या चाहता है। यानी यथार्थवादी दिखने वाला बना-बनाया डेटा।
डैरेन कुक

3

मैंने 'नकली डेटा' शब्द का उचित मात्रा में सामना किया है। मुझे लगता है कि इसके कुछ नकारात्मक अर्थ हो सकते हैं, लेकिन मैंने इसे अक्सर सुना है कि यह मेरे लिए बिल्कुल भी नकारात्मक पंजीकरण नहीं करता है।

एफडब्ल्यूआईडब्ल्यू, एंड्रयू जेलमैन भी इसका उपयोग करते हैं:

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

'फर्जी डेटा' के लिए एक त्वरित Google खोज बहुत सारे परिणामों को बदल देती है जो समान शब्द का उपयोग करते हुए प्रतीत होते हैं:

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

और यहां तक ​​कि एक fakeRपैकेज भी है , जो बताता है कि यह अपेक्षाकृत सामान्य है: https://cran.r-project.org/web/packages/fakeR/fakeR.pdf


2

मैं डेटा का उपयोग करने के तरीके के आधार पर एक अलग शब्द का उपयोग करता हूं। अगर मुझे बना-बनाया डेटासेट चारों ओर पड़ा हुआ मिल गया है और इस पर अपने एल्गोरिथ्म को पुष्ट तरीके से इंगित किया है, तो "सिंथेटिक" शब्द ठीक है।

हालाँकि, जब भी मैं इस प्रकार के डेटा का उपयोग करता हूं, मैंने अपने एल्गोरिथ्म की क्षमताओं को दिखाने के विशिष्ट इरादे के साथ डेटा का आविष्कार किया है। दूसरे शब्दों में, मैंने "अच्छे परिणाम" प्राप्त करने के विशिष्ट उद्देश्य के लिए डेटा का आविष्कार किया। ऐसी परिस्थितियों में, मुझे डेटा के लिए मेरी अपेक्षाओं के स्पष्टीकरण के साथ-साथ "आकस्मिक" शब्द का शौक है। ऐसा इसलिए है क्योंकि मैं नहीं चाहता कि कोई यह सोचकर गलती करे कि मैंने अपने एल्गोरिथ्म को कुछ मनमाने सिंथेटिक डेटासेट्स पर इंगित किया है जो मुझे चारों ओर पड़े हुए मिले और यह वास्तव में अच्छी तरह से काम करता है। अगर मेरे पास चेरी-उठाया डेटा है (वास्तव में इसे बनाने के लिए) विशेष रूप से मेरे एल्गोरिथ्म को अच्छी तरह से काम करने के लिए, तो मैं कहता हूं। ऐसा इसलिए है क्योंकि ऐसे परिणाम सबूत देते हैं कि मेरा एल्गोरिथ्म क्या कर सकता हैअच्छी तरह से बाहर काम करते हैं, लेकिन केवल बहुत कमजोर सबूत प्रदान करते हैं कि एक एल्गोरिथ्म सामान्य रूप से अच्छी तरह से काम करने की उम्मीद कर सकता है । "Contrived" शब्द वास्तव में अच्छी तरह से सच है कि मैंने "अच्छे परिणाम" को ध्यान में रखते हुए डेटा चुना है, एक प्राथमिकता है।

"क्या यह कपटपूर्ण डेटा का आभास देता है ?"

नहीं, लेकिन, किसी भी डेटासेट के स्रोत के बारे में स्पष्ट होना महत्वपूर्ण है और किसी भी डेटासेट पर आपके परिणामों की रिपोर्ट करते समय प्रयोगकर्ता के रूप में आपकी प्राथमिकताओं की अपेक्षाएं। "धोखाधड़ी" शब्द में स्पष्ट रूप से कुछ को कवर करने या एकमुश्त झूठ होने का एक पहलू शामिल है। विज्ञान के क्षेत्र में धोखाधड़ी के बचने आयोग को # 1 तरीका बस हो रहा है ईमानदार और स्पष्टवादी अपने डेटा और अपनी उम्मीदों की प्रकृति के बारे। दूसरे शब्दों में, यदि आपका डेटा गढ़ा गया है और आप किसी भी तरह से अधिक नहीं कह सकते हैं , और कुछ इस तरह की अपेक्षा है कि डेटा गढ़े नहीं गए हैं या बदतर हैं, तो आप दावा करते हैं कि डेटा कुछ गैर-फैब्रिकेटेड सॉर्ट में एकत्रित हैं रास्ता, तो वह है"धोखा"। उस बात को मत करो। यदि आप "गढ़े हुए" शब्द के लिए कुछ पर्यायवाची शब्द का उपयोग करना चाहते हैं, जो "बेहतर लगता है", जैसे "सिंथेटिक", कोई भी आपको दोष नहीं देगा, लेकिन साथ ही मुझे नहीं लगता कि किसी को भी आपके अलावा अंतर को नोटिस किया जाएगा।

एक साइड नोट:

कम स्पष्ट परिस्थितियां हैं, जहां एक का दावा है कि प्राथमिकताओं की अपेक्षाएं थीं जो वास्तव में पोस्ट स्पष्टीकरण हैं । यह डेटा का कपटपूर्ण विश्लेषण भी है।

इसका खतरा तब होता है जब कोई एल्गोरिदम की क्षमताओं को "दिखावा" करने के इरादे से विशेष रूप से डेटा चुनता है, जो अक्सर सिंथेटिक डेटा के साथ होता है।

DHHDD

HDHD

ऐसा करने में कोई समस्या नहीं है, इसलिए जब तक आप ईमानदार हैं और आपने जो किया है उसके बारे में स्पष्ट रूप से। यदि आप "अच्छे परिणाम" देने वाले डेटासेट बनाने के लिए दर्द से गुज़रे हैं, तो ऐसा कहें। जब तक आप पाठक को आपके डेटा विश्लेषण में आपके द्वारा उठाए गए कदमों के बारे में बताते हैं, तब तक आपके पास अपने परिकल्पना के लिए या सबूतों को प्रभावी ढंग से तौलने के लिए आवश्यक जानकारी है। जब आप ईमानदार नहीं होते हैं या स्पष्ट नहीं होते हैं , तो इससे यह आभास हो सकता है कि वास्तव में यह आपके साक्ष्य से अधिक मजबूत है। जब आप जानबूझकर की तुलना में कम कर रहे हैं ईमानदार और स्पष्टवादी अपने सबूत बनाने के लिए मजबूत की तुलना में यह वास्तव में है लगता है, तो वह यह है कि, वास्तव में, धोखाधड़ी

किसी भी मामले में, यह इसलिए है कि मैं इस तरह के डेटासेट के लिए "contrived" शब्द पसंद करता हूं, साथ ही एक छोटी व्याख्या के साथ कि वे वास्तव में एक परिकल्पना को ध्यान में रखते हुए चुने गए हैं। "वंचित" इस अर्थ को व्यक्त करता है कि न केवल मैंने एक सिंथेटिक डेटासेट बनाया, बल्कि मैंने विशेष इरादों के साथ ऐसा किया जो इस तथ्य को दर्शाता है कि मेरी परिकल्पना मेरे डेटासेट के निर्माण से पहले ही थी।

एक उदाहरण द्वारा स्पष्ट करने के लिए: आप मनमाने समय-श्रृंखला के विश्लेषण के लिए एक एल्गोरिथ्म बनाते हैं। आप अनुमान लगाते हैं कि यह एल्गोरिथ्म "अच्छे परिणाम" देगा जब समय-श्रृंखला में बताया जाएगा। अब, निम्न दो संभावनाओं पर विचार करें: 1) आप कुछ सिंथेटिक डेटा बनाते हैं जो उस तरह का दिखता है जिससे आप उम्मीद करते हैं कि आप अपने एल्गोरिथ्म को अच्छा प्रदर्शन करेंगे। आप इस डेटा का विश्लेषण करते हैं और एल्गोरिथ्म अच्छा प्रदर्शन करता है। 2) आप कुछ सिंथेटिक डेटासेट लेते हैं क्योंकि वे उपलब्ध हैं इसलिए नहीं। आप इस डेटा का विश्लेषण करते हैं और एल्गोरिथ्म अच्छा प्रदर्शन करता है। इन दो परिस्थितियों में से कौन सा बेहतर सबूत प्रदान करता है कि आपका एल्गोरिथ्म मनमाना समय-श्रृंखला पर अच्छा प्रदर्शन करता है? स्पष्ट रूप से, यह विकल्प 2 है। हालांकि, विकल्प 1 या विकल्प 2 में रिपोर्ट करना आसान हो सकता है कि "हमने एल्गोरिथम लागू कियाADx.y

tl; डॉ

आपको जो भी शब्द पसंद हो उसका उपयोग करें, "सिंथेटिक", "कंट्रोल्ड", "फैब्रिकेटेड", "काल्पनिक"। हालाँकि, आपके द्वारा उपयोग किया जाने वाला शब्द यह सुनिश्चित करने के लिए अपर्याप्त है कि आपके परिणाम भ्रामक नहीं हैं । सुनिश्चित करें कि आप अपनी रिपोर्ट में इस बारे में स्पष्ट हैं कि डेटा कैसे आया, डेटा के लिए आपकी अपेक्षाएं और उन कारणों के लिए जिनमें आपने डेटा चुना था।


यद्यपि यहाँ उत्तर ओवरलैप करते हैं और लगभग सभी अच्छे अंक बनाते हैं, लेकिन मुझे लगता है कि सबसे महत्वपूर्ण बात यह बताती है कि कोई भी शब्द सभी पाठकों को डेटा बनाने के पीछे की मंशा से अवगत नहीं कराएगा । रेज़ोन न केवल उचित से, बल्कि आलस (खराब परिचयात्मक ग्रंथ) के माध्यम से धोखाधड़ी और धोखाधड़ी के उद्देश्य से आवश्यक हो सकते हैं। यह समझाते हुए कि आप इसे कुछ लंबाई में क्यों कर रहे हैं, यह एक अच्छा विचार हो सकता है।
निक कॉक्स

... कारण ...
निक कॉक्स

1

सबसे पहले, इसे "डेटासेट" नहीं कहने का कोई कारण नहीं है। "नकली" बनाम "सिम्युलेटेड" बनाम ... डेटा के लिए कोई सार्वभौमिक रूप से सहमति नहीं है। यदि लक्ष्य पूरी तरह से स्पष्ट होना है, तो यह वास्तव में एक वाक्य को समर्पित करने के लिए सबसे अच्छा है, एक शब्द के बजाय, यह योग्यता प्राप्त करने के लिए कि यह डेटासेट क्या है। उसके बाद, आप पदनाम को आराम कर सकते हैं और बस अपने डेटा को डेटा के रूप में संदर्भित कर सकते हैं।

"सिंथेटिक", "कृत्रिम" अन्य MCMC से अलग नहीं है जो मेरे दिमाग में "सिम्युलेटेड" डेटासेट का नमूना है। एक निश्चित बीज (उचित प्रशिक्षण के रूप में निर्धारित करेगा) के साथ एक अर्धचालक संख्या जनरेटर का उपयोग करना भी एक सिंथेटिक या कृत्रिम डेटासेट बनाता है।

यदि किसी विशिष्ट उदाहरण के लिए किसी उदाहरण के लिए किसी उदाहरण को दर्शाने की बजाय किसी विशिष्ट चित्रण के लिए किसी डेटासेट को क्यूरेट करने की बात है, तो मुझे लगता है कि इस तरह के डेटासेट को " उदाहरण का डेटासेट " कहना बेहतर है। इस तरह के डेटा Anscombe की चौकड़ी के समान हैं: पूरी तरह से अमूर्त और प्रशंसनीय नहीं है, लेकिन इसका मतलब एक बिंदु को चित्रित करना है।


1

जीव विज्ञान में, विश्लेषण कभी-कभी पौराणिक जानवरों के डेटासेट का उपयोग करके दिखाया जाता है। स्पष्ट रूप से बताएं कि डेटा नकली है या नहीं यह लेखक / समीक्षक के लिए है।

पशु मॉडल के लिए एक पारिस्थितिकीविज्ञानी गाइड, 2009

ये ट्यूटोरियल ग्रिफ़ोंस की आबादी पर मात्रात्मक आनुवंशिक विश्लेषण की एक श्रृंखला का वर्णन करते हैं (लेखकों के एवियन और स्तनधारी जीवों के बीच एक समझौता दर्शाते हैं)। जैसा कि ग्रिफ़ॉन एक पौराणिक जानवर है प्रदान किए गए डेटा को आवश्यक रूप से सिम्युलेटेड किया गया था।

फिक्स्ड प्रभाव विचरण और दोहराव और विधर्मियों का अनुमान: मुद्दे और समाधान, 2017

इसे समझने के लिए, आइए विल्सन (2008) के यूनिकॉर्न डेटासेट पर वापस जाएँ। यह एक ज्ञात तथ्य है कि यूनिकॉर्न में, सींग की लंबाई अलग-अलग शरीर के द्रव्यमान (ढलान: a = 0.403 उम्र, लिंग और उनकी बातचीत सहित) के लिए अलग-अलग होती है।


1
दिलचस्प दृष्टिकोण! मुझे लगता है कि यह जीव विज्ञान के छात्रों के आंकड़ों को पढ़ाने के लिए बहुत अच्छा हो सकता है। हालांकि जनता के सामने पेश करते हुए, मुझे यकीन नहीं है कि यह सही प्रभाव देगा
फ्रांसेस रॉडेनबर्ग

0

सहज रूप से मैं 'डमी डेटा' शब्द पर जाता हूं, उसी अर्थ में "लोरम इप्सम ..." को 'डमी टेक्स्ट' कहा जाता है। 'डमी' शब्द काफी सामान्य है और विभिन्न पृष्ठभूमि के लोगों के लिए समझने में आसान है और कम सांख्यिकीय पृष्ठभूमि के पाठकों द्वारा गलत तरीके से व्याख्या किए जाने की संभावना कम है।


2
यदि यह एक प्रतिगमन संदर्भ में है, तो मैं "डमी" को ओवरलोड करने से बचूंगा, ऐसा नहीं है कि आपके पास डमी वैरिएबल डमी डेटा एन्कोडिंग है।
मैट क्रस

मैं सहमत हूं, मैं व्यक्तिगत रूप से इससे बचूंगा क्योंकि "डमी" में पहले से ही प्रतिगमन में एक निर्धारित अनुमान है। यह देखते हुए कि उपलब्ध शब्दों की एक बहुतायत है, संभवतः उन शब्दों से बचना सबसे अच्छा है जो अलग-अलग लोगों के लिए अलग-अलग चीजों का मतलब हो सकते हैं।
समीर राचिड ज़िम

0

डेटा लैटिन के लिए दिया गया है , जिसे आधुनिक समय में रिकॉर्ड किए गए तथ्यों के सेट के लिए शॉर्टहैंड के रूप में उपयोग किया जाता है । तो एक तरह से मनगढ़ंत रिकॉर्डिंग का हवाला देते हुए किसी तरह के दिए गए तथ्यों का खुला विरोधाभास होगा।

हालाँकि, डेटा के बढ़ते उपयोग के कारण केवल रिकॉर्डिंग को संदर्भित करने के लिए - तथ्यों के रिकॉर्ड के मूल अनुमान की परवाह किए बिना - हम रिकॉर्डिंग के बारे में बात करते समय खुशी से एक-दूसरे को समझते हैं जो सत्य हो सकता है या नहीं - इसलिए वास्तविक / नकली डेटा।

मैं नीचे गढ़ी गई रिकॉर्डिंग को संबोधित करने के तरीकों के अपने अनुभव को संक्षेप में बताऊंगा। उपयोग किया गया लेबल निर्भर करता है कि क्या कोई यह मान रहा है कि हम डेटा को गढ़ी हुई रिकॉर्डिंग के रूप में बात कर रहे हैं, जो आगे के विश्लेषण, या डेटा को कम्प्यूटेशनल लोड के रूप में सक्षम करने के लिए यथोचित यथार्थवादी दिखने के लिए है।

  • एनालिटिक्स / डेटा साइंस / स्ट्रेटेजिक कंसल्टेंसी सर्कल में, लोग अक्सर वास्तविक मान्यताओं के तहत बनाई गई रिकॉर्डिंग के एक गढ़े हुए सेट को सिंथेटिक डेटा के रूप में संबोधित करते हैं - और कभी-कभी नकली डेटा । क्रूड मान्यताओं का उपयोग करके बनाई गई फैब्रिकेटेड रिकॉर्डिंग को खिलौना डेटासेट के रूप में संदर्भित किया जाता है ।
  • सॉफ्टवेयर इंजीनियरों के बीच, नकली डेटा , डमी डेटा , बना-बनाया डेटा और मॉक-अप डेटा लगातार लेबल होते हैं जो मुख्य रूप से रिकॉर्डिंग के लिए संकेत देते हैं कि जरूरी नहीं कि इसमें यथार्थवादी गुण हों, लेकिन केवल मूल डेटा (आयु डेटा के साथ मूल गुण हमेशा संख्यात्मक होते हैं) , ईमेल पतों में हमेशा "@") होते हैं।
  • अकादमिक शोधकर्ता छद्म डेटा या सिम्युलेटेड डेटा के रूप में मनगढ़ंत रिकॉर्डिंग के यथार्थवादी सेट का उल्लेख करेंगे । कुछ हलकों में, यदि टिप्पणियों का मनगढ़ंत सेट मोंटे कार्लो सिमुलेशन का परिणाम है, तो इसे बोलचाल की भाषा में मोंटे कार्लो कहा जा सकता है । अर्ध-यथार्थवादी रिकॉर्डिंग का उपयोग आमतौर पर उदाहरण के उद्देश्य या वैकल्पिक परिकल्पना के परीक्षण के लिए किया जाता है, और इसे खिलौना डाटासेट के रूप में संदर्भित किया जाता है

2
"मोंटे कार्लो" विधि का नाम है, इसलिए "बोलचाल" का नाम बहुत भ्रामक होगा।
टिम

@ वास्तव में, यह भ्रामक के रूप में देखा जा सकता है। हालाँकि, भाषा एक उपकरण है जो समुदाय में सर्वसम्मति के आधार पर किसी चीज़ को संदर्भित करने के तरीके के रूप में है। इतना ही नहीं हम रिकॉर्डिंग और माप के लिए इस साइट पर बात कर रहे हैं कि के रूप में दिए गए (लैटिन के लिए अंग्रेजी डेटा )। अगर मैं अपने दृष्टिकोण को अपनाने के लिए थे, मैं के रूप में नकली माप को संबोधित कर पाते हैं नकली दिया अत्यधिक संदिग्ध।
अकालवार

मुझे आशा है कि अब आप देखेंगे कि "मोंटे कार्लो सिमुलेशन" का उल्लेख "मोंटे कार्लो" के रूप में किया गया है, जो "दिए गए अवलोकनों" के संदर्भ में "दिया गया" है। मैंने इसे "डेटा" शब्द के वास्तविक उपयोग के अर्थ और अधिक विचार को शामिल करने के लिए अपना उत्तर संपादित किया।
अकाल

1
"अकादमिक शोधकर्ता छद्म डेटा के रूप में सबसे अधिक बार गढ़ी गई रिकॉर्डिंग के यथार्थवादी सेट का उल्लेख करेंगे": मुझे यह याद नहीं है कि यह शब्द 40+ वर्षों के अकादमिक शोध में है। "शिक्षाविदों के पास आमतौर पर अवास्तविक रिकॉर्डिंग के लिए कोई उपयोग नहीं है": क्षमा करें, लेकिन यह काफी गलत है। कई में शिक्षाविद, कई क्षेत्रों में कई अलग-अलग प्रकार के सिमुलेशन का उपयोग करते हैं। यहां तक ​​कि अवास्तविक सिमुलेशन उपयोगी हो सकते हैं, उदाहरण के लिए सामान्य नमूनों की परिवर्तनशीलता गैर-सामान्यता का आकलन करने के लिए महत्वपूर्ण संदर्भ है।
निक कॉक्स

@ नाइकॉक्स स्यूडोडाटा अक्सर भौतिकी में उपयोग किया जाता है, और मैंने इसे जीव विज्ञान और सांख्यिकी में देखा है। यह जानने के लिए उत्सुक होंगे कि आपका क्षेत्र क्या है और आपका क्षेत्र सिमुलेशन का संदर्भ कैसे देता है। अवास्तविक आंकड़ों के लिए, मैंने अवास्तविक और अर्ध-यथार्थवादी के बीच अंतर किया। क्या मुझे आपका उपयोग मामला याद आया?
अकरगर
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.