ग्राउंड ट्रुथ क्या है


30

मशीन लर्निंग के संदर्भ में , मैंने देखा है कि ग्राउंड ट्रुथ शब्द का काफी इस्तेमाल हुआ है। मैंने बहुत खोज की है और विकिपीडिया में निम्नलिखित परिभाषा पाई है :

मशीन लर्निंग में, शब्द "जमीनी सच्चाई" से तात्पर्य पर्यवेक्षित शिक्षण तकनीकों के प्रशिक्षण सेट के वर्गीकरण की सटीकता से है। यह शोध परिकल्पना को साबित करने या उसे खारिज करने के लिए सांख्यिकीय मॉडल में उपयोग किया जाता है। "ग्राउंड ट्रूथिंग" शब्द इस परीक्षण के लिए उचित उद्देश्य (साबित) डेटा इकट्ठा करने की प्रक्रिया को संदर्भित करता है। सोने के मानक के साथ तुलना करें।

Bayesian स्पैम फ़िल्टरिंग पर्यवेक्षित शिक्षण का एक सामान्य उदाहरण है। इस प्रणाली में, एल्गोरिथ्म को मैन्युअल रूप से स्पैम और गैर-स्पैम के बीच अंतर सिखाया जाता है। यह एल्गोरिथ्म को प्रशिक्षित करने के लिए उपयोग किए जाने वाले संदेशों की जमीनी सच्चाई पर निर्भर करता है - जमीनी सच्चाई में गलतियाँ परिणामी स्पैम / गैर-स्पैम verdicts में अशुद्धि को सहसंबंधित करेंगी।

मुद्दा यह है कि मुझे वास्तव में वह नहीं मिल सकता है जिसका अर्थ है। वह यह है कि लेबल प्रत्येक के लिए इस्तेमाल किया डेटा वस्तु या लक्ष्य समारोह है जो प्रत्येक के लिए एक लेबल देता है डेटा वस्तु , या शायद कुछ और?

जवाबों:


25

जमीनी सच्चाई वही है जो आपने प्रशिक्षण और परीक्षण के उदाहरणों के लिए अपने लक्ष्य चर के लिए मापी है।

लगभग हर समय आप सुरक्षित रूप से इस लेबल के समान व्यवहार कर सकते हैं।

कुछ मामलों में यह लेबल के समान ठीक नहीं है। उदाहरण के लिए यदि आप अपने डेटा सेट में वृद्धि करते हैं, तो जमीनी सच्चाई (आपके वास्तविक माप) और आपके द्वारा निर्दिष्ट लेबल से संबंधित संवर्धित उदाहरणों के बीच एक सूक्ष्म अंतर है। हालांकि, यह अंतर आमतौर पर एक समस्या नहीं है।

जमीनी सच्चाई गलत हो सकती है। यह एक माप है, और इसमें त्रुटियां हो सकती हैं। कुछ एमएल परिदृश्यों में यह एक व्यक्तिपरक माप भी हो सकता है जहां एक अंतर्निहित उद्देश्य सत्य को परिभाषित करना मुश्किल है - जैसे विशेषज्ञ राय या विश्लेषण, जिसे आप स्वचालित करने की उम्मीद कर रहे हैं। आपके द्वारा प्रशिक्षित किसी भी एमएल मॉडल को जमीनी सच्चाई की गुणवत्ता द्वारा सीमित किया जाएगा जो इसे प्रशिक्षित और परीक्षण करने के लिए उपयोग किया जाता है, और यह विकिपीडिया उद्धरण पर स्पष्टीकरण का हिस्सा है। यह भी है कि एमएल के बारे में प्रकाशित लेखों में डेटा कैसे एकत्र किया गया था, इसका पूरा विवरण शामिल होना चाहिए।


प्रशिक्षण के दौरान, gt (उदाहरण के लिए सेगमेंटेशन समस्याओं में) को संशोधित किया जा सकता है या सुविधाओं से प्राप्त जानकारी (जैसे स्कोर मैप्स) दी जा सकती है?
एलेक्स

@ एलेक्स: आमतौर पर नहीं। कुछ परिस्थितियां हो सकती हैं जहां एक संशोधित आउटपुट या अर्ध-स्वचालित प्रक्रिया एक पाइपलाइन में अगले एल्गोरिथ्म के लिए जमीनी सच्चाई पैदा करती है। हालाँकि, यदि आप कुछ नियम के माध्यम से अपने स्वयं के लक्ष्यों को संशोधित करने वाले एल्गोरिथम का उल्लेख कर रहे हैं, तो यह आमतौर पर एक नया जमीनी सच नहीं माना जाता है - इसके बजाय जमीनी सच्चाई प्रशिक्षण के लिए प्रदान किए गए मूल विभाजन होंगे। इसके बजाय कोई भी स्वचालित स्वचालित शोधन मॉडल का हिस्सा होगा।
नील स्लेटर

मानव अंतःक्रिया के साथ शोधन, या जो मूल गैर-छवि डेटा को संदर्भित करता है (जैसे कुछ स्रोत चित्र 3D मॉडल का उपयोग करके उत्पन्न होते हैं, इसलिए बहुत बेहतर "सही" विभाजन बना सकते हैं) नया जमीनी सच हो सकता है। यद्यपि आप शायद पीढ़ी के विचार को अलग करना चाहेंगे 1 पीढ़ी का पहला सत्य निर्माण करने के लिए उपयोग किया जाता है 2 जमीनी सच्चाई से पहला मॉडल जो एक पुनरावृत्ति के माध्यम से किया गया है, और दूसरा मॉडल बनाने के लिए उपयोग किया जाता है, भले ही दूसरा मॉडल एक ही वास्तुकला हो प्रतिक्रिया पर प्रशिक्षित।
नील स्लेटर

'फीडबैक पर प्रशिक्षित' - करीब, लेकिन बिल्कुल नहीं। यदि आपने FCN मॉडल देखा है, तो अंतिम परत स्कोर मैप है जो कि लॉग मैप सॉफ्टमैक्स लॉस फ़ंक्शन में gt मैप के साथ प्लग किया गया है। मैं जो भी करता हूं वह स्कोर मैप लेता है, इसमें से कुछ डेटा निकालता है (जैसे कि argmax बाइनरी ब्लब्स की संख्या) और (किसी तरह) इसे नुकसान फ़ंक्शन में प्लग करने से पहले gt मास्क को संशोधित करें। यह कितना वैध है?
एलेक्स

@ एलेक्स: यह आपके मॉडल का हिस्सा है, न कि नई जमीनी सच्चाई। जब तक आप तय नहीं करते, मनमाने ढंग से, कि एक नए मॉडल का लक्ष्य आपके संयुक्त कार्य को सीखना है। जिस मामले में यह नए मॉडल के लिए जमीनी सच्चाई है - हालांकि, आपको सबसे निश्चित रूप से इस डेटा के जटिल स्रोत पर ध्यान देना चाहिए, क्योंकि यह स्वचालित रूप से मूल माप से संशोधित किया गया है।
नील स्लेटर

2

जमीनी सच्चाई: यही वह वास्तविकता है जिसे आप चाहते हैं कि आपका मॉडल भविष्यवाणी करे।

इसमें कुछ शोर हो सकता है लेकिन आप चाहते हैं कि आपका मॉडल डेटा में अंतर्निहित पैटर्न को सीखे, जो इस जमीनी सच्चाई का कारण बन रहा है। व्यावहारिक रूप से, आपका मॉडल कभी भी जमीनी सच्चाई का अनुमान लगाने में सक्षम नहीं होगा क्योंकि जमीनी सच्चाई का भी कुछ शोर होगा और कोई भी मॉडल सौ प्रतिशत सटीकता नहीं देता है लेकिन आप चाहते हैं कि आपका मॉडल जितना संभव हो उतना करीब हो।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.