समझने में आसानी के लिए, मैं एक उदाहरण का उपयोग करके इसका वर्णन करूँगा। मान लीजिए कि आप एक उपकरण से डेटा एकत्र कर रहे हैं जिसमें 12 सेंसर हैं। और आपने 10 दिनों के लिए डेटा एकत्र किया है।
आपके द्वारा एकत्र किया गया डेटा इस प्रकार है:
इसे विरल डेटा कहा जाता है क्योंकि अधिकांश सेंसर आउटपुट शून्य होते हैं। जिसका अर्थ है कि वे सेंसर ठीक से काम कर रहे हैं लेकिन वास्तविक रीडिंग शून्य है। हालांकि इस मैट्रिक्स में उच्च आयामी डेटा (12 एक्सिस) हैं, यह कहा जा सकता है कि इसमें कम जानकारी है।
मान लीजिए कि आपके डिवाइस के 2 सेंसर खराबी हैं।
तब आपका डेटा इस प्रकार होगा:
इस स्थिति में, आप देख सकते हैं कि आप Sensor1 और Sensor6 के डेटा का उपयोग नहीं कर सकते हैं। या तो आपको परिणामों को प्रभावित किए बिना मैन्युअल रूप से डेटा भरना होगा या आपको प्रयोग को फिर से करना होगा।