एक टेक्स्ट माइनिंग एप्लिकेशन में, एक सरल तरीका यह है कि दस्तावेजों के कॉम्पैक्ट स्पार्स अभ्यावेदन के रूप में वैक्टर बनाने के लिए का उपयोग करें । यह बैच सेटिंग के लिए ठीक है, जहां पूरे कॉर्पस को प्राथमिकता से जाना जाता है, क्योंकि को पूरे कॉर्पस की आवश्यकता होती है
जहाँ एक शब्द है, एक दस्तावेज़ है, एक दस्तावेज़ कॉर्पस है, और (दिखाया नहीं गया) शब्दकोश है।
हालाँकि आमतौर पर नए दस्तावेज़ समय के साथ प्राप्त होते हैं। एक विकल्प यह है कि मौजूदा का उपयोग तब तक करते रहें जब तक कि निश्चित संख्या में नए दस्तावेज़ प्राप्त न हो जाएं, और इसे पुनर्गणना करें। हालांकि यह नाकाफी लगता है। क्या किसी को वृद्धिशील अद्यतन योजना के बारे में पता है जो (संभवतः लगभग) सभी डेटा को अग्रिम में देखा गया था जो मूल्य में परिवर्तित होता है? या वैकल्पिक रूप से एक और उपाय है जो समान धारणा को पकड़ता है लेकिन एक वृद्धिशील फैशन में गणना की जा सकती है?
यह भी एक संबंधित प्रश्न है कि क्या समय के साथ एक अच्छा उपाय है। चूंकि आईडी कॉर्पस शब्द आवृत्ति की धारणा को दर्शाता है, इसलिए यह अनुमान योग्य है कि कॉर्पस में पुराने दस्तावेज़ (उदाहरण के लिए, कि मेरे कॉर्प्स में 100 साल के जर्नल लेख शामिल हैं), समय के साथ अलग-अलग परिवर्तनों की आवृत्तियों के रूप में। इस मामले में यह वास्तव में पुराने दस्तावेजों को फेंकने के लिए समझदार हो सकता है जब नए लोग आते हैं, प्रभाव में एक स्लाइडिंग विंडो का उपयोग करते हैं । वैचारिक रूप से, सभी पिछले वैक्टर को भी स्टोर कर सकते हैं क्योंकि नए की गणना की जाती है, और फिर अगर हम 1920-1930 के दस्तावेजों को प्राप्त करना चाहते हैं, तो हम उस तिथि सीमा में दस्तावेजों से गणना की गई उपयोग कर सकते हैं । क्या यह दृष्टिकोण समझ में आता है?
संपादित करें: शब्दकोश बारे में एक अलग लेकिन संबंधित मुद्दा है । जैसे-जैसे समय बीतता जाएगा, वैसे-वैसे नए शब्द सामने आएंगे जो पहले सामने नहीं आए थे, इसलिएबढ़ने की आवश्यकता होगी, और इसलिए वेक्टर की लंबाई । ऐसा लगता है कि यह एक समस्या नहीं होगी, क्योंकि शून्य को पुराने वैक्टर में जोड़ा जा सकता है ।