पाठ दस्तावेज़ों के लिए, फ़ीचर वैक्टर बहुत उच्च आयामी और किसी भी मानक प्रतिनिधित्व (शब्द या TF-IDF आदि) के तहत विरल हो सकता है। इस तरह के प्रतिनिधित्व के तहत सीधे दूरी को मापना विश्वसनीय नहीं हो सकता है क्योंकि यह ज्ञात तथ्य है कि बहुत अधिक आयामों में, किसी भी दो बिंदुओं के बीच की दूरी समान दिखना शुरू हो जाती है। इससे निपटने का एक तरीका यह है कि पीसीए या एलएसए ( लेटेंट सिमेंटिक एनालिसिस ; जिसे लेंटेंट सिमेंटिक इंडेक्सिंग के रूप में भी जाना जाता है ) का उपयोग करके डेटा की गतिशीलता को कम किया जाए और फिर नई जगह की दूरियों को मापा जाए। पीसीए पर एलएसए जैसी किसी चीज़ का उपयोग करना फायदेमंद है क्योंकि यह "आयामी अवधारणाओं" के संदर्भ में एक सार्थक आयाम दे सकता है, इसके अलावा एक कम आयामी स्थान में दूरी को मापता है।
प्रायिकता के वितरण के आधार पर दस्तावेजों की तुलना आमतौर पर प्रत्येक दस्तावेज़ के विषय वितरण ( लेटेंट डिरिचलेट आवंटन की तरह कुछ का उपयोग करके ) की जाती है, और फिर दस्तावेज़ों के जोड़े के विषय वितरण के बीच कुछ प्रकार के विचलन (जैसे, केएल विचलन) की गणना की जाती है। एक तरह से, यह वास्तव में पहले एलएसए करने और फिर वैक्टर (कोसाइन समानता के बजाय) के बीच केएल-विचलन का उपयोग करके एलएसए अंतरिक्ष में दूरी को मापने के समान है।
केएल-डिवर्जेंस वितरण की तुलना करने के लिए एक दूरी उपाय है, इसलिए यह बेहतर हो सकता है यदि दस्तावेज़ प्रतिनिधित्व कुछ वितरण के संदर्भ में है (जो कि वास्तव में मामला है - उदाहरण के लिए, दस्तावेजों को विषयों पर वितरण के रूप में दर्शाया गया है, जैसा कि एलडीए में है)। यह भी ध्यान दें कि इस तरह के प्रतिनिधित्व के तहत, फीचर वेक्टर में प्रविष्टियां एक के बराबर होंगी (क्योंकि आप मूल रूप से दस्तावेज़ को विषयों या अर्थ संबंधी अवधारणाओं के वितरण के रूप में मान रहे हैं)।
साथ ही संबंधित थ्रेड यहां देखें ।