कई कारणों से शब्दों के बजाय पत्र एन-ग्राम का उपयोग किया जाता है:
1) किसी दिए गए भाषा के लिए आवश्यक शब्दों की सूची काफी बड़ी है, शायद 100,000 यदि आप तेज, तेज, सबसे तेज, तेज, तेज, उपवास, ... को सभी अलग-अलग शब्दों के रूप में मानते हैं। 80 भाषाओं के लिए, आपको लगभग 80x शब्दों की आवश्यकता होती है, बहुत सी जगह - 50+ मेगाबाइट।
२) २६ अक्षरों वाली वर्णमाला के लिए अक्षर की संख्या २६ ** ३ या लगभग १ number,००० है और क्वाडग्राम (N = ४) के बारे में ४५०,००० उस वर्णमाला का उपयोग कर सभी भाषाओं को कवर करता है। 30-100 वर्णों के बड़े वर्णमाला में एन-ग्राम के लिए समान लेकिन कुछ बड़ी संख्या। हान लिपि में 4000+ अक्षरों वाली सीजेके भाषाओं के लिए, यूनीग्राम (एन = 1) पर्याप्त हैं। कुछ यूनिकोड लिपियों के लिए, प्रति लिपि (ग्रीक, अर्मेनियाई) में एक ही भाषा है, इसलिए किसी अक्षर संयोजन की आवश्यकता नहीं है (तथाकथित नील-ग्राम N = 0)
3) शब्दों के साथ, आपको शब्दकोष में नहीं दिए जाने पर कोई भी जानकारी नहीं है, जबकि पत्र एन-ग्राम के साथ आपके पास अक्सर उस शब्द के भीतर कम से कम कुछ उपयोगी पत्र संयोजन होते हैं।
CLD2 लैटिन, साइरिलिक और अरबी सहित अधिकांश यूनिकोड लिपियों (अक्षर) के लिए क्वाडग्राम का उपयोग करता है, सीजेके लिपियों के लिए यूनीग्राम, अन्य लिपियों के लिए नीलग्राम, और इसमें सीमित संख्या में काफी विशिष्ट और काफी सामान्य पूर्ण शब्द और भेद करने के लिए शब्दों के जोड़े भी शामिल हैं। इंडोनेशियाई और मलय जैसी सांख्यिकीय-समान भाषाओं के कठिन समूहों के भीतर। कई भाषाओं के बीच अंतर करने के लिए अक्षर बिग्रेड और ट्राइगर शायद उपयोगी होते हैं (लगभग आठ, https://docs.google.com/document/d/1NtErs467Ub4yklEfK0C9AYef0GG_1_9NHL5dPuKIH7k/edit देखें)), लेकिन दर्जनों भाषाओं को अलग करने के लिए बेकार हैं। इस प्रकार, CLD2 क्वाडग्राम का उपयोग करता है, प्रत्येक अक्षर संयोजन के साथ उस संयोजन का उपयोग करते हुए शीर्ष तीन सबसे अधिक संभावना वाली भाषाओं का उपयोग करता है। यह लगभग 1.5 एमबी टेबल के साथ 80 भाषाओं को कवर करने और लगभग 5 एमबी टेबल के साथ 160 भाषाओं को और अधिक विवरण में शामिल करने की अनुमति देता है।