टेक्स्ट माइनिंग के लिए फीचर निर्माण का एक पारंपरिक तरीका बैग-ऑफ-वर्ड्स दृष्टिकोण है, और किसी दिए गए टेक्स्ट डॉक्यूमेंट की विशेषता वाले वेक्टर की स्थापना के लिए tf-idf का उपयोग करके इसे बढ़ाया जा सकता है। वर्तमान में, मैं फ़ीचर वेक्टर के निर्माण के लिए द्वि-ग्राम भाषा मॉडल या (एन-ग्राम) का उपयोग करने की कोशिश कर रहा हूं, लेकिन यह नहीं जानता कि यह कैसे करना है? क्या हम बैग-ऑफ-वर्ड्स के दृष्टिकोण का अनुसरण कर सकते हैं, अर्थात, शब्दों के बजाय द्वि-ग्राम के संदर्भ में आवृत्ति की गणना कर सकते हैं, और tf-idf वेटिंग योजना का उपयोग करके इसे बढ़ा सकते हैं?