पाठ डेटा को श्रेणियों में परिवर्तित करें। श्रेणियां कितनी होनी चाहिए, इसके लिए आप विभिन्न विकल्प आज़मा सकते हैं, लेकिन प्रत्येक चर के लिए विशिष्ट श्रेणियों का होना आवश्यक है। एक उदाहरण के रूप में, मैं एक चर मानूँगा जो काम करने के लिए लोगों के बेहतर तरीके के बारे में एक सर्वेक्षण प्रश्नावली के एक पाठ क्षेत्र से आया था।
सबसे पहले, हमें यह सुनिश्चित करने की ज़रूरत है कि समान अर्थ वाले उत्तर उसी तरह लिखे गए हों और उसी श्रेणी के हों (जैसे "बाइक द्वारा", "साइकिल चलाना", "साइकिल से" सभी का एक ही अर्थ होता है)। फिर आप कम विस्तृत श्रेणियों (उदाहरण के लिए "ट्राम", "मेट्रो" और "बस" को "सार्वजनिक परिवहन के साधनों में") या इससे भी अधिक (उदाहरण के लिए "चलना", "टहलना", "साइकिल चलाना" "में विलय करने की कोशिश कर सकते हैं" शारीरिक गतिविधि ") आप क्या पता लगाने की कोशिश कर रहे हैं पर निर्भर करता है।
आप अपने डेटासेट में कुछ अलग संयोजन भी डाल सकते हैं और फिर अगले चरण निर्धारित करेंगे कि विश्लेषण के लिए किनका उपयोग किया जाएगा। ऐसे मामलों में जहां टेक्स्ट डेटा को ऑर्डर किए गए चरों में "अनुवादित" किया जा सकता है, सुनिश्चित करें कि आप ऐसा करते हैं (जैसे अगर आपके पास "छोटा, मध्यम, उच्च" है तो इसे "1,2,3" में बदल दें)।
Principal Component Analysis
याNon-Negative Matrix Factorization
चर की संख्या को कम करेगा, विरल डेटा को समृद्ध करेगा, और सभी चर को मात्रात्मक में बदल देगा। इसके अलावा, आयाम में कमी मॉडल की गुणवत्ता का मूल्यांकन, प्रश्न लेखक शाब्दिक चर की उपयोगिता का अनुमान लगा सकता है।