पाठ डेटा को श्रेणियों में परिवर्तित करें। श्रेणियां कितनी होनी चाहिए, इसके लिए आप विभिन्न विकल्प आज़मा सकते हैं, लेकिन प्रत्येक चर के लिए विशिष्ट श्रेणियों का होना आवश्यक है। एक उदाहरण के रूप में, मैं एक चर मानूँगा जो काम करने के लिए लोगों के बेहतर तरीके के बारे में एक सर्वेक्षण प्रश्नावली के एक पाठ क्षेत्र से आया था।
सबसे पहले, हमें यह सुनिश्चित करने की ज़रूरत है कि समान अर्थ वाले उत्तर उसी तरह लिखे गए हों और उसी श्रेणी के हों (जैसे "बाइक द्वारा", "साइकिल चलाना", "साइकिल से" सभी का एक ही अर्थ होता है)। फिर आप कम विस्तृत श्रेणियों (उदाहरण के लिए "ट्राम", "मेट्रो" और "बस" को "सार्वजनिक परिवहन के साधनों में") या इससे भी अधिक (उदाहरण के लिए "चलना", "टहलना", "साइकिल चलाना" "में विलय करने की कोशिश कर सकते हैं" शारीरिक गतिविधि ") आप क्या पता लगाने की कोशिश कर रहे हैं पर निर्भर करता है।
आप अपने डेटासेट में कुछ अलग संयोजन भी डाल सकते हैं और फिर अगले चरण निर्धारित करेंगे कि विश्लेषण के लिए किनका उपयोग किया जाएगा। ऐसे मामलों में जहां टेक्स्ट डेटा को ऑर्डर किए गए चरों में "अनुवादित" किया जा सकता है, सुनिश्चित करें कि आप ऐसा करते हैं (जैसे अगर आपके पास "छोटा, मध्यम, उच्च" है तो इसे "1,2,3" में बदल दें)।
Principal Component AnalysisयाNon-Negative Matrix Factorizationचर की संख्या को कम करेगा, विरल डेटा को समृद्ध करेगा, और सभी चर को मात्रात्मक में बदल देगा। इसके अलावा, आयाम में कमी मॉडल की गुणवत्ता का मूल्यांकन, प्रश्न लेखक शाब्दिक चर की उपयोगिता का अनुमान लगा सकता है।