मेरा प्रश्न आम तौर पर एकवचन मूल्य अपघटन (एसवीडी) पर है, और विशेष रूप से अव्यक्त अर्थ सूचकांक (एलएसआई) पर।
कहो, मेरे पास है जिसमें 7 दस्तावेजों के लिए 5 शब्दों की आवृत्तियों शामिल हैं।
A = matrix(data=c(2,0,8,6,0,3,1,
1,6,0,1,7,0,1,
5,0,7,4,0,5,6,
7,0,8,5,0,8,5,
0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')
मुझे SVD: का उपयोग करके लिए मैट्रिक्स गुणनखंडन प्राप्त होता है ।
s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.
में 1 और 2 , यह है कि कहा गया है:
शब्द को समानता मैट्रिक्स देता है , जहाँ की पंक्तियाँ विभिन्न शब्दों का प्रतिनिधित्व करती हैं।
WordSim = s$u %*% S
दस्तावेज़ को समानता मैट्रिक्स देता है जहाँ के कॉलम विभिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।
DocSim = S %*% t(s$v)
प्रशन:
- बीजगणितीय रूप से, और शब्द / दस्तावेज़ समानता क्यों हैं ? क्या कोई सहज स्पष्टीकरण है?
- दिए गए R उदाहरण के आधार पर, क्या हम और (पंक्तियों / स्तंभों के बीच कोसाइन समानता या सहसंबंध गुणांक का उपयोग किए बिना) किसी भी सहज शब्द गणना / समानता अवलोकन कर सकते हैं?
D=svd(A)$d
R में गैर-शून्य eigen मानों की वर्गमूलों को लौटाया, इसलिए मैंने उपयोग किया। मुझे आयाम में कमी के पहलू के साथ कोई समस्या नहीं है, और मुझे लगता है कि ए का एक निचला रैंक अनुमान लगाया जा सकता है क्योंकि वे वर्णन करते हैं। मुझे इस लिंक पर उत्तर आंशिक रूप से मेरे प्रश्न का उत्तर मिला ।