एलएसआई के संदर्भ में विलक्षण मूल्य अपघटन को समझना


9

मेरा प्रश्न आम तौर पर एकवचन मूल्य अपघटन (एसवीडी) पर है, और विशेष रूप से अव्यक्त अर्थ सूचकांक (एलएसआई) पर।

कहो, मेरे पास है Aword×document जिसमें 7 दस्तावेजों के लिए 5 शब्दों की आवृत्तियों शामिल हैं।

A =  matrix(data=c(2,0,8,6,0,3,1,
                   1,6,0,1,7,0,1,
                   5,0,7,4,0,5,6,
                   7,0,8,5,0,8,5,
                   0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')

मुझे SVD: का उपयोग करके लिए मैट्रिक्स गुणनखंडन प्राप्त होता है ।AA=UDVT

s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.

में 1 और 2 , यह है कि कहा गया है:

WordSim=US शब्द को समानता मैट्रिक्स देता है , जहाँ की पंक्तियाँ विभिन्न शब्दों का प्रतिनिधित्व करती हैं। WordSim

WordSim = s$u %*% S

DocSim=SVT दस्तावेज़ को समानता मैट्रिक्स देता है जहाँ के कॉलम विभिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।DocSim

DocSim = S %*% t(s$v)

प्रशन:

  1. बीजगणितीय रूप से, और शब्द / दस्तावेज़ समानता क्यों हैं ? क्या कोई सहज स्पष्टीकरण है?WordSimDocSimS
  2. दिए गए R उदाहरण के आधार पर, क्या हम और (पंक्तियों / स्तंभों के बीच कोसाइन समानता या सहसंबंध गुणांक का उपयोग किए बिना) किसी भी सहज शब्द गणना / समानता अवलोकन कर सकते हैं?WordSimDocSim

यहाँ छवि विवरण दर्ज करें


मैं एलएसआई के बारे में बहुत कम जानता हूं, लेकिन एक मैट्रिक्स का एसवीडी रैखिक आयामीता-कमी, मानचित्रण विधियों के मूल में है, जैसे कि प्रमुख घटक, बीप्लॉट, पत्राचार विश्लेषण। एसवीडी का मुख्य "कानून" वह हैAV=UD की पंक्तियों का प्रक्षेपण Aप्रमुख अक्षों पर; तथाAU=VD के कॉलम का = प्रक्षेपण Aप्रमुख कुल्हाड़ियों पर। एक अर्थ में, यह अंक (पंक्तियों या स्तंभों) और प्रमुख अक्षों के बीच "समानता" मूल्य है। क्या यह उन बिंदुओं के बीच समानता के रूप में माना जा सकता है जो स्वयं संदर्भ पर निर्भर हैं, मुझे लगता है।
ttnphns

आह .. मैं विकिपीडिया में देखता हूं कि एलएसआई सिर्फ पत्राचार विश्लेषण (सीए) है। वह बेहतर है। सीए एक विशेष रूप से तैयार डेटा टेबल का द्विप्लव है। उपर्युक्त अनुमानों या निर्देशांक - आप उन्हें प्रमुख कुल्हाड़ियों के स्थान पर पंक्ति और स्तंभ बिंदुओं को प्लॉट करने के लिए उपयोग करते हैं। पंक्ति-पंक्ति, कॉल-कॉल और पंक्ति-कॉल बिंदुओं के बीच निकटता उनकी समानता से संबंधित है। हालांकि, भूखंड पर लेआउट इस बात पर निर्भर करता है कि आप पंक्ति और कॉल बिंदुओं पर जड़ता (विचरण) कैसे फैलाते हैं।
ttnphns

@ttnphns। धन्यवाद, क्या आप इस पर एक संदर्भ दे सकते हैं: "AV=UD= प्रमुख अक्षों पर A की पंक्तियों का प्रक्षेपण; तथाAU=VD = प्रमुख कुल्हाड़ियों पर A के स्तंभों का प्रक्षेपण। "मुझे लगता है कि मेरे लिए चीजों को स्पष्ट करेगा। प्रमुख कुल्हाड़ियों से, क्या आपका मतलब शीर्ष एम एकवचन मूल्यों के अनुरूप ईजन वैक्टर है। D? मुझे यह भी पता चला: "पीसीए के लिए, हमें बाएं एकवचन वैक्टर की गणना करने की आवश्यकता नहीं है", लेकिन पूरी तरह से समझ नहीं सकता कि यह मामला क्यों है।
ज़ुराब

2
आपके प्रश्न को संपादित करके इसे सही ढंग से दर्शाया जा सकता है कि दस्तावेज़ क्या कहता है। पी पर। 22 यह परिभाषित करता हैSके रूप में वर्ग की जड़ों से युक्तD, "सबसे बड़े लोगों के लिए प्रतिबंधित"। इसलिए न तोUDDVशामिल हैं, और न ही उनकी व्याख्या "समानता मैट्रिस" के रूप में है। इसके बजाय प्रासंगिक मेट्रिसेस हैंUS तथा SV। इनका उपयोग सन्निकटन के पुनर्निर्माण के लिए किया जा सकता हैA=UDVU(S2)V=(US)(SV).
whuber

1
मैंने D=svd(A)$dR में गैर-शून्य eigen मानों की वर्गमूलों को लौटाया, इसलिए मैंने उपयोग कियाUD। मुझे आयाम में कमी के पहलू के साथ कोई समस्या नहीं है, और मुझे लगता है कि ए का एक निचला रैंक अनुमान लगाया जा सकता है क्योंकि वे वर्णन करते हैं। मुझे इस लिंक पर उत्तर आंशिक रूप से मेरे प्रश्न का उत्तर मिला ।
ज़ुर्बर्ब

जवाबों:


2

एसवीडी का उपयोग कर मैट्रिक्स कारककरण इनपुट मैट्रिक्स को तीन भागों में विभाजित करता है:

  • बाएं एकवचन वैक्टर U। इस मैट्रिक्स का पहला कॉलम निर्दिष्ट करता है कि इनपुट मैट्रिक्स की पंक्तियाँ किस अक्ष पर सबसे भिन्न होती हैं। आपके मामले में, पहला कॉलम आपको बताता है कि कौन से शब्द एक साथ सबसे अलग हैं।
  • एकवचन मान D। ये स्केलिंग हैं। ये एक दूसरे के सापेक्ष हैं। अगर का पहला मूल्यD दूसरा दोगुना बड़ा है, इसका मतलब है कि पहला विलक्षण वेक्टर (इन) U तथा VT) दो बार के रूप में व्याख्या के रूप में सिंगुलर वेक्टर के रूप में दो बार।
  • सही एकवचन वैक्टर VT। इस मैट्रिक्स की पहली पंक्ति निर्दिष्ट करती है कि किस धुरी पर इनपुट मैट्रिक्स के कॉलम सबसे भिन्न होते हैं। आपके मामले में, पहली पंक्ति आपको बताती है कि कौन से दस्तावेज़ सबसे अलग-अलग हैं।

जब शब्द या दस्तावेज़ एक साथ बदलते हैं तो यह इंगित करता है कि वे समान हैं। उदाहरण के लिए, यदि डॉक्टर शब्द किसी दस्तावेज़ में अधिक बार होता है, तो नर्स और अस्पताल शब्द भी अधिक होते हैं। यह पहली बार छोड़ी गई एकवचन वेक्टर द्वारा दिखाया गया है, का पहला स्तंभWordSim.आप इनपुट डेटा को देखकर इस परिणाम को मान्य कर सकते हैं। ध्यान दें कि जब नर्स होती है, तब अस्पताल भी होता है और जब यह नहीं होता है, तो अस्पताल भी नहीं होता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.