एलएसआई के संदर्भ में विलक्षण मूल्य अपघटन को समझना

मेरा प्रश्न आम तौर पर एकवचन मूल्य अपघटन (एसवीडी) पर है, और विशेष रूप से अव्यक्त अर्थ सूचकांक (एलएसआई) पर।

कहो, मेरे पास है $A_{word \times document}$ जिसमें 7 दस्तावेजों के लिए 5 शब्दों की आवृत्तियों शामिल हैं।

A =  matrix(data=c(2,0,8,6,0,3,1,
                   1,6,0,1,7,0,1,
                   5,0,7,4,0,5,6,
                   7,0,8,5,0,8,5,
                   0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')

मुझे SVD: का उपयोग करके लिए मैट्रिक्स गुणनखंडन प्राप्त होता है । $A$ $A = U \cdot D \cdot V^T$

s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.

में 1 और 2 , यह है कि कहा गया है:

$WordSim = U \cdot S$ शब्द को समानता मैट्रिक्स देता है , जहाँ की पंक्तियाँ विभिन्न शब्दों का प्रतिनिधित्व करती हैं। $WordSim$

WordSim = s$u %*% S

$DocSim= S \cdot V^T$ दस्तावेज़ को समानता मैट्रिक्स देता है जहाँ के कॉलम विभिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं। $DocSim$

DocSim = S %*% t(s$v)

प्रशन:

बीजगणितीय रूप से, और शब्द / दस्तावेज़ समानता क्यों हैं ? क्या कोई सहज स्पष्टीकरण है? $WordSim$ $DocSimS$
दिए गए R उदाहरण के आधार पर, क्या हम और (पंक्तियों / स्तंभों के बीच कोसाइन समानता या सहसंबंध गुणांक का उपयोग किए बिना) किसी भी सहज शब्द गणना / समानता अवलोकन कर सकते हैं? $WordSim$ $DocSim$

यहाँ छवि विवरण दर्ज करें

r svd natural-language latent-semantic-indexing

— Zhubarb
स्रोत

मैं एलएसआई के बारे में बहुत कम जानता हूं, लेकिन एक मैट्रिक्स का एसवीडी रैखिक आयामीता-कमी, मानचित्रण विधियों के मूल में है, जैसे कि प्रमुख घटक, बीप्लॉट, पत्राचार विश्लेषण। एसवीडी का मुख्य "कानून" वह है

A V = U D

$AV=UD$ की पंक्तियों का प्रक्षेपण

A

$A$ प्रमुख अक्षों पर; तथा

A^{'} U = V D^{'}

$A'U=VD'$ के कॉलम का = प्रक्षेपण

A

$A$ प्रमुख कुल्हाड़ियों पर। एक अर्थ में, यह अंक (पंक्तियों या स्तंभों) और प्रमुख अक्षों के बीच "समानता" मूल्य है। क्या यह उन बिंदुओं के बीच समानता के रूप में माना जा सकता है जो स्वयं संदर्भ पर निर्भर हैं, मुझे लगता है।

— ttnphns

आह .. मैं विकिपीडिया में देखता हूं कि एलएसआई सिर्फ पत्राचार विश्लेषण (सीए) है। वह बेहतर है। सीए एक विशेष रूप से तैयार डेटा टेबल का द्विप्लव है। उपर्युक्त अनुमानों या निर्देशांक - आप उन्हें प्रमुख कुल्हाड़ियों के स्थान पर पंक्ति और स्तंभ बिंदुओं को प्लॉट करने के लिए उपयोग करते हैं। पंक्ति-पंक्ति, कॉल-कॉल और पंक्ति-कॉल बिंदुओं के बीच निकटता उनकी समानता से संबंधित है। हालांकि, भूखंड पर लेआउट इस बात पर निर्भर करता है कि आप पंक्ति और कॉल बिंदुओं पर जड़ता (विचरण) कैसे फैलाते हैं।

— ttnphns

@ttnphns। धन्यवाद, क्या आप इस पर एक संदर्भ दे सकते हैं: "

A V = U D

$AV=UD$ = प्रमुख अक्षों पर A की पंक्तियों का प्रक्षेपण; तथा

A' U = V D'

$A ′ U=VD ′$ = प्रमुख कुल्हाड़ियों पर A के स्तंभों का प्रक्षेपण। "मुझे लगता है कि मेरे लिए चीजों को स्पष्ट करेगा। प्रमुख कुल्हाड़ियों से, क्या आपका मतलब शीर्ष एम एकवचन मूल्यों के अनुरूप ईजन वैक्टर है।

D

$D$ ? मुझे यह भी पता चला: "पीसीए के लिए, हमें बाएं एकवचन वैक्टर की गणना करने की आवश्यकता नहीं है", लेकिन पूरी तरह से समझ नहीं सकता कि यह मामला क्यों है।

— ज़ुराब

आपके प्रश्न को संपादित करके इसे सही ढंग से दर्शाया जा सकता है कि दस्तावेज़ क्या कहता है। पी पर। 22 यह परिभाषित करता है

S

$S$ के रूप में वर्ग की जड़ों से युक्त

D

$D$ , "सबसे बड़े लोगों के लिए प्रतिबंधित"। इसलिए न तो

U D

$UD$ न

D V^{'}

$DV^\prime$ शामिल हैं, और न ही उनकी व्याख्या "समानता मैट्रिस" के रूप में है। इसके बजाय प्रासंगिक मेट्रिसेस हैं

U S

$US$ तथा

S V^{'}

$SV^\prime$ । इनका उपयोग सन्निकटन के पुनर्निर्माण के लिए किया जा सकता है

A = U D V^{'} \approx U (S^{2}) V^{'} = (U S) (S V^{'}) .

$A=UDV^\prime\approx U(S^2)V^\prime=(US)(SV^\prime).$

— whuber

मैंने D=svd(A)$dR में गैर-शून्य eigen मानों की वर्गमूलों को लौटाया, इसलिए मैंने उपयोग किया

U D

$UD$ । मुझे आयाम में कमी के पहलू के साथ कोई समस्या नहीं है, और मुझे लगता है कि ए का एक निचला रैंक अनुमान लगाया जा सकता है क्योंकि वे वर्णन करते हैं। मुझे इस लिंक पर उत्तर आंशिक रूप से मेरे प्रश्न का उत्तर मिला ।

— ज़ुर्बर्ब

एसवीडी का उपयोग कर मैट्रिक्स कारककरण इनपुट मैट्रिक्स को तीन भागों में विभाजित करता है:

बाएं एकवचन वैक्टर $U$ । इस मैट्रिक्स का पहला कॉलम निर्दिष्ट करता है कि इनपुट मैट्रिक्स की पंक्तियाँ किस अक्ष पर सबसे भिन्न होती हैं। आपके मामले में, पहला कॉलम आपको बताता है कि कौन से शब्द एक साथ सबसे अलग हैं।
एकवचन मान $D$ । ये स्केलिंग हैं। ये एक दूसरे के सापेक्ष हैं। अगर का पहला मूल्य $D$ दूसरा दोगुना बड़ा है, इसका मतलब है कि पहला विलक्षण वेक्टर (इन) $U$ तथा $V^T$ ) दो बार के रूप में व्याख्या के रूप में सिंगुलर वेक्टर के रूप में दो बार।
सही एकवचन वैक्टर $V^T$ । इस मैट्रिक्स की पहली पंक्ति निर्दिष्ट करती है कि किस धुरी पर इनपुट मैट्रिक्स के कॉलम सबसे भिन्न होते हैं। आपके मामले में, पहली पंक्ति आपको बताती है कि कौन से दस्तावेज़ सबसे अलग-अलग हैं।

जब शब्द या दस्तावेज़ एक साथ बदलते हैं तो यह इंगित करता है कि वे समान हैं। उदाहरण के लिए, यदि डॉक्टर शब्द किसी दस्तावेज़ में अधिक बार होता है, तो नर्स और अस्पताल शब्द भी अधिक होते हैं। यह पहली बार छोड़ी गई एकवचन वेक्टर द्वारा दिखाया गया है, का पहला स्तंभ $WordSim$ .आप इनपुट डेटा को देखकर इस परिणाम को मान्य कर सकते हैं। ध्यान दें कि जब नर्स होती है, तब अस्पताल भी होता है और जब यह नहीं होता है, तो अस्पताल भी नहीं होता है।

— पीटर
स्रोत