गैर-नकारात्मक मैट्रिक्स कारक में अव्यक्त कारकों की एक इष्टतम संख्या कैसे चुनें?


16

एक मैट्रिक्स को देखते हुए Vm×n, गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन (NMF) दो गैर-नकारात्मक मैट्रिक्स Wm×k और Hk×n (सभी तत्वों 0 ) को अपघटित मैट्रिक्स के रूप में दर्शाता है:

VWH,

कि गैर नकारात्मक की आवश्यकता द्वारा उदाहरण के लिए W और H पुनर्निर्माण त्रुटि को कम

VWH2.

क्या NMF में संख्या का अनुमान लगाने के लिए सामान्य प्रथाएं हैं k? उदाहरण के लिए, उस उद्देश्य के लिए क्रॉस सत्यापन का उपयोग कैसे किया जा सकता है?


मेरे पास कोई उद्धरण नहीं है (और वास्तव में मैंने Google विद्वान पर त्वरित खोज की और कोई भी खोजने में विफल रहा), लेकिन मेरा मानना ​​है कि क्रॉस-सत्यापन संभव होना चाहिए।
अमीबा का कहना है कि मोनिका

2
क्या आप मुझे NMF के लिए क्रॉस सत्यापन करने के तरीके के बारे में अधिक जानकारी बता सकते हैं? K की संख्या बढ़ने के साथ Frobenius Norm के K मान हमेशा घटते जाएंगे।
स्टीव सैलर

आप NMF के लिए क्या कर रहे हैं? क्या यह कम आयाम वाले स्थान (अनुपलब्ध) में का प्रतिनिधित्व करता है या यह सिफारिशें प्रदान करने के लिए है (पर्यवेक्षित)। आपका V कितना बड़ा है ? क्या आपको विचरण के एक निश्चित प्रतिशत की व्याख्या करने की आवश्यकता है? अपने उद्देश्य मीट्रिक को परिभाषित करने के बाद आप सीवी लागू कर सकते हैं। मैं आपको आवेदन के बारे में सोचने और एक मीट्रिक खोजने के लिए प्रोत्साहित करूंगा जो समझ में आता है। VV
अज्ञानी

जवाबों:


10

गैर-नकारात्मक मैट्रिक्स कारक में अव्यक्त कारकों की एक इष्टतम संख्या चुनने के लिए, क्रॉस-सत्यापन का उपयोग करें।

आप ने लिखा है, NMF का उद्देश्य कम आयामी मिल रहा है W और H सभी गैर नकारात्मक तत्वों पुनर्निर्माण त्रुटि को कम करने के साथ VWH2 । कल्पना करें कि हम V एक तत्व , जैसे Vab छोड़ते हैं , और एक लापता सेल के साथ परिणामी मैट्रिक्स का NMF करते हैं। खोजने यह साधन W और H सभी गैर लापता कोशिकाओं से अधिक पुनर्निर्माण त्रुटि को न्यूनतम:

ijab(Vij[WH]ij)2.

एक बार ऐसा हो जाता है, हम बाहर छोड़ दिया तत्व भविष्यवाणी कर सकते हैं Vab कंप्यूटिंग द्वारा [WH]ab और गणना भविष्यवाणी त्रुटि

eab=(Vab[WH]ab)2.
एक इस प्रक्रिया के बाहर छोड़ने के सभी तत्वों को दोहरा सकते हैं Vab एक समय में एक, और सब कुछ खत्म हो भविष्यवाणी त्रुटियों योग a और b । यह एक समग्र प्रेस मूल्य (वर्गों के अवशिष्ट अवशिष्ट राशि) में परिणाम होगाE(k)=abeab है कि इस पर निर्भर करेगाk । उम्मीद है कि फंक्शनE(k) में एक न्यूनतम होगा जिसे 'इष्टतम'k रूप में उपयोग किया जा सकता है।

ध्यान दें कि यह कम्प्यूटेशनल रूप से महंगा हो सकता है, क्योंकि NMF को प्रत्येक लेफ्ट आउट वैल्यू के लिए दोहराया जाना है, और प्रोग्राम के लिए ट्रिकी भी हो सकता है (यह निर्भर करता है कि गुम वैल्यू के साथ NMF को करना कितना आसान है)। पीसीए में V की पूरी पंक्तियों को छोड़ कर इसे प्राप्त किया जा सकता है (जो गणनाओं को बहुत तेज करता है), पीसीए के लिए मुख्य घटकों की संख्या निर्धारित करने के लिए क्रॉस-सत्यापन कैसे करें? , लेकिन यह यहां संभव नहीं है।

बेशक, क्रॉस-वैलिडेशन के सभी सामान्य सिद्धांत यहां लागू होते हैं, इसलिए एक समय में (केवल एक एकल के बजाय) कई कोशिकाओं को छोड़ सकते हैं, और / या सभी कोशिकाओं पर लूपिंग के बजाय केवल कुछ यादृच्छिक कोशिकाओं के लिए प्रक्रिया को दोहरा सकते हैं। दोनों दृष्टिकोण प्रक्रिया को तेज करने में मदद कर सकते हैं।

संपादित करें (मार्च 2019): @AlexWilliams : http://alexhwilliams.info/itsneuronalblog/2018/02/26/crossval द्वारा यह बहुत अच्छा सचित्र लेखन देखें । एलेक्स लापता मूल्यों के साथ NMF के लिए https://github.com/kimjingu/nonnegfac-python का उपयोग करता है ।


4

मेरे ज्ञान के लिए, दो अच्छे मानदंड हैं: 1) सहसंबंधी सहसंबंध गुणांक और 2) रैंकों के एक सेट के लिए यादृच्छिक डेटा के खिलाफ वर्गों की अवशिष्ट राशि की तुलना (शायद उस के लिए एक नाम है, लेकिन मुझे याद नहीं है)

  1. कोपेनहेनेटिक सहसंबंध गुणांक: आप NMF को प्रति रैंक कई बार दोहराते हैं और आप गणना करते हैं कि परिणाम समान कैसे हैं। दूसरे शब्दों में, पहचाने गए क्लस्टर कितने स्थिर हैं, यह देखते हुए कि प्रारंभिक बीज यादृच्छिक है। कोपेनेटिक गुणांक की बूंदों से पहले उच्चतम कश्मीर चुनें।

  2. यादृच्छिक डेटा के विरुद्ध RSS किसी भी आयाम में कमी के दृष्टिकोण के लिए, आपके मूल डेटा (RSS द्वारा अनुमानित) की तुलना में हमेशा जानकारी का नुकसान होता है। अब K को बढ़ाने के लिए NMF का प्रदर्शन करें और अपने मूल डेटासेट और रैंडमाइज्ड डेटासेट के साथ RSS की गणना करें। K के फंक्शन में RSS की तुलना करते समय, मूल डेटासेट में K को बढ़ाने के साथ RSS कम हो जाता है, लेकिन रैंडम डेटासेट के लिए यह कम होता है। दोनों ढलानों की तुलना करके, एक के होना चाहिए जहां वे पार करते हैं। दूसरे शब्दों में, शोर के भीतर होने से पहले आप कितनी जानकारी खो सकते हैं (= उच्चतम K)।

आशा है कि मैं स्पष्ट था।

संपादित करें: मुझे वे लेख मिल गए हैं।

1.Jean-पी। ब्रुनेट, पाब्लो तामायो, टॉड आर। गोलूब और जिल पी। मेसिरोव। मैट्रिक्स फैक्टराइजेशन का उपयोग करके मेटागेनेस और आणविक पैटर्न की खोज। यूएसए की नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही में, 101 (12): 4164-4169, 2004।

2. एटिलिला फ्रेगीसी और मटियास होग्लुंड। जटिल जीन अभिव्यक्ति डेटा के विश्लेषण के लिए गैर-नकारात्मक मैट्रिक्स कारक: नैदानिक ​​रूप से प्रासंगिक ट्यूमर उपप्रकारों की पहचान। कैंसर सूचना विज्ञान, 6: 275-292, 2008।


यह स्पष्ट नहीं है कि K के छोटे होने पर RSS का यादृच्छिक डेटा मूल डेटा की तुलना में RSS से कम क्यों होना चाहिए? बाकी के लिए मैं समझता हूं कि मूल डेटा की तुलना में यादृच्छिक के आरएसएस को धीरे-धीरे कम होना चाहिए।
मलिक कोन

1

krVk<min(m,n)VWwi , i=1,2,,kWHkWH is a low rank approximation of V; also k at most. Hence the choice of k<min(m,n) should constitute a dimensionality reduction where V can be generated/spanned from the aforementioned basis vectors.

Further details can be found in chapter 6 of this book by S. Theodoridis and K. Koutroumbas.

After minimization of your chosen cost function with respect to W and H, the optimal choice of k, (chosen empirically by working with different feature sub-spaces) should give V, an approximation of V, with features representative of your initial data matrix V.

Working with different feature sub-spaces in the sense that, k the number of columns in W, is the number of basis vectors in the NMF sub-space. And empirically working with different values of k is tantamount to working with different dimensionality-reduced feature spaces.


4
But the question was about how to choose the optimal k! Can you provide any insights about that?
amoeba says Reinstate Monica

@amoeba Unless I misread the initial question, it is "Are there common practices to estimate the number k in NMF?". The optimal k is chosen empirically. I have expanded my answer.
Gilles

2
Your explanation of the NMF factorization makes total sense, but the initial question was specifically about the common practices to estimate k. Now you wrote that one can chose k "empirically" (okay) "by working with different feature sub-spaces". I am not sure I understand what "working with different feature sub-spaces" means, could you expand on that? How should one work with them?? What is the recipe to chose k? This is what the question is about (at least as I understood it). Will be happy to revert my downvote!
amoeba says Reinstate Monica

2
I appreciate your edits, and am very sorry for being so dumb. But let's say I have my data, and I [empirically] try various values of k between 1 and 50. How am I supposed to choose the one which worked the best??? This is how I understand the original question, and I cannot find anything in your reply about that. Please let me know if I missed it, or if you think that the original question was different.
amoeba says Reinstate Monica

1
@amoeba That will depend on your application, data, and what you want to accomplish. Is it just the dimensionality reduction, or source separation, etc ? In audio applications for instance, say source separation, the optimal k would be the one that gives you the best quality when listening to the separated audio sources. The motivation for the choice here will of course be different if you were working with images for instance.
Gilles
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.