बायेसियन नेटवर्क्स से न्यूरल नेटवर्क्स तक: मल्टीवेरेट रिग्रेशन को मल्टी-आउटपुट नेटवर्क में कैसे ट्रांसप्लांट किया जा सकता है


20

मैं एक बायेसियन श्रेणीबद्ध रैखिक मॉडल के साथ काम कर रहा हूं , यहां नेटवर्क इसका वर्णन कर रहा है।

समस्या का वर्णन करने वाला चित्रमय मॉडल

Y सुपरमार्केट में किसी उत्पाद की दैनिक बिक्री का प्रतिनिधित्व करता है (देखा गया)।

X कीमतों, प्रचार, सप्ताह के दिन, मौसम, छुट्टियों सहित रजिस्टरों का एक ज्ञात मैट्रिक्स है।

S प्रत्येक उत्पाद का अज्ञात अव्यक्त इन्वेंट्री स्तर है, जो सबसे अधिक समस्याओं का कारण बनता है और जिसे मैं द्विआधारी चर के वेक्टर के रूप में मानता हूं, प्रत्येक उत्पाद के लिए स्टॉकआउट और उत्पाद की अनुपलब्धता का संकेत देता है। यहां तक ​​कि अगर सिद्धांत रूप में अज्ञात मैंने इसे प्रत्येक उत्पाद के लिए एक एचएमएम के माध्यम से अनुमान लगाया है, तो इसे एक्स के रूप में जाना जाता है। मैंने सिर्फ उचित औपचारिकता के लिए इसे अनसुना करने का फैसला किया।1

η किसी भी एकल उत्पाद के लिए एक मिश्रित प्रभाव पैरामीटर है जहां मिश्रित प्रभाव माना जाता है उत्पाद की कीमत, प्रचार और स्टॉकआउट।

बी 1 बी 2β निश्चित प्रतिगमन गुणांक का वेक्टर है, जबकि और मिश्रित प्रभाव गुणांक के वैक्टर हैं। एक समूह ब्रांड को इंगित करता है और दूसरा स्वाद को इंगित करता है (यह एक उदाहरण है, वास्तव में मेरे पास कई समूह हैं, लेकिन मैं यहां स्पष्टता के लिए सिर्फ 2 रिपोर्ट करता हूं)।b1b2

Σ 1 Σ 2Σηमिश्रित प्रभावों पर , और हैं।Σb1Σb2

चूँकि मेरे पास आंकड़ें हैं, मान लीजिए कि मैं प्रत्येक उत्पाद की बिक्री का इलाज करता हूं क्योंकि पोइसन ने रजिस्टरों पर सशर्त वितरित किए (भले ही कुछ उत्पादों के लिए रैखिक सन्निकटन हो और दूसरों के लिए एक शून्य फुलाया मॉडल बेहतर है)। इस तरह के एक मामले में मेरे पास एक उत्पाद लिए होगा ( यह सिर्फ उस व्यक्ति के लिए है जिसे बायेसियन मॉडल में दिलचस्पी है, सवाल को छोड़ दें यदि आपको यह अप्रतिष्ठित या गैर तुच्छ लगता है :) ):Y

ΣηIW(α0,γ0)

Σb1IW(α1,γ1)

Σb2IW(α2,γ2) , ज्ञात।α0,γ0,α1,γ1,α2,γ2

ηN(0,Ση)

b1N(0,Σb1)

b2N(0,Σb2)

Σ बीटाβN(0,Σβ) , जाना जाता है।Σβ

λtijk=βXti+ηiXppsti+b1jZtj+b2kZtk ,

YtijkPoi(exp(λtijk))

जे 1 , ... , मीटर 1 कश्मीर 1 , ... , मी 2i1,,N , ,j1,,m1k1,,m2

एक्स पी पी एस मैं मैं डब्ल्यू जेड मैं जेड मैं = एक्स मैं σ मैं जे मैं jZi2 समूहों के लिए मिश्रित प्रभावों के मैट्रिक्स, उत्पाद की कीमत, प्रचार और दर्शाता है। उलटा विसारस वितरण को इंगित करता है, आमतौर पर सामान्य बहुभिन्नरूपी पादरियों के सहसंयोजक मैट्रिक्स के लिए उपयोग किया जाता है। लेकिन यह यहाँ महत्वपूर्ण नहीं है। एक संभावित का उदाहरण सभी कीमतों का मैट्रिक्स हो सकता है, या हम भी कह सकते हैं । जैसा कि मिश्रित-प्रभाव वाले विचरण-सह-संवेदी मैट्रिक्स के लिए के संबंध में, मैं सिर्फ प्रविष्टियों के बीच सहसंबंध को संरक्षित करने की कोशिश करूंगा, ताकि और एक ही ब्रांड के उत्पाद हों या दोनों में से कोई भी हो तो सकारात्मक होगा । एक ही स्वाद। XppsiIWZiZi=Xiσijij

इस मॉडल के पीछे अंतर्ज्ञान यह होगा कि किसी दिए गए उत्पाद की बिक्री उसकी कीमत, उसकी उपलब्धता या नहीं, बल्कि अन्य सभी उत्पादों की कीमतों और अन्य सभी उत्पादों के स्टॉकआउट पर निर्भर करती है। चूंकि मैं सभी गुणांक के लिए एक ही मॉडल (पढ़ें: एक ही प्रतिगमन वक्र) नहीं चाहता हूं, इसलिए मैंने मिश्रित प्रभाव पेश किए जो पैरामीटर डेटा साझा करने के माध्यम से मेरे डेटा में कुछ समूहों का शोषण करते हैं।

मेरे प्रश्न हैं:

  1. क्या इस मॉडल को एक तंत्रिका नेटवर्क वास्तुकला में स्थानांतरित करने का एक तरीका है? मुझे पता है कि बायेसियन नेटवर्क, मार्कोव रैंडम फ़ील्ड्स, बायेसियन हायरार्चिकल मॉडल और न्यूरल नेटवर्क के बीच संबंधों की तलाश में कई सवाल हैं, लेकिन मुझे बायेसियन पदानुक्रमित मॉडल से न्यूरल नेट्स तक कुछ भी नहीं मिला। मैं तंत्रिका नेटवर्क के बारे में सवाल पूछता हूं, क्योंकि मेरी समस्या की उच्च आयामीता है (विचार करें कि मेरे पास 340 उत्पाद हैं), MCMC के माध्यम से पैरामीटर का अनुमान सप्ताह लगता है (मैंने रनजैग में समानांतर चेन चलाने वाले सिर्फ 20 उत्पादों के लिए प्रयास किया और इसमें समय लगा) । लेकिन मैं रैंडम नहीं जाना चाहता और सिर्फ ब्लैक बॉक्स के रूप में एक न्यूरल नेटवर्क को डेटा देना चाहता हूं। मैं अपने नेटवर्क की निर्भरता / स्वतंत्रता संरचना का फायदा उठाना चाहूंगा।

यहाँ मैंने सिर्फ एक तंत्रिका नेटवर्क का चित्रण किया है। जैसा कि आप देखते हैं, शीर्ष पर ( और क्रमशः उत्पाद की कीमत और दर्शाते हैं ) को छिपी हुई परत पर किया जाता है क्योंकि वे उत्पाद विशिष्ट हैं (यहां मैंने कीमतों और स्टॉकआउट पर विचार किया है)। S i i PiSii(नीले और काले किनारों का कोई विशेष अर्थ नहीं है, यह सिर्फ आंकड़ा अधिक स्पष्ट करने के लिए था)। इसके अलावा और अत्यधिक जबकि सहसंबद्ध किया जा सकता हैY 1 Y 2 Y 3Y1Y2Y3एक पूरी तरह से अलग उत्पाद हो सकता है (2 ऑरेंज जूस और रेड वाइन के बारे में सोचें), लेकिन मैं तंत्रिका नेटवर्क में इस जानकारी का उपयोग नहीं करता हूं। मुझे आश्चर्य है कि अगर समूह की जानकारी का उपयोग केवल वजन के औचित्य में किया जाता है या यदि कोई समस्या के लिए नेटवर्क को अनुकूलित कर सकता है।

एक तंत्रिका जाल का कठपुतली उदाहरण

संपादित करें, मेरा विचार:

संभव आरंभीकरण?

मेरा विचार कुछ इस तरह होगा: पहले की तरह, और सहसंबद्ध उत्पाद हैं, जबकि पूरी तरह से अलग है। यह एक प्राथमिकताओं को जानने के बाद मैं 2 चीजें करता हूं:Y 2 Y 3Y1Y2Y3

  1. मैं किसी भी समूह के लिए छिपी हुई परत में कुछ न्यूरॉन्स का इस मामले में मेरे पास 2 समूह {( ), ( )} हैं।वाई 3Y1,Y2Y3
  2. मैं इनपुट और आवंटित नोड्स (बोल्ड किनारों) के बीच उच्च भार को प्रारंभिक करता हूं और निश्चित रूप से मैं डेटा में शेष 'यादृच्छिकता' को पकड़ने के लिए अन्य छिपे हुए नोड का निर्माण करता हूं।

आपकी मदद के लिए अग्रिम धन्यवाद


@ टोमासो गुरैनी यहाँ आपके लिए उत्तर संभव है: सांख्यिकी.स्टैकएक्सचेंज.com
एंटोन

धन्यवाद @AntonDanilov, दुर्भाग्य से स्वीकृत उत्तर कहता है 'जबकि तंत्रिका नेटवर्क "ग्राफ़" के साथ आते हैं, वे आम तौर पर निर्भरता की जानकारी नहीं देते हैं, और नोड्स यादृच्छिक चर का प्रतिनिधित्व नहीं करते हैं': /
टॉमासो गुरेरिनी

1
क्या आपने स्टेन की कोशिश की है , या यह आपकी समस्या के लिए संभव नहीं है? हैमिल्टनियन मोंटे कार्लो, गिब्स के नमूने की तुलना में तेजी से परिमाण का आदेश दे सकता है, और चर (सैकड़ों या हजारों) तक अच्छी तरह से तराजू।
लकेर्बी

1
क्या आपने स्टेन उपयोगकर्ताओं को मेलिंग सूची में एक ही सवाल ( पोज़ ) प्रस्तुत करने की कोशिश की है ? वे आम तौर पर एक मॉडल काम करने के लिए तकनीकी पहलुओं के साथ बेहद सहायक होते हैं। उदाहरण के लिए, यह संभव है कि आपके मामले में मुद्दों को एक बेहतर पैरामीटर के साथ हल किया जा सके। ( हैमिल्टनियन मोंटे कार्लो को गिब्स के नमूने की तुलना में बहुत तेजी से मिश्रण करना चाहिए ।)
लेरबी

1
संभवत: यह कहना बेहतर होगा कि मैंने उस मेलिंग सूची को स्पैम कर दिया था .. वैसे तो बहुत-बहुत लुइगी को धन्यवाद .. मैं उस स्थिति में हूं, जहां मेरे पास आने वाली समयसीमा के अनुसार समस्याओं को खोदने के लिए अधिक समय नहीं है, क्योंकि मेरे पास आने वाली समय सीमा है। ऐसा लगता है कि एसटीएएन एक महान उपकरण है, लेकिन सीखने की अवस्था वास्तव में अपने अविश्वसनीय प्रदर्शन का एहसास करने के लिए थोड़ी सी खड़ी है (अब तक मुझे इसकी गति जेडटीजीएस को महसूस हुई थी)
टॉमासो गुरेरिनी

जवाबों:


1

रिकॉर्ड के लिए, मैं इसे एक उत्तर के रूप में नहीं देखता, लेकिन सिर्फ एक लंबी टिप्पणी! पीडीई (हीट समीकरण) जो धातु की छड़ के माध्यम से गर्मी के प्रवाह को मॉडल करने के लिए उपयोग किया जाता है, का उपयोग मॉडल विकल्प मूल्य निर्धारण के लिए भी किया जा सकता है। कोई भी जिसे मैं जानता हूं कि उसने विकल्प मूल्य निर्धारण और प्रति प्रवाह गर्मी के बीच संबंध का सुझाव देने की कोशिश की है। मुझे लगता है कि दानिलोव के लिंक से बोली वही बात कह रही है। बायेसियन ग्राफ्स और न्यूरल नेट्स दोनों अपने अलग-अलग आंतरिक टुकड़ों के बीच संबंधों को व्यक्त करने के लिए ग्राफ की भाषा का उपयोग करते हैं। हालांकि, बायेसियन ग्राफ इनपुट चर के सहसंबंध संरचना के बारे में एक बताता है और एक तंत्रिका जाल का ग्राफ इनपुट चर से भविष्यवाणी समारोह का निर्माण करने का तरीका बताता है। ये बहुत अलग चीजें हैं।
डीएल में उपयोग किए जाने वाले विभिन्न तरीके सबसे महत्वपूर्ण चर को 'चुनने' का प्रयास करते हैं, लेकिन यह एक अनुभवजन्य मुद्दा है। यह चर के पूरे सेट या शेष चर के सहसंबंध संरचना के बारे में एक भी नहीं बताता है। यह केवल सुझाव देता है कि जीवित चर प्रेडिकटन के लिए सबसे अच्छा होगा। उदाहरण के लिए यदि कोई तंत्रिका जाल को देखता है, तो एक को जर्मन क्रेडिट डेटा सेट की ओर ले जाया जाएगा, जो कि अगर मुझे सही ढंग से याद है, तो 2000 डेटा बिंदु और 5 आश्रित चर। परीक्षण और त्रुटि के माध्यम से मुझे लगता है कि आप पाएंगे कि केवल 1 छिपी हुई परत के साथ एक जाल और केवल 2 चर का उपयोग करके भविष्यवाणी के लिए सर्वोत्तम परिणाम मिलते हैं। हालांकि, यह केवल सभी मॉडलों के निर्माण और स्वतंत्र परीक्षण सेट पर उनका परीक्षण करके खोजा जा सकता है।


मुझे अलग-अलग डेटा पर एक ही मॉडल के आवेदन के साथ आपकी तुलना नहीं मिलती है: यहां डेटा समान है और मॉडल अलग-अलग हैं अन्य तरीके से नहीं। इसके अलावा मैं एक तंत्रिका जाल का उपयोग करके अपने चर के सहसंबंध संरचना पर अनुमान बनाने की कोशिश नहीं कर रहा हूं, जो कि पहले से ही बेइज़ियन पोस्टेरीर्स इनवेंशन के माध्यम से अच्छी तरह से हासिल किया गया है। ग्राफ बस चित्र क्या, पदानुक्रमित मॉडल में होता है तो मैं बात 'रेखांकन की भाषा' समझ में नहीं आता के लिए गया था (अभी तक मैं शीर्षक के साथ आप को गुमराह किया है हो सकता है, लेकिन मैं एक आकर्षक एक की जरूरत: डी)
टोमास्सो Guerrini

और शायद मैं आपके सवाल को नहीं समझता। मुझे अभी भी लगता है कि बिंदु यह है कि जिस तरह से दो ग्राफ संरचनाओं में किनारों का निर्माण होता है, उसका एक दूसरे से कोई लेना-देना नहीं है। एक दिए गए किनारों और भार के साथ एक तंत्रिका जाल को केवल परिभाषित किया जा सकता है, लेकिन किसी के पास यह सोचने का कोई कारण नहीं है कि ऐसा जाल या तो सटीक या उपयोगी होगा। एक तंत्रिका जाल बनाने का दिल डेटा को 'सही' वज़न निर्धारित करने के लिए बैक-प्रसार के लिए कुछ का उपयोग करने के लिए है।
meh

"ग्राफ सिर्फ चित्र बनाना था जो पदानुक्रमित मॉडल में होता है"। हम सहमत हैं कि एक मामले में हम सहसंयोजक संरचना को परिभाषित करते हैं और मॉडल बहुत अच्छी तरह से व्याख्या करने योग्य है, जबकि दूसरे में हम ढाल को काम करने देते हैं और यहां तक ​​कि अगर यह व्याख्या नहीं करता है तो आमतौर पर (जैसा कि मेरे मामले में) अच्छा प्रदर्शन होता है। मेरा प्रश्न है: क्या प्रदर्शन की भविष्यवाणी को न गंवाते हुए व्याख्या करने का एक तरीका है? इसलिए मैंने स्टैक पर यह पूछा और इसलिए मैंने उस विचार को संपादन में प्रस्तावित किया, मैं विचारों की तलाश कर रहा हूं। मुझे उम्मीद है कि अब यह आपके लिए स्पष्ट है।
टॉमासो गुरैनी

एक नकारात्मक साबित नहीं हो सकता है, इसलिए मैं निर्णायक रूप से यह नहीं कह सकता कि बायेसियन नेटवर्क के ग्राफ और तंत्रिका जाल के बीच कोई संबंध नहीं है। मैं कह सकता हूं कि मुझे इस तरह के संबंध का कोई ज्ञान नहीं है और मुझे किसी भी संबंध में गहरा संदेह है। जबकि एक तंत्रिका नेटवर्क के लिए ग्राफ संरचना देने के लिए बायेसियन नेटवर्क के ग्राफ संरचना का उपयोग कर सकता है, एक तंत्रिका नेटवर्क बिंदु से यह उचित नहीं लगता है। मेरे पास वर्तमान में विवरणों को काम करने का समय नहीं है, लेकिन एक सोचा प्रयोग के रूप में एक डेटा सेट की कल्पना करें जहां स्वतंत्र चर सभी सांख्यिकीय थे
meh

मेरे पास वर्तमान में विवरणों को काम करने का समय नहीं है, लेकिन एक विचार प्रयोग के रूप में एक डेटा सेट की कल्पना करें जहां स्वतंत्र चर सभी सांख्यिकीय रूप से महत्वपूर्ण थे, लेकिन सभी सहसंबद्ध नहीं थे। उदाहरण के लिए जहां एक बहुत बड़े निरपेक्ष मूल्य में और (गैर-रेखीय) नेटवर्क का सक्रियण फ़ंक्शन। Y और z के गैर-रैखिक संबंध के कारण, ऐसा हो सकता है कि y और बीच संबंध लगभग शून्य हो। फिर भी उन्हें किसी अच्छे मॉडल का हिस्सा होना चाहिए। जेड मैं = एक × σ - 1 ( एक्स मैं ) σ z मैंy=xi+zizi=A×σ1(xi)σzi
हुंह
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.