मैं एएसएल (अमेरिकी सांकेतिक भाषा) इशारों को वर्गीकृत करने के लिए एक इशारा पहचान प्रणाली बनाने की कोशिश कर रहा हूं , इसलिए मेरे इनपुट को कैमरे या वीडियो फ़ाइल से फ़्रेम का अनुक्रम माना जाता है, फिर यह अनुक्रम का पता लगाता है और इसके अनुरूप मैप करता है कक्षा (नींद, मदद, खाना, दौड़ना, आदि)
बात यह है कि मैंने पहले से ही एक समान प्रणाली का निर्माण किया है, लेकिन स्थिर छवियों के लिए (कोई प्रस्ताव शामिल नहीं है), यह केवल अल्फाबेट्स के अनुवाद के लिए उपयोगी था जिसमें सीएनएन का निर्माण एक सीधा आगे का काम था, क्योंकि हाथ इतना आगे नहीं बढ़ता है और डेटा सेट संरचना भी प्रबंधनीय थी क्योंकि मैं केर का उपयोग कर रहा था और शायद अभी भी ऐसा करने का इरादा है (हर फ़ोल्डर में एक विशेष चिह्न के लिए छवियों का एक सेट होता है और फ़ोल्डर का नाम इस साइन के वर्ग का नाम है: ए, बी, सी , ..)
मेरा प्रश्न यहां, मैं अपने डेटा सेट को कैसेआरएन में आरएनएन में इनपुट करने में सक्षम होने के लिए व्यवस्थित कर सकता हूं और मुझे अपने मॉडल और किसी भी आवश्यक पैरामीटर को प्रभावी ढंग से प्रशिक्षित करने के लिए क्या कुछ कार्यों का उपयोग करना चाहिए, कुछ लोगों ने टाइमडिस्ट्रिब्यूटेड क्लास का उपयोग करने का सुझाव दिया लेकिन मैं नहीं मेरे पक्ष के लिए इसका उपयोग करने के तरीके पर एक स्पष्ट विचार रखें, और नेटवर्क में प्रत्येक परत के इनपुट आकार को ध्यान में रखें।
यह भी विचार कर रहा है कि मेरे डेटा सेट छवियों को मिलाकर होगा, मैं शायद एक convolutional परत की आवश्यकता होगी, यह कैसे गठबंधन करने के लिए संभव हो सकता है रूपा में परत LSTM एक (मैं मतलब कोड के संदर्भ में)।
उदाहरण के लिए मैं कल्पना करता हूं कि मेरा डेटा सेट कुछ इस तरह का हो
'रन' नाम के फ़ोल्डर में 3 फ़ोल्डर 1, 2 और 3 होते हैं, प्रत्येक फ़ोल्डर अनुक्रम के फ्रेम से मेल खाता है
तो Run_1 पहली फ्रेम के लिए छवियों में से कुछ सेट में शामिल होंगे, Run_2 दूसरे फ्रेम और के लिए Run_3 तीसरे के लिए, अपने मॉडल का उद्देश्य उत्पादन शब्द को यह अनुक्रम के साथ प्रशिक्षित किया जा रहा है भागो ।