आम तौर पर
आपकी pkl
फ़ाइल वास्तव में, एक क्रमबद्ध pickle
फ़ाइल है, जिसका अर्थ है कि इसे पायथन के pickle
मॉड्यूल का उपयोग करके डंप किया गया है ।
आपके द्वारा लिए जा सकने वाले डेटा को अन-अचार करने के लिए:
import pickle
with open('serialized.pkl', 'rb') as f:
data = pickle.load(f)
MNIST डेटा सेट के लिए
gzip
यदि फ़ाइल संपीड़ित है तो नोट की आवश्यकता है:
import gzip
import pickle
with gzip.open('mnist.pkl.gz', 'rb') as f:
train_set, valid_set, test_set = pickle.load(f)
जहां प्रत्येक सेट को और विभाजित किया जा सकता है (यानी प्रशिक्षण सेट के लिए):
train_x, train_y = train_set
वे आपके सेट के इनपुट (अंक) और आउटपुट (लेबल) होंगे।
यदि आप अंक प्रदर्शित करना चाहते हैं:
import matplotlib.cm as cm
import matplotlib.pyplot as plt
plt.imshow(train_x[0].reshape((28, 28)), cmap=cm.Greys_r)
plt.show()
अन्य विकल्प मूल डेटा को देखना होगा:
http://yann.lecun.com/exdb/mnist/
लेकिन यह कठिन होगा, क्योंकि आपको उन फाइलों में बाइनरी डेटा पढ़ने के लिए एक प्रोग्राम बनाने की आवश्यकता होगी। इसलिए मैं आपको पायथन का उपयोग करने और डेटा को लोड करने की सलाह देता हूं pickle
। जैसा कि आपने देखा है, यह बहुत आसान है। ;-)