दो इंजनों के बीच यांत्रिक अंतरों को कवर करते हुए यहां प्रतिक्रियाओं के व्यापक चयन को जोड़ने के लिए, मैं एक अनुभवजन्य गति तुलना अध्ययन प्रस्तुत करता हूं।
शुद्ध गति के संदर्भ में, यह हमेशा ऐसा नहीं होता है कि MyISAM InnoDB से अधिक तेज़ है, लेकिन मेरे अनुभव में यह लगभग 2.0-2.5 गुना के कारक द्वारा PURE READ काम करने के वातावरण के लिए तेज़ हो जाता है। स्पष्ट रूप से यह सभी वातावरणों के लिए उपयुक्त नहीं है - जैसा कि अन्य ने लिखा है, MyISAM में लेनदेन और विदेशी कुंजी जैसी चीजों का अभाव है।
मैंने नीचे थोड़ा सा बेंचमार्किंग किया है - मैंने लूपिंग के लिए अजगर और टाइमिंग की तुलना के लिए टाइमिट लाइब्रेरी का उपयोग किया है। रुचि के लिए मैंने मेमोरी इंजन को भी शामिल किया है, यह बोर्ड भर में सबसे अच्छा प्रदर्शन देता है, हालांकि यह केवल छोटी तालिकाओं के लिए उपयुक्त है ( The table 'tbl' is full
जब आप MySQL मेमोरी सीमा से अधिक हो जाते हैं तो लगातार मुठभेड़ )। मेरे द्वारा देखे जाने वाले चार प्रकार हैं:
- वेनिला का चयन करता है
- मायने रखता है
- सशर्त चयन
- अनुक्रमित और गैर-अनुक्रमित उप-चयन
सबसे पहले, मैंने निम्न एसक्यूएल का उपयोग करके तीन तालिकाओं का निर्माण किया
CREATE TABLE
data_interrogation.test_table_myisam
(
index_col BIGINT NOT NULL AUTO_INCREMENT,
value1 DOUBLE,
value2 DOUBLE,
value3 DOUBLE,
value4 DOUBLE,
PRIMARY KEY (index_col)
)
ENGINE=MyISAM DEFAULT CHARSET=utf8
'MyISAM' के साथ दूसरे और तीसरे टेबल में 'InnoDB' और 'मेमोरी' के लिए प्रतिस्थापित।
1) वेनिला का चयन करता है
प्रश्न: SELECT * FROM tbl WHERE index_col = xx
परिणाम: ड्रा
इनमें से सभी की गति समान रूप से समान है, और अपेक्षा के अनुसार चयनित होने वाले कॉलम की संख्या में रैखिक है। InnoDB MyISAM की तुलना में थोड़ा तेज़ लगता है लेकिन यह वास्तव में मामूली है।
कोड:
import timeit
import MySQLdb
import MySQLdb.cursors
import random
from random import randint
db = MySQLdb.connect(host="...", user="...", passwd="...", db="...", cursorclass=MySQLdb.cursors.DictCursor)
cur = db.cursor()
lengthOfTable = 100000
# Fill up the tables with random data
for x in xrange(lengthOfTable):
rand1 = random.random()
rand2 = random.random()
rand3 = random.random()
rand4 = random.random()
insertString = "INSERT INTO test_table_innodb (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
insertString2 = "INSERT INTO test_table_myisam (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
insertString3 = "INSERT INTO test_table_memory (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
cur.execute(insertString)
cur.execute(insertString2)
cur.execute(insertString3)
db.commit()
# Define a function to pull a certain number of records from these tables
def selectRandomRecords(testTable,numberOfRecords):
for x in xrange(numberOfRecords):
rand1 = randint(0,lengthOfTable)
selectString = "SELECT * FROM " + testTable + " WHERE index_col = " + str(rand1)
cur.execute(selectString)
setupString = "from __main__ import selectRandomRecords"
# Test time taken using timeit
myisam_times = []
innodb_times = []
memory_times = []
for theLength in [3,10,30,100,300,1000,3000,10000]:
innodb_times.append( timeit.timeit('selectRandomRecords("test_table_innodb",' + str(theLength) + ')', number=100, setup=setupString) )
myisam_times.append( timeit.timeit('selectRandomRecords("test_table_myisam",' + str(theLength) + ')', number=100, setup=setupString) )
memory_times.append( timeit.timeit('selectRandomRecords("test_table_memory",' + str(theLength) + ')', number=100, setup=setupString) )
2) मायने रखता है
प्रश्न: SELECT count(*) FROM tbl
परिणाम: MyISAM जीतता है
यह एक MyISAM और InnoDB के बीच एक बड़ा अंतर प्रदर्शित करता है - MyISAM (और मेमोरी) तालिका में रिकॉर्ड की संख्या पर नज़र रखता है, इसलिए यह लेनदेन तेज़ है और O (1) है। इनोबीडीबी को गिनने के लिए आवश्यक समय की मात्रा उस श्रेणी में तालिका आकार के साथ सुपर-रैखिक रूप से बढ़ जाती है जिसकी मैंने जांच की थी। मुझे संदेह है कि व्यवहार में देखे गए MyISAM प्रश्नों में से कई स्पीड-अप समान प्रभावों के कारण हैं।
कोड:
myisam_times = []
innodb_times = []
memory_times = []
# Define a function to count the records
def countRecords(testTable):
selectString = "SELECT count(*) FROM " + testTable
cur.execute(selectString)
setupString = "from __main__ import countRecords"
# Truncate the tables and re-fill with a set amount of data
for theLength in [3,10,30,100,300,1000,3000,10000,30000,100000]:
truncateString = "TRUNCATE test_table_innodb"
truncateString2 = "TRUNCATE test_table_myisam"
truncateString3 = "TRUNCATE test_table_memory"
cur.execute(truncateString)
cur.execute(truncateString2)
cur.execute(truncateString3)
for x in xrange(theLength):
rand1 = random.random()
rand2 = random.random()
rand3 = random.random()
rand4 = random.random()
insertString = "INSERT INTO test_table_innodb (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
insertString2 = "INSERT INTO test_table_myisam (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
insertString3 = "INSERT INTO test_table_memory (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
cur.execute(insertString)
cur.execute(insertString2)
cur.execute(insertString3)
db.commit()
# Count and time the query
innodb_times.append( timeit.timeit('countRecords("test_table_innodb")', number=100, setup=setupString) )
myisam_times.append( timeit.timeit('countRecords("test_table_myisam")', number=100, setup=setupString) )
memory_times.append( timeit.timeit('countRecords("test_table_memory")', number=100, setup=setupString) )
3) सशर्त चयन करता है
प्रश्न: SELECT * FROM tbl WHERE value1<0.5 AND value2<0.5 AND value3<0.5 AND value4<0.5
परिणाम: MyISAM जीतता है
यहाँ, MyISAM और मेमोरी लगभग समान हैं, और बड़ी तालिकाओं के लिए InnoDB को लगभग 50% तक हरा देते हैं। यह क्वेरी का प्रकार है जिसके लिए MyISAM का लाभ अधिकतम प्रतीत होता है।
कोड:
myisam_times = []
innodb_times = []
memory_times = []
# Define a function to perform conditional selects
def conditionalSelect(testTable):
selectString = "SELECT * FROM " + testTable + " WHERE value1 < 0.5 AND value2 < 0.5 AND value3 < 0.5 AND value4 < 0.5"
cur.execute(selectString)
setupString = "from __main__ import conditionalSelect"
# Truncate the tables and re-fill with a set amount of data
for theLength in [3,10,30,100,300,1000,3000,10000,30000,100000]:
truncateString = "TRUNCATE test_table_innodb"
truncateString2 = "TRUNCATE test_table_myisam"
truncateString3 = "TRUNCATE test_table_memory"
cur.execute(truncateString)
cur.execute(truncateString2)
cur.execute(truncateString3)
for x in xrange(theLength):
rand1 = random.random()
rand2 = random.random()
rand3 = random.random()
rand4 = random.random()
insertString = "INSERT INTO test_table_innodb (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
insertString2 = "INSERT INTO test_table_myisam (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
insertString3 = "INSERT INTO test_table_memory (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
cur.execute(insertString)
cur.execute(insertString2)
cur.execute(insertString3)
db.commit()
# Count and time the query
innodb_times.append( timeit.timeit('conditionalSelect("test_table_innodb")', number=100, setup=setupString) )
myisam_times.append( timeit.timeit('conditionalSelect("test_table_myisam")', number=100, setup=setupString) )
memory_times.append( timeit.timeit('conditionalSelect("test_table_memory")', number=100, setup=setupString) )
4) उप-चयन
परिणाम: InnoDB जीतता है
इस प्रश्न के लिए, मैंने उप-चयन के लिए तालिकाओं का एक अतिरिक्त सेट बनाया। प्रत्येक BIGINTs के केवल दो कॉलम हैं, एक प्राथमिक कुंजी सूचकांक और एक बिना किसी सूचकांक के। बड़े तालिका आकार के कारण, मैंने मेमोरी इंजन का परीक्षण नहीं किया। SQL तालिका निर्माण आदेश था
CREATE TABLE
subselect_myisam
(
index_col bigint NOT NULL,
non_index_col bigint,
PRIMARY KEY (index_col)
)
ENGINE=MyISAM DEFAULT CHARSET=utf8;
जहाँ एक बार फिर, दूसरी तालिका में 'MyISAM' को 'InnoDB' के लिए प्रतिस्थापित किया गया है।
इस क्वेरी में, मैं चयन तालिका का आकार 1000000 पर छोड़ता हूं और इसके बजाय उप-चयनित कॉलम के आकार को बदलता हूं।
यहां इनोबीडी आसानी से जीत जाता है। जब हम एक उचित आकार की मेज पर जाते हैं, तो दोनों इंजन उप-चयन के आकार के साथ रैखिक रूप से मापते हैं। सूचकांक MyISAM कमांड को गति देता है लेकिन इनोबीडी की गति पर दिलचस्प प्रभाव पड़ता है। subSelect.png
कोड:
myisam_times = []
innodb_times = []
myisam_times_2 = []
innodb_times_2 = []
def subSelectRecordsIndexed(testTable,testSubSelect):
selectString = "SELECT * FROM " + testTable + " WHERE index_col in ( SELECT index_col FROM " + testSubSelect + " )"
cur.execute(selectString)
setupString = "from __main__ import subSelectRecordsIndexed"
def subSelectRecordsNotIndexed(testTable,testSubSelect):
selectString = "SELECT * FROM " + testTable + " WHERE index_col in ( SELECT non_index_col FROM " + testSubSelect + " )"
cur.execute(selectString)
setupString2 = "from __main__ import subSelectRecordsNotIndexed"
# Truncate the old tables, and re-fill with 1000000 records
truncateString = "TRUNCATE test_table_innodb"
truncateString2 = "TRUNCATE test_table_myisam"
cur.execute(truncateString)
cur.execute(truncateString2)
lengthOfTable = 1000000
# Fill up the tables with random data
for x in xrange(lengthOfTable):
rand1 = random.random()
rand2 = random.random()
rand3 = random.random()
rand4 = random.random()
insertString = "INSERT INTO test_table_innodb (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
insertString2 = "INSERT INTO test_table_myisam (value1,value2,value3,value4) VALUES (" + str(rand1) + "," + str(rand2) + "," + str(rand3) + "," + str(rand4) + ")"
cur.execute(insertString)
cur.execute(insertString2)
for theLength in [3,10,30,100,300,1000,3000,10000,30000,100000]:
truncateString = "TRUNCATE subselect_innodb"
truncateString2 = "TRUNCATE subselect_myisam"
cur.execute(truncateString)
cur.execute(truncateString2)
# For each length, empty the table and re-fill it with random data
rand_sample = sorted(random.sample(xrange(lengthOfTable), theLength))
rand_sample_2 = random.sample(xrange(lengthOfTable), theLength)
for (the_value_1,the_value_2) in zip(rand_sample,rand_sample_2):
insertString = "INSERT INTO subselect_innodb (index_col,non_index_col) VALUES (" + str(the_value_1) + "," + str(the_value_2) + ")"
insertString2 = "INSERT INTO subselect_myisam (index_col,non_index_col) VALUES (" + str(the_value_1) + "," + str(the_value_2) + ")"
cur.execute(insertString)
cur.execute(insertString2)
db.commit()
# Finally, time the queries
innodb_times.append( timeit.timeit('subSelectRecordsIndexed("test_table_innodb","subselect_innodb")', number=100, setup=setupString) )
myisam_times.append( timeit.timeit('subSelectRecordsIndexed("test_table_myisam","subselect_myisam")', number=100, setup=setupString) )
innodb_times_2.append( timeit.timeit('subSelectRecordsNotIndexed("test_table_innodb","subselect_innodb")', number=100, setup=setupString2) )
myisam_times_2.append( timeit.timeit('subSelectRecordsNotIndexed("test_table_myisam","subselect_myisam")', number=100, setup=setupString2) )
मुझे लगता है कि इस सबका संदेश यह है कि यदि आप वास्तव में गति के बारे में चिंतित हैं, तो आपको उन प्रश्नों को चिह्नित करने की आवश्यकता है जो आप कर रहे हैं बजाय इसके कि कौन सा इंजन अधिक उपयुक्त होगा।