मैंने एक मृत नोड को बदल दिया है जो OCFS2 के साथ दोहरे-प्राथमिक मोड में चल रहा था। सभी चरण काम करते हैं:
/proc/drbd
version: 8.3.13 (api:88/proto:86-96)
GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36
1: cs:Connected ro:Primary/Primary ds:UpToDate/UpToDate C r-----
ns:81 nr:407832 dw:106657970 dr:266340 al:179 bm:6551 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0
जब तक मैं वॉल्यूम को माउंट करने की कोशिश नहीं करता हूं:
mount -t ocfs2 /dev/drbd1 /data/webroot/
mount.ocfs2: Transport endpoint is not connected while mounting /dev/drbd1 on /data/webroot/. Check 'dmesg' for more information on this error.
/var/log/kern.log
kernel: (o2net,11427,1):o2net_connect_expired:1664 ERROR: no connection established with node 0 after 30.0 seconds, giving up and returning errors.
kernel: (mount.ocfs2,12037,1):dlm_request_join:1036 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):dlm_try_to_join_domain:1210 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):dlm_join_domain:1488 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):dlm_register_domain:1754 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):ocfs2_dlm_init:2808 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):ocfs2_mount_volume:1447 ERROR: status = -107
kernel: ocfs2: Unmounting device (147,1) on (node 1)
और नीचे नोड 0 (192.168.3.145) पर कर्नेल लॉग है:
kernel: : (swapper,0,7):o2net_listen_data_ready:1894 bytes: 0
kernel: : (o2net,4024,3):o2net_accept_one:1800 attempt to connect from unknown node at 192.168.2.93
:43868
kernel: : (o2net,4024,3):o2net_connect_expired:1664 ERROR: no connection established with node 1 after 30.0 seconds, giving up and returning errors.
kernel: : (o2net,4024,3):o2net_set_nn_state:478 node 1 sc: 0000000000000000 -> 0000000000000000, valid 0 -> 0, err 0 -> -107
मुझे यकीन है कि /etc/ocfs2/cluster.conf
दोनों नोड समान हैं:
/etc/ocfs2/cluster.conf
node:
ip_port = 7777
ip_address = 192.168.3.145
number = 0
name = SVR233NTC-3145.localdomain
cluster = cpc
node:
ip_port = 7777
ip_address = 192.168.2.93
number = 1
name = SVR022-293.localdomain
cluster = cpc
cluster:
node_count = 2
name = cpc
और वे ठीक जुड़े हुए हैं:
# nc -z 192.168.3.145 7777
Connection to 192.168.3.145 7777 port [tcp/cbt] succeeded!
लेकिन O2CB दिल की धड़कन नए नोड (192.168.2.93) पर सक्रिय नहीं है:
/etc/init.d/o2cb status
Driver for "configfs": Loaded
Filesystem "configfs": Mounted
Driver for "ocfs2_dlmfs": Loaded
Filesystem "ocfs2_dlmfs": Mounted
Checking O2CB cluster cpc: Online
Heartbeat dead threshold = 31
Network idle timeout: 30000
Network keepalive delay: 2000
Network reconnect delay: 2000
Checking O2CB heartbeat: Not active
यहाँ परिणाम हैं जब नोड 1 पर tcpdump
शुरू करते समय नोड 0 पर चल रहा है ocfs2
:
1 0.000000 192.168.2.93 -> 192.168.3.145 TCP 70 55274 > cbt [SYN] Seq=0 Win=5840 Len=0 MSS=1460 TSval=690432180 TSecr=0
2 0.000008 192.168.3.145 -> 192.168.2.93 TCP 70 cbt > 55274 [SYN, ACK] Seq=0 Ack=1 Win=5792 Len=0 MSS=1460 TSval=707657223 TSecr=690432180
3 0.000223 192.168.2.93 -> 192.168.3.145 TCP 66 55274 > cbt [ACK] Seq=1 Ack=1 Win=5840 Len=0 TSval=690432181 TSecr=707657223
4 0.000286 192.168.2.93 -> 192.168.3.145 TCP 98 55274 > cbt [PSH, ACK] Seq=1 Ack=1 Win=5840 Len=32 TSval=690432181 TSecr=707657223
5 0.000292 192.168.3.145 -> 192.168.2.93 TCP 66 cbt > 55274 [ACK] Seq=1 Ack=33 Win=5792 Len=0 TSval=707657223 TSecr=690432181
6 0.000324 192.168.3.145 -> 192.168.2.93 TCP 66 cbt > 55274 [RST, ACK] Seq=1 Ack=33 Win=5792 Len=0 TSval=707657223 TSecr=690432181
RST
झंडा हर 6 पैकेट के बाद भेजा जाता है।
इस मामले को हटाने के लिए मैं और क्या कर सकता हूं?
पुनश्च:
नोड 0 पर OCFS2 संस्करण:
- OCFS2 उपकरण-1.4.4-1.el5
- ocfs2-2.6.18-274.12.1.el5-1.4.7-1.el5
नोड 1 पर OCFS2 संस्करण:
- OCFS2 उपकरण-1.4.4-1.el5
- ocfs2-2.6.18-308.el5-1.4.7-1.el5
अद्यतन 1 - सूर्य दिसंबर 23 18:15:07 आईसीटी 2012
क्या दोनों एक ही सेगमेंट के नोड हैं? कोई राउटर आदि नहीं?
नहीं, वे विभिन्न सबनेट पर 2 VMWare सर्वर हैं।
ओह, जबकि मुझे याद है - होस्टनाम / DNS सभी सेटअप और सही ढंग से काम कर रहे हैं?
ज़रूर, मैंने प्रत्येक नोड के होस्टनाम और आईपी पते को दोनों में जोड़ा /etc/hosts
:
192.168.2.93 SVR022-293.localdomain
192.168.3.145 SVR233NTC-3145.localdomain
और वे hostname के माध्यम से एक दूसरे से जुड़ सकते हैं:
# nc -z SVR022-293.localdomain 7777
Connection to SVR022-293.localdomain 7777 port [tcp/cbt] succeeded!
# nc -z SVR233NTC-3145.localdomain 7777
Connection to SVR233NTC-3145.localdomain 7777 port [tcp/cbt] succeeded!
अद्यतन 2 - सोम 24 दिसंबर 18:32:15 आईसीटी 2012
सुराग मिला: मेरे सहकर्मी ने मैन्युअल रूप से /etc/ocfs2/cluster.conf
फ़ाइल को संपादित किया जबकि क्लस्टर चल रहा है। तो, यह अभी भी मृत नोड जानकारी रखता है /sys/kernel/config/cluster/
:
# ls -l /sys/kernel/config/cluster/cpc/node/
total 0
drwxr-xr-x 2 root root 0 Dec 24 18:21 SVR150-4107.localdomain
drwxr-xr-x 2 root root 0 Dec 24 18:21 SVR233NTC-3145.localdomain
( SVR150-4107.localdomain
इस मामले में)
मैं मृत नोड को हटाने के लिए क्लस्टर को बंद करने जा रहा हूं, लेकिन निम्नलिखित त्रुटि मिली:
# /etc/init.d/o2cb stop
Stopping O2CB cluster cpc: Failed
Unable to stop cluster as heartbeat region still active
मुझे यकीन है कि ocfs2
सेवा पहले से ही बंद है:
# mounted.ocfs2 -f
Device FS Nodes
/dev/sdb ocfs2 Not mounted
/dev/drbd1 ocfs2 Not mounted
अब कोई संदर्भ नहीं हैं:
# ocfs2_hb_ctl -I -u 12963EAF4E16484DB81ECB0251177C26
12963EAF4E16484DB81ECB0251177C26: 0 refs
मैंने यह ocfs2
सुनिश्चित करने के लिए कर्नेल मॉड्यूल को भी उतार दिया :
# ps -ef | grep [o]cfs2
root 12513 43 0 18:25 ? 00:00:00 [ocfs2_wq]
# modprobe -r ocfs2
# ps -ef | grep [o]cfs2
# lsof | grep ocfs2
लेकिन कुछ भी नहीं बदलता है:
# /etc/init.d/o2cb offline
Stopping O2CB cluster cpc: Failed
Unable to stop cluster as heartbeat region still active
तो अंतिम सवाल यह है: रिबूट किए बिना डेड नोड की जानकारी कैसे हटाएं ?
अद्यतन 3 - सोम दिसंबर 24 22:41:51 आईसीटी 2012
यहाँ सब चल रहे दिल की धड़कन हैं:
# ls -l /sys/kernel/config/cluster/cpc/heartbeat/ | grep '^d'
drwxr-xr-x 2 root root 0 Dec 24 22:18 72EF09EA3D0D4F51BDC00B47432B1EB2
इस दिल की धड़कन क्षेत्र के लिए संदर्भ मायने रखता है:
# ocfs2_hb_ctl -I -u 72EF09EA3D0D4F51BDC00B47432B1EB2
72EF09EA3D0D4F51BDC00B47432B1EB2: 7 refs
मारने की कोशिश करो:
# ocfs2_hb_ctl -K -u 72EF09EA3D0D4F51BDC00B47432B1EB2
ocfs2_hb_ctl: File not found by ocfs2_lookup while stopping heartbeat
कोई विचार?
$ echo 1 > /proc/sys/kernel/panic_on_oops $ echo 30 > /proc/sys/kernel/panic
क्या आपने?
panic_on_oops
सक्षम किया गया था लेकिन panic
डिफ़ॉल्ट रूप से शून्य पर सेट है। मैंने आतंक पर रिबूट के लिए 30 सेकंड का समय निर्धारित किया है, अब मैं क्या कर सकता हूं?
tcpdump
ट्रैफ़िक के लुक से (जिसे मैं एडिट से पहले मिस करता था), ऐसा लगता है कि जैसे कुछ डेटा मिल रहा है, इसलिए मुझे लगता है कि ऐसा नहीं हो सकता। क्या दोनों एक ही सेगमेंट के नोड हैं? कोई राउटर आदि नहीं?