腳本之家
你與百萬開發(fā)者在一起
經(jīng)歷了兩天不懈努力,終于恢復了一次誤操作刪除的生產(chǎn)服務器數(shù)據(jù)。對本次事故過程和解決辦法記錄在此,警醒自己,也提示別人莫犯此錯。也希望遇到問題的朋友能找到一絲靈感解決問題。
事故背景
安排一個妹子在一臺生產(chǎn)服務器上安裝Oracle,妹子邊研究邊安裝,感覺裝的不對,準備卸載重新安裝。從網(wǎng)上找到卸載方法,其中要執(zhí)行一行命令刪除Oracle的安裝目錄,命令如下:
rm?-rf?$ORACLE_BASE/*
如果這個變量沒有賦值,那命令就變成了
rm?-rf?/*
等等,妹子使用的可是root賬戶啊。
就這樣,把整個盤的文件全部刪除了。
包括應用Tomcat、MySQL數(shù)據(jù)庫?and?so?on。。。。
(mysql數(shù)據(jù)庫不是在運行嗎?linux能刪除正在執(zhí)行的文件?反正是徹底刪除了,最后還剩一個tomcat的log文件,估計是文件過大,一時沒有刪除成功)
看著妹子自責的眼神,又是因為這事是我安排她做的,也沒有跟她講清厲害關系,沒有任何培訓,責任只能一個人背了,況且怎么能讓美女背負這個責任呢?
打電話到機房,將盤掛到另一臺服務器上,ssh上去查看文件全部被清,這臺服務器運行的可是一個客戶的生產(chǎn)系統(tǒng)啊,已經(jīng)運行大半年了,得盡快恢復啊。
于是找來脫機備份的數(shù)據(jù)庫,發(fā)現(xiàn)備份文件只有1kb,里面只有幾行熟悉的注釋(難道是crontab執(zhí)行的備份腳本有問題),最接盡的備份也是2013年12月份的了,真是屋漏偏逢連夜雨啊。
想起來一位領導說過的案例:當一個生產(chǎn)系統(tǒng)掛掉以后,發(fā)現(xiàn)所有備份都有問題,刻錄的光盤也有劃痕,磁帶機也壞了(一個業(yè)界前輩,估計以前還用光盤做備份了),沒想到今天真的應驗到我的身上了,怎么辦??
部門領導知道情況后,已經(jīng)做了最壞的B計劃:領導親自帶隊和產(chǎn)品AA周日趕到客戶所在的地市,星期一去領導層溝通;BB和CC去客戶管理員那邊想辦法說服客戶。。。
救命稻草--
趕快到網(wǎng)上去查資料進行誤刪數(shù)據(jù)恢復,還真找到一款能夠恢復通過rm-rf刪除的文件,我們磁盤也是ext3格式,且網(wǎng)上有不少的成功案例。
于是燃起了一絲希望,趕快對盤umount,防止重新寫入補刪文件扇區(qū)。
下載,安裝(編譯安裝過程艱辛暫且不表)。
先執(zhí)行掃描文件名命令:
ext3grep?/dev/vgdata/LogVol00?--dump-names
打印出了所有被刪除文件及路徑,心中狂喜,不用執(zhí)行B計劃了,文件都在呢。
這款軟件不能按目錄恢復文件,只能執(zhí)行恢復全部命令:
ext3grep?/dev/vgdata/LogVol00?--restore-all
結(jié)果當前盤空間不足,沒辦法只能恢復文件,嘗試了幾個文件,居然部分成功部分失敗
ext3grep?/dev/vgdata/LogVol00?--restore-file?var/lib/mysql/aqsh/tb_b_attench.MYD
心里不禁一涼,難道是刪除磁盤上被寫過文件了?恢復機率不大了啊,能恢復幾個算幾個吧,說不定重要數(shù)據(jù)文件剛好在能恢復的MYD文件中。
于是先將所有文件名重定向到一個文件文件中
ext3grep?/dev/vgdata/LogVol00?--dump-names?>/usr/allnames.txt
過濾出來所有mysql數(shù)據(jù)庫的文件名存成,.txt
編寫腳本恢復文件:
while?read?LINE
do
????echo?"begin?to?restore?file?"?$LINE
????ext3grep?/dev/vgdata/LogVol00?--restore-file?$LINE
????if?[?$??!=?0?]
????then
????????echo?"restore?failed,?exit"
???????#?exit?1
????fi
done?./mysqltbname.txt
執(zhí)行,大概運行了20分鐘,恢復了40多個文件,但不夠啊,我們將近100張表,每張表frm,myd,myi三個文件,怎么說也有300多個左右啊!!
將找回來的文件附到現(xiàn)有數(shù)據(jù)庫上,更要文件權限為777后,重啟mysql,也算是找回一部分數(shù)據(jù)了,但客戶重要的考勤簽到數(shù)據(jù)、手機端上報數(shù)據(jù)(據(jù)說客戶按這些數(shù)據(jù)做員工績效的)還沒找回來啊。
咋辦?中間又試了另一款工具,跟語法基本一致,原理應該也一樣了,但是據(jù)說能按目錄恢復,好吧試一試。
extundelete?/dev/vgdata/LogVol00?--restore-directory?var/lib/mysql/aqsh
果然不出所料,恢復不出來!!!!!!!!
那些文件已被破壞了。
跟領導匯報,執(zhí)行B計劃吧。。。
無奈之下下班回家(周末了,回去休息一下,想想辦法吧)
靈機一動:binlog
第二天早晨一早就醒了(心里有事啊),背上電腦,去公司(這個周末算是報銷了,不挨批,通報,罰款,開除就不錯了,還過什么周末啊)。
依舊運行,,也就那幾招啊,把系統(tǒng)架到測試服務器上,看看數(shù)據(jù)能不能想辦法補一補吧。
在測試服務器上進行,恢復文件,覆蓋恢復回來的文件,給文件加權限,重啟mysql。
wait,wait,不是有binlog嗎?我們服務都要求開啟binlog,說不定能通過binlog里恢復數(shù)據(jù)呢?
于是從dump出來的文件名里找到binlog的文件,一共三個,mysql-,mysql-bin.000009,mysql-bin.000010,恢復一下0001
ext3grep?/dev/vgdata/LogVol00?--restore-file?var/lib/mysql/mysql-bin.000001
居然失敗了。。。。。。
再看另兩個文件,mysql-bin.000010大概幾百MB,應該靠譜一點,執(zhí)行還原命令,居然成功了!!!!!!!!!!!!!
趕快scp到測試服務器。
執(zhí)行binlog還原。
mysqlbinlog?/usr/mysql-bin.000010?|?mysql?-uroot?-p
輸入密碼,卡住了(好現(xiàn)象),經(jīng)過漫長的等待,終于結(jié)束了。
打開應用,哦,感謝cctv,mtv,數(shù)據(jù)回來了!!!!!!!!!!!!!!!
后記
經(jīng)過此次事故,雖然數(shù)據(jù)很幸運能找回來了,但是過程卻是驚心動迫。
也為自己的錯誤所帶來的后果,給同事和領導帶來的連帶責任而后怕。
也希望謹記此次事故,以后不再犯同樣的錯誤。
事故反思如下:
本次安排MM進行服務器維護時沒有提前對她進行說明厲害情況,自己也未重視,管理混亂,流程混亂。一個在線的生產(chǎn)系統(tǒng),任何一個改動一定要先謀而后動。
自動備份出現(xiàn)問題,沒有任何人檢查。脫機備份人員每次從服務器上下載1k的文件卻從未重視。需要明確大家在工作崗位上的責任。
事故發(fā)生后,沒有及時發(fā)現(xiàn),造成部分數(shù)據(jù)寫入磁盤,造成不可恢復問題。需要編寫應用監(jiān)控程序,服務一旦有異常,短信告警相關責任人。
*請認真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。