View Single Post
ישן 06-03-06, 07:04   # 4
דניאל
מנהל ראשי
 
מיני פרופיל
תאריך הצטרפות: Oct 2005
מיקום: ראשון לציון
גיל: 40
הודעות: 6,503
שלח הודעה באמצעות MSN אל דניאל

דניאל לא מחובר  

שוב שלום,
לאחר ימים של עבודה ושקידה על הנושא,
קיבלנו אתמול תשובה מאוד מאכזבת מחברת "טיק טק" ולכן אספר לכם בתמצות את הסיפור המלא:
נכון ליום שני ב-8:30 בבוקר בעת שהגענו לחווה על מנת להעביר את השרתים לברק013 (פרט מהשרת המדובר שהיה צריך להשאר ב012) קיבלתי טלפון מלקוח, "דניאל השרת לא עובד",
כפי שהייתי בחווה ניגשתי לבדוק מה הבעיה.
תוך זמן קצר נוכחתי לראות שהשרת לא עולה שוב לאחר ריסטרט.
ביצענו מספר בדיקות והגענו למסקנה כי ישנה בעיה עם בקר הRaid או עם אחד הדיסקים הקשיחים,
ניגשנו מהר למעבדת השירות של אינטל על מנת לבצע בדיקה מקיפה לשרת,
הבדיקה בוצעה וקיבלנו תוצאות כי "השרת תקין לחלוטין",
כמובן שבמידה והיינו מעוניינים, הדיסקים הקשיחים היו מוחלפים בו במקום (מה שכן, אז לא היינו מצליחים להוציא מתוכם את כל המידע).
לאחר יום שלם של ישיבה מול השרת בביתי עם עשרות טלפונים לאנשים רבים וטובים שעזרו בנסיון להבין את התקלה ולתקנה, הגענו למסקנה שצריך לקחת את השרת לשחזור נתונים - כלומר, את הנתונים לא נצליח לשחזר לבד.
לא הצלחנו לגלות הרבה ממה שקרה, מה שכן..הגענו למסקנה שבצורה כלשהיא ישנו כשל ב-2 הדיסקים הקשיחים אשר הורכבו במערך של Raid 1 (Mirroring).
פנינו לחברת "טיק טאק" בנושא ביום חמישי, אשר בשיחה הראשונית מהתרשמות מאיתנו נאמרו לנו עלויות שחזור והשערה של מה התקלה בדיוק.
אתמול, הסתיימה הבדיקה על הדיסקים הקשיחים וקיבלנו את התגובה העגומה כי אין אפשרות לשחזר את המידע מהדיסקים הקשיחים.
הכשל לדבריהם, הבקרים בדיסקים הקשיחים נשרפו (מה שהיה צפוי) ודבר נוסף, דיסקיות האב (או מושג דומה) נפגמו באופן חמור.

כיצד, ואיך הדבר קורה בו"ז ב-2 דיסקים קשיחים שונים?
לא מובן, לפי הערכת "טיק טאק" - קפיצות חשמל שהזיקו לדיסקים הקשיחים.

מכירים את המשפט ש"הדבר הכי לא צפוי יקרה בזמן הכי לא צפוי"?, כן...חוק מרפי במלוא עוצמתו,
אז גם הגיבויים שנעשו, ונכתבו פעם שניה ע"ג דיסק קשיח שני, גם לא ניתן להוצאה ואינם זמינים.

מדוע היו עיקובים (שנמשכים עד עכשיו) ולא כל הלקוחות (הנוגעים בדבר) יודעו בנושא?
מספר סיבות:
1. אני מודה, שיטת הפעולה שפעלנו לא היתה שיא החוכמה, כלומר, ריכזנו (כמעט) את כל הביצים בסל אחד (והכוונה לשרת כמובן, ולמערכת ניהול הלקוחות).
2. עומס טלפונים עצום, לא תמיד הצלחנו לענות לכל השיחות ויש לקוחות שעדין לא הזדמן להתקשר אליהם.

בסיכומו של דבר,
ישנו שרת נוסף שאליו הועברו גיבויים על בסיס קבוע, ייתכן ונוכל למשוך חלק מהמידע של לקוחות מסויימים ושניתן יהיה לשחזור, זה אדע רק היום בצהרים ועדכונים בנושא תקבלו בהמשך.

מה הלאה?
"מטעויות לומדים", מה שנכון נכון ו..היום לצערי, ניתן לומר כי אנחנו חכמים יותר.
היום או מחר עתיד לעלות שרת חדש (dual opteron 246) ושרת גיבוי חדש (המורכב מ-4 דיסקים קשיחים של 250GB אשר יתנו גיבוי לכל לקוח עד 7 ימים אחורה).

אני מקווה שעוד היום נסיים ליצור קשר עם כל הלקוחות,
כל לקוח שברשותו גיבוי חשבונו יפתח ברגע שהשרת החדש יגיע.

בנימה אישית,
זה המצב הכי לא נעים והמסובך שנקלענו בו עד היום,
ההרגשה הכי גרועה בעולם היא להגיד ללקוח שעבודתו נמחקה,
אני לא מאחל זאת לאף אחד, ומקווה שמרפי (חוק מרפי כמובן) לא "יכה" באותה צורה באף אחד מבעלי החברות האחרים בו.
אני מקווה שברור לכולם, שבמידה והיה סיכוי כלשהוא להציל את המידע מהדיסקים הקשיחים הדבר היה נעשה..בלי לחשוב פעמים.

דניאל.
__________________
דניאל
דוא"ל:
dannyg@sPD.co.il

sPD Hosting בע"מ | אחסון אתרים | בלוג אחסון אתרים
טלפון להזמנות: 1-599-559977