موارد مهم
- مشکلات فنی فیس بوک مایه تاسف بود، اما اگر به این همه سیستم بهم پیوسته متکی نبود، احتمالاً مشکل خیلی سریعتر حل می شد.
- هیچ راهی برای جلوگیری از خرابی های سیستم به طور کامل وجود ندارد، اما راه هایی برای کاهش احتمال آن وجود دارد.
- داشتن برنامههای پشتیبان برای زمانی که (نه اگر، چه زمانی) یک سیستم از کار بیفتد، میتواند بین «آزاردهنده» و «فاجعهآمیز» تفاوت ایجاد کند.'
شکست اخیر فیس بوک نشان می دهد که چگونه سیستم های متصل به هم شکست می خورند و چرا ما نباید از آنها برای همه چیز استفاده کنیم.
از دست دادن چندین ساعت فیس بوک، واتس اپ و اینستاگرام در روز دوشنبه ناخوشایند بود، به کسب و کارها آسیب زد و در برخی موارد تقریباً فاجعه آمیز بود. به گفته فیسبوک، همه اینها به دلیل تغییرات پیکربندی در روترهای هماهنگ کننده شبکه آن بود.
توضیح معقولی است، اما این واقعیت که یک خطای منفرد مانند آن می تواند نه تنها فیس بوک بلکه سایر سیستم های متعلق به فیس بوک را متوقف کند، کمی نگران کننده است.
یک تغییر پیکربندی اشتباه روتر باعث شد چندین سرویس و حتی هدست های VR به طور کامل کار نکنند. علاوه بر این، به اعتراف خود فیس بوک، تأثیری کاهنده بر نحوه ارتباط مراکز داده این شرکت داشت و همه خدمات آنها را متوقف کرد.
فرانچسکو آلتومار، مهندس فنی ارشد فروش در GlobalDots، در مصاحبه ایمیلی با Lifewire، ، گفت: "اتکا به سیستم های به هم پیوسته خطر ذاتی خرابی سیستم یا حتی سرویس را به همراه دارد."
"برای مقابله با این خطر دلهره آور، شرکت ها از اصل SRE (مهندسی قابلیت اطمینان سیستم) و همچنین ابزارهای دیگر استفاده می کنند که همگی با سطوح مختلف افزونگی تعبیه شده در هر لایه از زیرساخت سیستم سروکار دارند."
چه چیزی می تواند اشتباه باشد
شایان ذکر است که وقتی چنین سیستمی با شکست مواجه می شود، معمولاً نیاز به طوفانی کامل از اشتباهات دارد. این کمتر شبیه خانهای از کارت است که منتظر سقوط است و بیشتر شبیه یک درگاه اگزوز حرارتی در یک ایستگاه فضایی به اندازه یک ماه کوچک است.
اکثر شرکت ها اقداماتی را انجام می دهند تا تلاش کنند و اطمینان حاصل کنند که تنها چیزی که می تواند همه چیز را به آشوب بکشاند هرگز اتفاق نمی افتد - اما صرف نظر از این، ممکن است اتفاق بیفتد.
سالی استیونز، یکی از بنیانگذاران FastPeopleSearch، در این باره گفت: «شکستهای غیرمنتظره بخشی از تجارت هستند و میتوانند در نتیجه سهل انگاری کارگر، نقص در شبکه ارائهدهنده خدمات اینترنت، یا حتی سرویسهای ذخیرهسازی ابری در معرض مشکلات باشند. یک مصاحبه ایمیلی.
… تا زمانی که اقدامات لازم برای محافظت از سیستم - مانند پشتیبانگیری، روتر در محل و دسترسی لایهای- انجام شود، این خرابیها کاملاً بعید است. اگرچه حتی با وجود ارتشی از گاوصندوقها، باز هم ممکن است که لنچ پین از کار بیفتد.
اگر سیستمی که مواردی مانند اشکال اولیه تماس، لوازم خانگی، درها و غیره را کنترل می کند، از کار بیفتد، نتایج می تواند قابل توجه باشد. از ناراحتی خفیف تا فاجعهبار کامل، بسته به میزان تکیه افراد و شرکتها به همه آن.
"همچنین خطر ورود هکرها به سیستم از هر یک از دستگاه هایی که کمتر محافظت شده است، مانند یخچال و توستر، وجود دارد،" استیونز اضافه کرد، "که می تواند منجر به سرقت اطلاعات و باج افزار شود."
چگونه می توانیم آماده کنیم
هیچ راهی برای تضمین شکست هرگز وجود ندارد، اما اقداماتی وجود دارد که میتوان برای کاهش احتمال شکست یا رفع راحتتر شکست انجام داد.ترکیبی از دو رویکردی که ایمنیهای شکست و اقدامات متقابل را با طرحهای اضطراری و سیستمهای پشتیبان پیوند میدهد ایدهآل خواهد بود.
"برای از بین بردن این خطرات ایجاد شده توسط محصولات و خدمات شخص ثالث که به طور موثر مدیریت می شوند، نقش ها و وظایف مربوط به مدیریت ریسک شخص ثالث باید به طور دقیق مشخص شود." در یک مصاحبه ایمیلی، "برای شکوفایی در این محیط جدید، مدیران ریسک باید بخش های اساسی چنین اکوسیستم پیچیده ای را درک کنند."
آنچه در فیسبوک، واتساپ و اینستاگرام رخ داد تاسفآور بود، اما امیدواریم که چشمها را باز کند. افرادی که به سیستم های به هم پیوسته متکی هستند باید درک کنند که اشتباه کردن درست می تواند همه چیز را مختل کند. و باید تدابیری اتخاذ شود (یا بررسی و اصلاح شود) تا احتمال این اختلالات کمتر و تأثیرگذاری کمتری داشته باشد.
در مورد فیس بوک، مشکل آن مشکلات روتر نبود، بلکه تقریباً تمام اکوسیستم آن به هر چیز دیگری متصل است.بنابراین، با از کار افتادن فیس بوک (سرویس)، فیس بوک (شرکت) مجبور شد زمان و انرژی بسیار بیشتری صرف سازماندهی و رسیدگی به موضوع کند. اگر از چنین سیستم ریشهدار و به هم پیوسته استفاده نمیکرد یا برنامههای پشتیبان برای مقابله با چنین قطعی وجود داشت، احتمالاً رفع آن زمان بسیار کمتری میبرد.