شکست فیس بوک نشان می دهد که چرا ما نباید برای همه چیز به آن تکیه کنیم

فهرست مطالب:

2024 نویسنده: Abigail Brown | [email protected]. آخرین اصلاح شده: 2023-12-17 06:46

موارد مهم

مشکلات فنی فیس بوک مایه تاسف بود، اما اگر به این همه سیستم بهم پیوسته متکی نبود، احتمالاً مشکل خیلی سریعتر حل می شد.
هیچ راهی برای جلوگیری از خرابی های سیستم به طور کامل وجود ندارد، اما راه هایی برای کاهش احتمال آن وجود دارد.
داشتن برنامه‌های پشتیبان برای زمانی که (نه اگر، چه زمانی) یک سیستم از کار بیفتد، می‌تواند بین «آزاردهنده» و «فاجعه‌آمیز» تفاوت ایجاد کند.'

شکست اخیر فیس بوک نشان می دهد که چگونه سیستم های متصل به هم شکست می خورند و چرا ما نباید از آنها برای همه چیز استفاده کنیم.

از دست دادن چندین ساعت فیس بوک، واتس اپ و اینستاگرام در روز دوشنبه ناخوشایند بود، به کسب و کارها آسیب زد و در برخی موارد تقریباً فاجعه آمیز بود. به گفته فیسبوک، همه اینها به دلیل تغییرات پیکربندی در روترهای هماهنگ کننده شبکه آن بود.

توضیح معقولی است، اما این واقعیت که یک خطای منفرد مانند آن می تواند نه تنها فیس بوک بلکه سایر سیستم های متعلق به فیس بوک را متوقف کند، کمی نگران کننده است.

یک تغییر پیکربندی اشتباه روتر باعث شد چندین سرویس و حتی هدست های VR به طور کامل کار نکنند. علاوه بر این، به اعتراف خود فیس بوک، تأثیری کاهنده بر نحوه ارتباط مراکز داده این شرکت داشت و همه خدمات آنها را متوقف کرد.

فرانچسکو آلتومار، مهندس فنی ارشد فروش در GlobalDots، در مصاحبه ایمیلی با Lifewire، ، گفت: "اتکا به سیستم های به هم پیوسته خطر ذاتی خرابی سیستم یا حتی سرویس را به همراه دارد."

"برای مقابله با این خطر دلهره آور، شرکت ها از اصل SRE (مهندسی قابلیت اطمینان سیستم) و همچنین ابزارهای دیگر استفاده می کنند که همگی با سطوح مختلف افزونگی تعبیه شده در هر لایه از زیرساخت سیستم سروکار دارند."

چه چیزی می تواند اشتباه باشد

شایان ذکر است که وقتی چنین سیستمی با شکست مواجه می شود، معمولاً نیاز به طوفانی کامل از اشتباهات دارد. این کمتر شبیه خانه‌ای از کارت است که منتظر سقوط است و بیشتر شبیه یک درگاه اگزوز حرارتی در یک ایستگاه فضایی به اندازه یک ماه کوچک است.

اکثر شرکت ها اقداماتی را انجام می دهند تا تلاش کنند و اطمینان حاصل کنند که تنها چیزی که می تواند همه چیز را به آشوب بکشاند هرگز اتفاق نمی افتد - اما صرف نظر از این، ممکن است اتفاق بیفتد.

سالی استیونز، یکی از بنیانگذاران FastPeopleSearch، در این باره گفت: «شکست‌های غیرمنتظره بخشی از تجارت هستند و می‌توانند در نتیجه سهل انگاری کارگر، نقص در شبکه ارائه‌دهنده خدمات اینترنت، یا حتی سرویس‌های ذخیره‌سازی ابری در معرض مشکلات باشند. یک مصاحبه ایمیلی.

… تا زمانی که اقدامات لازم برای محافظت از سیستم - مانند پشتیبان‌گیری، روتر در محل و دسترسی لایه‌ای- انجام شود، این خرابی‌ها کاملاً بعید است. اگرچه حتی با وجود ارتشی از گاوصندوق‌ها، باز هم ممکن است که لنچ پین از کار بیفتد.

اگر سیستمی که مواردی مانند اشکال اولیه تماس، لوازم خانگی، درها و غیره را کنترل می کند، از کار بیفتد، نتایج می تواند قابل توجه باشد. از ناراحتی خفیف تا فاجعه‌بار کامل، بسته به میزان تکیه افراد و شرکت‌ها به همه آن.

"همچنین خطر ورود هکرها به سیستم از هر یک از دستگاه هایی که کمتر محافظت شده است، مانند یخچال و توستر، وجود دارد،" استیونز اضافه کرد، "که می تواند منجر به سرقت اطلاعات و باج افزار شود."

چگونه می توانیم آماده کنیم

هیچ راهی برای تضمین شکست هرگز وجود ندارد، اما اقداماتی وجود دارد که می‌توان برای کاهش احتمال شکست یا رفع راحت‌تر شکست انجام داد.ترکیبی از دو رویکردی که ایمنی‌های شکست و اقدامات متقابل را با طرح‌های اضطراری و سیستم‌های پشتیبان پیوند می‌دهد ایده‌آل خواهد بود.

"برای از بین بردن این خطرات ایجاد شده توسط محصولات و خدمات شخص ثالث که به طور موثر مدیریت می شوند، نقش ها و وظایف مربوط به مدیریت ریسک شخص ثالث باید به طور دقیق مشخص شود." در یک مصاحبه ایمیلی، "برای شکوفایی در این محیط جدید، مدیران ریسک باید بخش های اساسی چنین اکوسیستم پیچیده ای را درک کنند."

آنچه در فیس‌بوک، واتس‌اپ و اینستاگرام رخ داد تاسف‌آور بود، اما امیدواریم که چشم‌ها را باز کند. افرادی که به سیستم های به هم پیوسته متکی هستند باید درک کنند که اشتباه کردن درست می تواند همه چیز را مختل کند. و باید تدابیری اتخاذ شود (یا بررسی و اصلاح شود) تا احتمال این اختلالات کمتر و تأثیرگذاری کمتری داشته باشد.

در مورد فیس بوک، مشکل آن مشکلات روتر نبود، بلکه تقریباً تمام اکوسیستم آن به هر چیز دیگری متصل است.بنابراین، با از کار افتادن فیس بوک (سرویس)، فیس بوک (شرکت) مجبور شد زمان و انرژی بسیار بیشتری صرف سازماندهی و رسیدگی به موضوع کند. اگر از چنین سیستم ریشه‌دار و به هم پیوسته استفاده نمی‌کرد یا برنامه‌های پشتیبان برای مقابله با چنین قطعی وجود داشت، احتمالاً رفع آن زمان بسیار کمتری می‌برد.