รองประธานโครงสร้างพื้นฐานของเฟซบุ๊กชี้แจงรายละเอียดของปัญหาที่ทำให้แพลตฟอร์มล่มกว่า 6 ชั่วโมง เผยแก้ปัญหาได้ช้าเพราะออกแบบให้ระบบมีความปลอดภัยสูง
วันที่ 5 ต.ค. 2564 เฟซบุ๊กได้ออกมาชี้แจงรายละเอียดของปัญหาการเชื่อมต่อที่เกิดขึ้นเมื่อวานนี้ โดยระบุว่าเหตุทั้งหมดเกิดระหว่างที่วิศวกรกำลังทำการซ่อมบำรุงระบบตามปกติ แต่กลับมีคำสั่งหนึ่งไปตัดการเชื่อมต่อของระบบเครือข่ายแกนหลัก (Backbone Network) ทั้งหมดโดยไม่ได้ตั้งใจ จึงทำให้ผู้ใช้งานทั่วโลก รวมถึงพนักงานของเฟซบุ๊กเอง ไม่สามารถเชื่อมต่อกับระบบได้
โดยปกติแล้ว เฟซบุ๊กจะมีศูนย์ข้อมูลย่อยที่รับคำสั่งจากผู้ใช้งานที่อยู่ใกล้ที่สุด ก่อนที่ระบบเครือข่ายแกนหลักจะส่งข้อมูลเหล่านั้น ไปยังศูนย์ข้อมูลที่มีขนาดใหญ่ขึ้นต่อไป
แต่เมื่อเกิดปัญหาขึ้นกับระบบแกนหลัก ทำให้ศูนย์ข้อมูลต่างๆ ถูกตัดการเชื่อมต่อระหว่างกัน รวมถึงถูกตัดขาดจากโลกอินเตอร์เน็ต จนทีมของเฟซบุ๊กไม่สามารถแก้ไขปัญหาดังกล่าวจากระยะไกลได้ จึงต้องเดินทางไปยังศูนย์ข้อมูลเพื่อทำการแก้ไขปัญหาและรีสตาร์ทระบบกลับมาอีกครั้ง
อีกหนึ่งเหตุผลที่ทำให้การแก้ไขกินเวลาหลายชั่วโมง เนื่องจากศูนย์ข้อมูลเหล่านั้นมีระบบการรักษาความปลอดภัยสูงและยากต่อการเข้าถึง จากนั้นเมื่อเข้าไปข้างในได้แล้ว ก็ต้องใช้เวลาอีกพอสมควรในการจัดการปัญหา เนื่องจากเครื่องมือต่างๆ ถูกออกแบบให้ยากต่อการปรับเปลี่ยน
หลังจากปัญหาได้รับการแก้ไขแล้ว ทีมวิศวกรยังไม่ได้สามารถเปิดให้กลับมาใช้งานได้เต็ม 100% เพราะช่วงที่ระบบล่มไป มีการใช้ไฟฟ้าน้อยลงหลายสิบเมกะวัตต์ ทำให้ต้องค่อยๆ ทยอยเปิดใช้งานทีละส่วน เพื่อป้องกันไม่ให้ระบบไฟฟ้าขัดข้องจากการกลับมาใช้งานทั้งหมดในคราวเดียว
ซานตอช จานาร์ธัน รองประธานฝ่ายโครงสร้างพื้นฐานของเฟซบุ๊กเผยว่า เฟซบุ๊กได้สร้างระบบให้ยากต่อการต่อการเข้าถึงโดยไม่ได้รับอนุญาต แต่ในขณะเดียวกันก็ทำให้การแก้ไขปัญหาช้าลงไปด้วย โดยตัวเขาเชื่อว่าเป็นการยอมแลกที่คุ้มค่า เพราะถือเป็นการเพิ่มความปลอดภัยในระดับที่สูงมากสำหรับการใช้งานแต่ละวัน ขณะที่เหตุล่มเช่นนี้เกิดขึ้นไม่บ่อยนัก
ที่มา: https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/










