Apa itu Toleransi Kesalahan: Melindungi Kesehatan Sistem Anda
Tyler Au
20 April 2023

Apa itu Toleransi Kesalahan?

Tahukah Anda bahwa sekitar 5 miliar orang di seluruh dunia menggunakan internet SETIAP HARI?

Di zaman dimana kita semakin terhubung, memastikan bahwa aplikasi dan sistem aktif dan berjalan adalah hal yang paling penting. Ketersediaan tinggi dan sistem yang sehat adalah dua prioritas utama bagi banyak tim organisasi, dan banyak organisasi memprioritaskan pencadangan untuk sistem mereka yang paling penting.

Untuk mengatasi pemadaman listrik yang tidak disengaja, organisasi menerapkan toleransi kesalahan di banyak sistem mereka. Toleransi kesalahan mengacu pada kemampuan sistem untuk melanjutkan operasi ketika menghadapi gangguan dan/atau kegagalan komponen. Bayangkan toleransi kesalahan sebagai mobil roda 4 terbaik yang pernah ada: jika salah satu bannya pecah, mobil yang toleran terhadap kesalahan ini akan dapat melanjutkan pengoperasian normalnya hanya dengan 3 roda (atau penggantian roda ke-4).

Tujuan penerapan sistem toleransi kesalahan dalam suatu perusahaan adalah untuk mencegah gangguan yang timbul dari satu titik kegagalan (SPOF) guna menjaga ketersediaan tinggi dan kelangsungan bisnis (mampu menghadapi situasi sulit sehingga organisasi dapat beroperasi tanpa gangguan) . Desain toleransi kesalahan menghilangkan risiko sistem yang ditimbulkan oleh SPOF, atau kesalahan sistem tunggal yang dapat menghentikan operasi sistem sepenuhnya jika tidak berfungsi, melalui penyeimbangan beban dan failover. Ketiga solusi yang dilakukan dengan toleransi kesalahan ini memungkinkan sistem mengalokasikan lalu lintas berdasarkan sumber daya dan beralih ke sistem cadangan dengan lancar.

Meskipun toleransi kesalahan dan ketersediaan tinggi saling terkait satu sama lain, keduanya tidak selalu sama. Toleransi kesalahan adalah desain sistem yang memungkinkan ketersediaan tinggi dapat diperoleh dan berhasil, jika sistem gagal dengan desain toleransi kesalahan, ketersediaan tinggi hampir mustahil dicapai. Rencana kelangsungan bisnis memerlukan pengendalian kedua aspek ini, memastikan bahwa operasi dapat berjalan lancar dan seefisien mungkin dalam semua kasus.

Pentingnya Load Balancing dan Failover

Untuk memulai, mari kita definisikan kedua aspek toleransi kesalahan ini.

Penyeimbangan beban adalah metode distribusi lalu lintas jaringan di mana lalu lintas didistribusikan secara tepat ke seluruh kumpulan server dan sumber daya. Distribusi beban kerja ini memungkinkan sistem untuk mengoptimalkan cara mereka menangani lalu lintas, memastikan bahwa volume tinggi ditangani dan tekanan tidak dibebankan pada satu server saja. 

Failover mengacu pada kemampuan sistem untuk beralih ke sistem cadangan secara mulus dan otomatis sebagai respons terhadap kegagalan. Ketika komponen mengalami kegagalan, sistem akan dialihkan ke sistem cadangan yang mencerminkan pengoperasian sistem utama dan benar-benar berjalan bersamaan. 

Penyeimbangan beban dan failover menghilangkan resiko adanya SPOF dalam sistem, yang merupakan hal paling penting untuk toleransi kesalahan yang sebenarnya. 

Operasi Toleransi Kesalahan

Pada intinya, toleransi kesalahan memiliki dua model yang dipatuhi:

Berfungsi Normal 

Fungsi normal mengacu pada situasi ketika sistem toleransi kesalahan sebenarnya memiliki komponen yang rusak, namun tetap beroperasi secara normal. Sistem yang dimaksud tidak mengalami perubahan kinerja atau metrik karena gangguan layanan yang sebagian disebabkan oleh komponen yang berlebihan.

Degradasi yang Anggun

Ketika kegagalan terjadi, dampak kesalahan pada sistem bergantung pada tingkat keparahan kegagalan. Sistem toleransi kesalahan tertentu akan mengalami degradasi yang baik, dimana tingkat keparahan kesalahan sebanding dengan dampaknya terhadap kinerja. Seperti pepatah “semakin besar, semakin keras jatuhnya”, semakin besar dan parah suatu kesalahan, semakin besar pula jatuhnya suatu sistem.

Tempat yang Mungkin Perlu Anda Periksa

Sebagian besar, jika tidak semua, sistem toleransi kesalahan berisi komponen cadangan yang secara mulus menggantikan komponen yang rusak untuk memastikan bahwa layanan penting dapat terus beroperasi ketika sistem gagal, komponen-komponen ini adalah:

Perangkat keras

Sistem perangkat keras dapat dicadangkan oleh sistem yang identik atau setara dengannya. Sistem cadangan ini berjalan bersama-sama dengan sistem utama dan mencerminkan operasinya. Pikirkan analogi mobil yang dibuat sebelumnya: ban serep akan menjadi contoh yang baik dari sistem perangkat keras pengganti.

Perangkat lunak 

Sistem perangkat lunak menjadi toleran terhadap kesalahan setelah dicadangkan oleh perangkat lunak lain. Misalnya, memiliki cadangan informasi sensitif pelanggan ke dalam database terpisah dan terisolasi dan pada sistem komputer yang sepenuhnya berbeda memastikan bahwa layanan terkait terus beroperasi jika terjadi kegagalan sistem. Seperti disebutkan di atas, failover dan memiliki komponen yang berlebihan jika terjadi kegagalan sistem adalah hal yang paling penting, dan filosofi ini banyak diterapkan pada komponen perangkat lunak dalam sistem yang toleran terhadap kesalahan.

Sumber Daya

Sumber daya dapat menjadi toleran terhadap kesalahan setelah sumber daya pengganti diidentifikasi dan siap. Memiliki sumber listrik alternatif yang siap ketika sistem mengalami gangguan layanan sangatlah penting agar pengoperasian tidak terganggu. 

Komponen Sistem Toleransi Kesalahan

Mencapai toleransi kesalahan tampaknya cukup sederhana, bukan? Jika Anda sudah membaca sampai titik ini, tampaknya memiliki toleransi kesalahan berarti memiliki cadangan untuk semuanya, dan jika Anda berpikir demikian maka Anda sebagian benar. Namun, sistem toleransi kesalahan dan cara untuk memperbaikinya terdiri dari beberapa komponen berbeda:

Keberagaman

Meskipun memiliki cadangan yang sama sangat berguna jika terjadi gangguan layanan, mendiversifikasi sumber alternatif dapat berdampak baik dalam jangka panjang. Seperti halnya pisau tentara Swiss, sistem yang toleran terhadap kesalahan harus dilengkapi dengan semua cadangan dan alternatif yang diperlukan, meskipun memilikinya mungkin akan sedikit berlebihan.

Redundansi

Redundansi dalam sistem toleransi kesalahan adalah cara menghilangkan SPOF. Jika suatu komponen mengalami kegagalan, sistem akan dapat mengidentifikasi kesalahan tersebut dan secara otomatis menggantinya, tanpa menghambat pengoperasian. Misalnya, dalam hal perangkat keras, array disk independen (RAID) yang berlebihan biasanya ditempatkan jika terjadi kegagalan sistem atau perangkat keras, sehingga pengguna dapat melindungi dan mengakses data yang dicerminkan tanpa gangguan.

Replikasi

Untuk membuat perangkat lunak yang sama seperti saat terjadi kesalahan, replikasi sangatlah penting. Ini berarti memiliki versi perangkat lunak yang sama dengan versi utama, sekaligus menjalankan dan mengoperasikannya seperti versi utama. Fungsi, pengujian, hasil- semuanya identik dengan sistem utama jika pada akhirnya akan menggantikan sistem utama.

Toleransi Kesalahan dengan Lyrid

Di Lyrid, kami antusias untuk menyelamatkan aplikasi dan layanan Anda dari peristiwa berbahaya (sekaligus menghemat waktu dan uang Anda dalam prosesnya). Untuk mengatasi toleransi kesalahan, kami beralih ke penggunaan layanan mikro.

Melalui penggunaan layanan mikro di Lyrid, Anda akan dapat mengelompokkan berbagai aplikasi dan layanan yang sedang berjalan, artinya jika sebuah aplikasi tidak berfungsi, hal ini akan terjadi secara terisolasi dan tidak akan berdampak pada layanan Anda yang lain. Praktik ini juga mencerminkan cara kami menggunakan Kubernetes; jika sebuah node berhenti, mesin lain akan mendistribusikan beban node yang rusak dan menyeimbangkan lalu lintas.

Dalam mengamankan aplikasi dan layanan Anda, kami juga menawarkan mesin pemulihan bencana dan pencadangan di luar lokasi, dengan data yang diperbarui secara berkala.

Ingin mempelajari lebih lanjut tentang cara kami melindungi sistem Anda? Jadwalkan demo dengan kami!

Jadwalkan demo

Mari diskusikan proyek Anda

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
Ikut Newsletter Kami
Langganan
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Jl. Pluit Indah 168B-G, Pluit Penjaringan,
Jakarta Utara, DKI Jakarta
14450

99 South Almaden Blvd. Suite 600
San Jose, CA
95113

@ Lyrid. Inc 2022

Terms of ServicePrivacy Policy
copilot