Design and analysis of peer-to-peer fault-tolerance approach in a grid computing system

บทความในวารสาร


ผู้เขียน/บรรณาธิการ


กลุ่มสาขาการวิจัยเชิงกลยุทธ์

ไม่พบข้อมูลที่เกี่ยวข้อง


รายละเอียดสำหรับงานพิมพ์

รายชื่อผู้แต่งTangmankhong T., Siripongwutikorn P., Achalakul T.

ปีที่เผยแพร่ (ค.ศ.)2017

วารสารChiang Mai Journal of Science (0125-2526)

Volume number44

Issue number2

หน้าแรก688

หน้าสุดท้าย698

จำนวนหน้า11

นอก0125-2526

URLhttps://www.scopus.com/inward/record.uri?eid=2-s2.0-85018485283&partnerID=40&md5=4cc8fcd72ac9bdeb6f40230c84ccc1df

ภาษาEnglish-Great Britain (EN-GB)


ดูในเว็บของวิทยาศาสตร์ | บทความในเว็บของวิทยาศาสตร์


บทคัดย่อ

A grid computing system allows a large complex computing task to efficiently utilize high computing resources by splitting the task into many compute processes to be distributed and executed in parallel at many grid nodes. Under such paradigm, the system fault tolerance is the major issue as the failure of one grid node results in the task failure. Most fault tolerance techniques for a grid computing system are based on periodic savings of checkpoint data, which is used to roll back the system to the last good operating state when the failure occurs. In this paper, the fault tolerance technique based on peer-to-peer replication of checkpoint data is designed and analyzed. The idea is to allow chunks of checkpoint data to be replicated at different backup nodes to facilitate faster recovery time in the failure recovery process. The replication time under the peer-to-peer replication procedure is analyzed to obtain proper choices of chunk size and backup group size. A significant reduction in the recovery time compared to the traditional client-server approach is also gained by using the peer-to-peer replication. ฉ 2017, Chiang Mai University. All rights reserved.


คำสำคัญ

Peer-to-peer fault tolerancePeer-to-peer replicationReplication time


อัพเดทล่าสุด 2023-02-10 ถึง 07:35