การคัดเลือกข้อมูลสำหรับโดเมนใกล้เคียงในงาน Pretraining แบบต่อเนื่องในสาขาการแพทย์: กรณีศึกษาเกี่ยวกับการคัดเลือกข้อมูลด้วยวิธี Importance Resampling (DSIR)
Conference proceedings article
ผู้เขียน/บรรณาธิการ
กลุ่มสาขาการวิจัยเชิงกลยุทธ์
รายละเอียดสำหรับงานพิมพ์
รายชื่อผู้แต่ง: Chatiyar Ardchon, Can Udomcharoenchaikit, Nonthakit Chaiwong, Paisit Khanarsa
ปีที่เผยแพร่ (ค.ศ.): 2025
URL: https://link.springer.com/chapter/10.1007/978-981-96-6400-9_6
บทคัดย่อ
การทำ Pretraining แบบต่อเนื่องสำหรับงานที่มีลักษณะเฉพาะในโดเมน (Domain-Specific Tasks) เผชิญกับความท้าทายด้านการประมวลผลสูง โดยเฉพาะเมื่อต้องจัดการกับข้อมูลที่ไม่มีป้ายกำกับ (Unlabeled Data) และข้อมูลจากโดเมนที่มีความใกล้เคียงกัน การระบุและจัดลำดับความสำคัญของข้อมูลที่สามารถสนับสนุนการเรียนรู้รูปแบบภาษาเฉพาะโดเมนได้อย่างมีประสิทธิภาพยังคงเป็นภารกิจที่ซับซ้อน งานวิจัยนี้นำเสนอการศึกษาเชิงกรณี (Case Study) เกี่ยวกับการคัดเลือกข้อมูลด้วยวิธี Data Selection via Importance Resampling (DSIR) โดยใช้การแจกแจงแบบ n-gram เพื่อปรับปรุงประสิทธิภาพและลดเวลาเมื่อเทียบกับวิธีคัดเลือกข้อมูลที่มีอยู่ ผลการทดลองแสดงให้เห็นว่า DSIR สามารถคัดเลือกข้อมูลทางคลินิกจากฐานข้อมูล PubMed ซึ่งครอบคลุมหัวข้อในโดเมนใกล้เคียง เช่น วิทยาศาสตร์ชีวโมเลกุล จริยธรรมทางการแพทย์ และกระบวนการทางการแพทย์ การคัดเลือกดังกล่าวช่วยเพิ่มประสิทธิภาพในงานจำแนกโรคตามรหัส ICD-10 ซึ่งเป็นงานที่มีความซับซ้อน โดยมีค่าตัวชี้วัด Micro F1 และ Precision@8 เพิ่มขึ้นประมาณ 5.17% และ 3.71% ตามลำดับเมื่อเทียบกับการคัดเลือกแบบสุ่ม นอกจากนี้ ผลการศึกษาเน้นย้ำว่า ค่า KL Divergence ของข้อมูลที่ถูกเลือกมีความสัมพันธ์อย่างมากกับประสิทธิภาพในงานปลายทาง ซึ่งอาจใช้เป็นตัวบ่งชี้เบื้องต้นสำหรับการประเมินคุณภาพการคัดเลือกข้อมูลในงาน Pretraining แบบต่อเนื่องได้.
คำสำคัญ
ไม่พบข้อมูลที่เกี่ยวข้อง