การคัดเลือกข้อมูลสำหรับโดเมนใกล้เคียงในงาน Pretraining แบบต่อเนื่องในสาขาการแพทย์: กรณีศึกษาเกี่ยวกับการคัดเลือกข้อมูลด้วยวิธี Importance Resampling (DSIR)

Conference proceedings article


ผู้เขียน/บรรณาธิการ


กลุ่มสาขาการวิจัยเชิงกลยุทธ์


รายละเอียดสำหรับงานพิมพ์

รายชื่อผู้แต่งChatiyar Ardchon, Can Udomcharoenchaikit, Nonthakit Chaiwong, Paisit Khanarsa

ปีที่เผยแพร่ (ค.ศ.)2025

URLhttps://link.springer.com/chapter/10.1007/978-981-96-6400-9_6


ดูบนเว็บไซต์ของสำนักพิมพ์


บทคัดย่อ

การทำ Pretraining แบบต่อเนื่องสำหรับงานที่มีลักษณะเฉพาะในโดเมน (Domain-Specific Tasks) เผชิญกับความท้าทายด้านการประมวลผลสูง โดยเฉพาะเมื่อต้องจัดการกับข้อมูลที่ไม่มีป้ายกำกับ (Unlabeled Data) และข้อมูลจากโดเมนที่มีความใกล้เคียงกัน การระบุและจัดลำดับความสำคัญของข้อมูลที่สามารถสนับสนุนการเรียนรู้รูปแบบภาษาเฉพาะโดเมนได้อย่างมีประสิทธิภาพยังคงเป็นภารกิจที่ซับซ้อน งานวิจัยนี้นำเสนอการศึกษาเชิงกรณี (Case Study) เกี่ยวกับการคัดเลือกข้อมูลด้วยวิธี Data Selection via Importance Resampling (DSIR) โดยใช้การแจกแจงแบบ n-gram เพื่อปรับปรุงประสิทธิภาพและลดเวลาเมื่อเทียบกับวิธีคัดเลือกข้อมูลที่มีอยู่ ผลการทดลองแสดงให้เห็นว่า DSIR สามารถคัดเลือกข้อมูลทางคลินิกจากฐานข้อมูล PubMed ซึ่งครอบคลุมหัวข้อในโดเมนใกล้เคียง เช่น วิทยาศาสตร์ชีวโมเลกุล จริยธรรมทางการแพทย์ และกระบวนการทางการแพทย์ การคัดเลือกดังกล่าวช่วยเพิ่มประสิทธิภาพในงานจำแนกโรคตามรหัส ICD-10 ซึ่งเป็นงานที่มีความซับซ้อน โดยมีค่าตัวชี้วัด Micro F1 และ Precision@8 เพิ่มขึ้นประมาณ 5.17% และ 3.71% ตามลำดับเมื่อเทียบกับการคัดเลือกแบบสุ่ม นอกจากนี้ ผลการศึกษาเน้นย้ำว่า ค่า KL Divergence ของข้อมูลที่ถูกเลือกมีความสัมพันธ์อย่างมากกับประสิทธิภาพในงานปลายทาง ซึ่งอาจใช้เป็นตัวบ่งชี้เบื้องต้นสำหรับการประเมินคุณภาพการคัดเลือกข้อมูลในงาน Pretraining แบบต่อเนื่องได้.


คำสำคัญ

ไม่พบข้อมูลที่เกี่ยวข้อง


อัพเดทล่าสุด 2025-28-08 ถึง 00:00