การคัดเลือกข้อมูลสำหรับโดเมนใกล้เคียงในงาน Pretraining แบบต่อเนื่องในสาขาการแพทย์: กรณีศึกษาเกี่ยวกับการคัดเลือกข้อมูลด้วยวิธี Importance Resampling (DSIR)

Conference proceedings article

ผู้เขียน/บรรณาธิการ

ไพสิฐ ขันอาสา

กลุ่มสาขาการวิจัยเชิงกลยุทธ์

การเปลี่ยนแปลงด้วยเทคโนโลยีดิจิตอล (รูปแบบการวิจัยเชิงกลยุทธ์)

รายละเอียดสำหรับงานพิมพ์

รายชื่อผู้แต่ง: Chatiyar Ardchon, Can Udomcharoenchaikit, Nonthakit Chaiwong, Paisit Khanarsa

ปีที่เผยแพร่ (ค.ศ.): 2025

URL: https://link.springer.com/chapter/10.1007/978-981-96-6400-9_6

ดูบนเว็บไซต์ของสำนักพิมพ์

บทคัดย่อ

การทำ Pretraining แบบต่อเนื่องสำหรับงานที่มีลักษณะเฉพาะในโดเมน (Domain-Specific Tasks) เผชิญกับความท้าทายด้านการประมวลผลสูง โดยเฉพาะเมื่อต้องจัดการกับข้อมูลที่ไม่มีป้ายกำกับ (Unlabeled Data) และข้อมูลจากโดเมนที่มีความใกล้เคียงกัน การระบุและจัดลำดับความสำคัญของข้อมูลที่สามารถสนับสนุนการเรียนรู้รูปแบบภาษาเฉพาะโดเมนได้อย่างมีประสิทธิภาพยังคงเป็นภารกิจที่ซับซ้อน งานวิจัยนี้นำเสนอการศึกษาเชิงกรณี (Case Study) เกี่ยวกับการคัดเลือกข้อมูลด้วยวิธี Data Selection via Importance Resampling (DSIR) โดยใช้การแจกแจงแบบ n-gram เพื่อปรับปรุงประสิทธิภาพและลดเวลาเมื่อเทียบกับวิธีคัดเลือกข้อมูลที่มีอยู่ ผลการทดลองแสดงให้เห็นว่า DSIR สามารถคัดเลือกข้อมูลทางคลินิกจากฐานข้อมูล PubMed ซึ่งครอบคลุมหัวข้อในโดเมนใกล้เคียง เช่น วิทยาศาสตร์ชีวโมเลกุล จริยธรรมทางการแพทย์ และกระบวนการทางการแพทย์ การคัดเลือกดังกล่าวช่วยเพิ่มประสิทธิภาพในงานจำแนกโรคตามรหัส ICD-10 ซึ่งเป็นงานที่มีความซับซ้อน โดยมีค่าตัวชี้วัด Micro F1 และ Precision@8 เพิ่มขึ้นประมาณ 5.17% และ 3.71% ตามลำดับเมื่อเทียบกับการคัดเลือกแบบสุ่ม นอกจากนี้ ผลการศึกษาเน้นย้ำว่า ค่า KL Divergence ของข้อมูลที่ถูกเลือกมีความสัมพันธ์อย่างมากกับประสิทธิภาพในงานปลายทาง ซึ่งอาจใช้เป็นตัวบ่งชี้เบื้องต้นสำหรับการประเมินคุณภาพการคัดเลือกข้อมูลในงาน Pretraining แบบต่อเนื่องได้.

คำสำคัญ

ไม่พบข้อมูลที่เกี่ยวข้อง

ผู้เขียน/บรรณาธิการ

กลุ่มสาขาการวิจัยเชิงกลยุทธ์

รายละเอียดสำหรับงานพิมพ์

บทคัดย่อ

คำสำคัญ

ข้อความร้องขอ

ความปลอดภัยเกี่ยวกับการใช้ Cookies