Quality Evaluation Gap: Real-World Quality vs. Automated Metrics for LLM-Driven Machine Translation
Author: Wanitcha Sumanat, president of the Southeast Asian Association of Professional Translators and Interpreters
14 August 2025, Bangkok – Large Language Models (LLMs) have transformed the capabilities of Machine Translation (MT), producing more fluent and contextually nuanced outputs compared to traditional neural systems. However, evaluating the quality of LLM-driven MT remains challenging due to a disparity between real-world quality—as perceived and required by end users—and automated evaluation metrics such as COMET. This article analyzes the causes of this quality evaluation gap, examines its implications for production environments, and proposes a hybrid evaluation framework that combines automated metrics with human judgment.
Keywords: machine translation, large language models, COMET, evaluation metrics, production pipelines
Introduction
With the emergence of LLM-based MT systems, translation quality evaluation has become both more important and more complex. Automated metrics such as COMET (Rei et al., 2020) offer rapid, low-cost scoring but cannot consistently reflect actual usability, especially in specialized or high-risk applications. This gap—between automated evaluation and end-user satisfaction—presents both operational and ethical challenges in MT deployment.
Causes of the Quality Evaluation Gap
Divergent Definitions of Quality
Real-world quality encompasses semantic accuracy, fluency, cultural nuance, register, and task appropriateness (Specia et al., 2018). In contrast, COMET often assesses sentence-level semantic similarity with reference translations, potentially overlooking communicative success or brand identity preservation.
Domain and Context Mismatch
COMET is trained primarily on general-domain datasets. In specialized contexts such as legal or medical translation, terminology precision and pragmatic adequacy are paramount (Cadwell et al., 2022), yet these may not strongly correlate with metric scores.
Hallucinations and Overgeneration
LLMs can produce fluent but factually incorrect translations—errors that automated metrics may fail to penalize adequately if the surface semantics appear plausible.
Stylistic and Register Constraints
Metrics rarely capture tone, formality, or stylistic appropriateness, which are critical in marketing, diplomacy, and brand-sensitive communication.
Implications for Production Pipelines
Strengths and Weaknesses of Automated Metrics
COMET is effective for relative performance tracking, regression detection, and broad system comparisons, but less reliable for absolute quality judgments in contexts where translation errors have significant consequences.
When to Trust Automated Metrics vs. Human Judgment
Scenario | Automated Metric | Human Review |
---|---|---|
High-volume, general-domain content | ✅ | ⚠ Spot-check only |
Low-volume, high-risk domains (e.g., legal, medical) | ❌ | ✅ Full review |
Model development & debugging | ✅ | ⚠ Targeted review |
Brand/style compliance | ❌ | ✅ Brand-trained reviewers |
Bridging the Gap: A Hybrid Evaluation Framework
- Tiered Evaluation: Use COMET for broad-scale scoring and conduct human evaluation for high-priority segments.
- Domain Adaptation: Fine-tune COMET with in-domain human evaluation data.
- Dynamic Thresholding: Adjust COMET score thresholds based on observed correlation with human ratings.
- Trigger-Based Escalation: Route translations for human review if COMET scores fall below threshold or metadata signals risk.
- Continuous Calibration: Regularly measure the correlation between metric scores and human evaluations to prevent quality degradation.
Conclusion
LLM-based MT systems require evaluation approaches that go beyond single automated metrics. While COMET and similar models are valuable for scalable, relative comparisons, they must be calibrated and complemented by human evaluation in contexts where quality failures can have serious consequences. Adopting a hybrid evaluation strategy can help organizations balance efficiency with the nuanced quality demands of real-world translation use cases.
References
- Cadwell, P., Moorkens, J., & O’Brien, S. (2022). Domain-specific machine translation evaluation: Challenges and opportunities. Machine Translation, 36(1), 1–25. https://doi.org/10.1007/s10590-021-09310-7
- Rei, R., Farinha, A. C., Lavie, A., & Specia, L. (2020). COMET: A neural framework for MT evaluation. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2685–2702. https://doi.org/10.18653/v1/2020.emnlp-main.213
- Specia, L., Raj, D., & Turchi, M. (2018). Machine translation evaluation. In J. Tiedemann (Ed.), The Handbook of Machine Translation (pp. 329–362). Springer. https://doi.org/10.1007/978-3-319-77113-7_12
About Certified Translators, Translation Certification Providers, and Certified Interpreters of SEAProTI
The Southeast Asian Association of Professional Translators and Interpreters (SEAProTI) has published the criteria and qualifications for registering as “Certified Translators,” “Translation Certification Providers,” and “Certified Interpreters” of the Association under Sections 9 and 10 of the Royal Gazette, Secretariat of the Cabinet, Prime Minister’s Office, Kingdom of Thailand, dated 25 July 2024, Vol. 141, Part 66 Ng, p. 100. Full text available at: The Royal Thai Government Gazette
SEAProTI is the first professional association in Thailand and Southeast Asia with a formal certification system for Certified Translators, Translation Certification Providers, and Certified Interpreters.
Head Office: Baan Ratchakhru Building, No. 33, Room 402, Soi Phahonyothin 5, Phahonyothin Road, Phaya Thai Subdistrict, Phaya Thai District, Bangkok 10400, Thailand.
Email: hello@seaproti.com Tel: (+66) 2-114-3128 (Office hours: Mon–Fri, 9:00–17:00)
ช่องว่างในการประเมินคุณภาพ: คุณภาพจริง vs. ค่าชี้วัดอัตโนมัติสำหรับการแปลภาษาด้วย LLM
ผู้เขียน วณิชชา สุมานัส นายกสมาคมวิชาชีพนักแปลและล่ามแห่งเอเชียตะวันออกเฉียงใต้
14 สิงหาคม 2568, กรุงเทพมหานคร – โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ได้เปลี่ยนโฉมความสามารถของระบบแปลภาษา (Machine Translation: MT) ให้มีความลื่นไหลและมีความละเอียดทางบริบทมากขึ้นเมื่อเทียบกับระบบประสาทเทียมแบบเดิม อย่างไรก็ตาม การประเมินคุณภาพของการแปลภาษาที่ขับเคลื่อนด้วย LLM ยังคงเป็นความท้าทาย เนื่องจากมีความแตกต่างระหว่าง คุณภาพจริง ตามที่ผู้ใช้ปลายทางรับรู้และต้องการ กับ ค่าชี้วัดอัตโนมัติ เช่น COMET บทความนี้วิเคราะห์สาเหตุของช่องว่างในการประเมินคุณภาพ ผลกระทบต่อการใช้งานในสภาพแวดล้อมการผลิต และนำเสนอกรอบการประเมินแบบผสมผสานที่รวมค่าชี้วัดอัตโนมัติเข้ากับการประเมินโดยมนุษย์
คำสำคัญ: การแปลภาษาโดยเครื่อง, โมเดลภาษาขนาดใหญ่, COMET, ค่าชี้วัดการประเมิน, กระบวนการผลิต
บทนำ
ด้วยการมาของระบบแปลภาษาที่ใช้ LLM การประเมินคุณภาพการแปลจึงมีความสำคัญและซับซ้อนมากขึ้น ค่าชี้วัดอัตโนมัติ เช่น COMET (Rei et al., 2020) สามารถให้คะแนนได้อย่างรวดเร็วและมีต้นทุนต่ำ แต่ไม่สามารถสะท้อนความสามารถในการใช้งานจริงได้อย่างสม่ำเสมอ โดยเฉพาะในงานเฉพาะทางหรือที่มีความเสี่ยงสูง ช่องว่างระหว่างการประเมินอัตโนมัติและความพึงพอใจของผู้ใช้ปลายทางก่อให้เกิดทั้งปัญหาด้านการปฏิบัติและจริยธรรมในการนำระบบแปลไปใช้
สาเหตุของช่องว่างในการประเมินคุณภาพ
นิยามของคุณภาพที่แตกต่างกัน
คุณภาพจริงครอบคลุมถึงความถูกต้องของความหมาย ความลื่นไหล ความละเอียดทางวัฒนธรรม ระดับภาษาที่เหมาะสม และความสอดคล้องกับงาน (Specia et al., 2018) ในขณะที่ COMET มักประเมินจากความใกล้เคียงทางความหมายในระดับประโยคกับคำแปลอ้างอิง ซึ่งอาจมองข้ามความสำเร็จในการสื่อสารหรือการคงเอกลักษณ์ของแบรนด์
ความไม่สอดคล้องด้านโดเมนและบริบท
COMET ได้รับการฝึกจากข้อมูลทั่วไป ในงานเฉพาะทาง เช่น การแปลด้านกฎหมายหรือการแพทย์ ความแม่นยำของคำศัพท์และความเหมาะสมทางปฏิบัติถือว่าสำคัญสูงสุด (Cadwell et al., 2022) ซึ่งอาจไม่สัมพันธ์โดยตรงกับคะแนนที่ได้จากค่าชี้วัด
ปัญหาการสร้างข้อมูลเท็จและการผลิตข้อความเกินจำเป็น
LLM สามารถสร้างคำแปลที่ลื่นไหลแต่ไม่ถูกต้องเชิงข้อเท็จจริงได้ ค่าชี้วัดอัตโนมัติอาจไม่ลงโทษความผิดพลาดลักษณะนี้เพียงพอ หากโครงสร้างทางความหมายยังดูสมเหตุสมผล
ข้อจำกัดด้านสไตล์และระดับภาษา
ค่าชี้วัดไม่ค่อยสามารถจับลักษณะโทนเสียง ความเป็นทางการ หรือความเหมาะสมเชิงสไตล์ ซึ่งมีความสำคัญในงานด้านการตลาด การทูต และการสื่อสารที่ต้องรักษาภาพลักษณ์ขององค์กร
ผลกระทบต่อกระบวนการผลิต
จุดแข็งและจุดอ่อนของค่าชี้วัดอัตโนมัติ
COMET เหมาะสำหรับการติดตามประสิทธิภาพเชิง เปรียบเทียบ การตรวจสอบการถดถอยของคุณภาพ และการเปรียบเทียบระบบในวงกว้าง แต่ไม่เหมาะสำหรับการตัดสินคุณภาพเชิง สัมบูรณ์ ในบริบทที่ความผิดพลาดส่งผลร้ายแรง
เมื่อใดควรเชื่อค่าชี้วัดอัตโนมัติ vs. การประเมินโดยมนุษย์
สถานการณ์ | ค่าชี้วัดอัตโนมัติ | การประเมินโดยมนุษย์ |
---|---|---|
เนื้อหาปริมาณมาก โดเมนทั่วไป | ✅ | ⚠ ตรวจตัวอย่างบางส่วน |
เนื้อหาปริมาณน้อย ความเสี่ยงสูง (กฎหมาย, การแพทย์) | ❌ | ✅ ตรวจโดยละเอียด |
การพัฒนาและดีบักโมเดล | ✅ | ⚠ ตรวจเฉพาะจุด |
ความสอดคล้องด้านแบรนด์/สไตล์ | ❌ | ✅ ผู้ตรวจที่ผ่านการฝึกด้านแบรนด์ |
การลดช่องว่าง: กรอบการประเมินแบบผสมผสาน
- การประเมินหลายระดับ: ใช้ COMET สำหรับการประเมินภาพรวมและทำการประเมินโดยมนุษย์ในบางส่วนที่สำคัญ
- การปรับค่าชี้วัดให้เหมาะกับโดเมน: ปรับแต่ง COMET ด้วยข้อมูลการประเมินจากมนุษย์ในโดเมนเฉพาะ
- การตั้งเกณฑ์แบบไดนามิก: ปรับเกณฑ์คะแนน COMET ตามความสัมพันธ์ที่สังเกตได้กับการประเมินโดยมนุษย์
- การคัดกรองด้วยเงื่อนไข: ส่งงานให้มนุษย์ตรวจหากคะแนน COMET ต่ำกว่าเกณฑ์หรือมีตัวชี้วัดความเสี่ยง
- การปรับเทียบอย่างต่อเนื่อง: ตรวจสอบความสัมพันธ์ระหว่างค่าชี้วัดกับการประเมินโดยมนุษย์อย่างสม่ำเสมอเพื่อป้องกันการเสื่อมคุณภาพ
สรุป
ระบบแปลภาษาที่ใช้ LLM ต้องการแนวทางการประเมินที่เกินกว่าค่าชี้วัดอัตโนมัติแบบเดียว COMET และโมเดลประเมินอื่น ๆ มีประโยชน์ในการเปรียบเทียบเชิงสเกลและเชิงสัมพัทธ์ แต่จำเป็นต้องมีการปรับเทียบและใช้ร่วมกับการประเมินโดยมนุษย์ในบริบทที่ความผิดพลาดมีผลกระทบสูง การใช้กลยุทธ์การประเมินแบบผสมผสานช่วยให้สามารถรักษาสมดุลระหว่างประสิทธิภาพกับความต้องการคุณภาพที่ละเอียดอ่อนในโลกความจริงได้
เอกสารอ้างอิง
- Cadwell, P., Moorkens, J., & O’Brien, S. (2022). Domain-specific machine translation evaluation: Challenges and opportunities. Machine Translation, 36(1), 1–25. https://doi.org/10.1007/s10590-021-09310-7
- Rei, R., Farinha, A. C., Lavie, A., & Specia, L. (2020). COMET: A neural framework for MT evaluation. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2685–2702. https://doi.org/10.18653/v1/2020.emnlp-main.213
- Specia, L., Raj, D., & Turchi, M. (2018). Machine translation evaluation. In J. Tiedemann (Ed.), The Handbook of Machine Translation (pp. 329–362). Springer. https://doi.org/10.1007/978-3-319-77113-7_12
เกี่ยวกับนักแปลรับรอง ผู้รับรองการแปล และล่ามรับรองของสมาคมวิชาชีพนักแปลและล่ามแห่งเอเชียตะวันออกเฉียงใต้
สมาคมวิชาชีพนักแปลและล่ามแห่งเอเชียตะวันออกเฉียงใต้ (SEAProTI) ได้ประกาศหลักเกณฑ์และคุณสมบัติผู้ที่ขึ้นทะเบียนเป็น “นักแปลรับรอง (Certified Translators) และผู้รับรองการแปล (Translation Certification Providers) และล่ามรับรอง (Certified Interpreters)” ของสมาคม หมวดที่ 9 และหมวดที่ 10 ในราชกิจจานุเบกษา ของสำนักเลขาธิการคณะรัฐมนตรี ในสำนักนายกรัฐมนตรี แห่งราชอาณาจักรไทย ลงวันที่ 25 ก.ค. 2567 เล่มที่ 141 ตอนที่ 66 ง หน้า 100 อ่านฉบับเต็มได้ที่: นักแปลรับรอง ผู้รับรองการแปล และล่ามรับรอง
*สมาคมวิชาชีพนักแปลและล่ามแห่งเอเชียตะวันออกเฉียงใต้ เป็นสมาคมวิชาชีพแห่งแรกในประเทศไทยและภูมิภาคเอเชียตะวันออกเฉียงใต้ที่มีระบบรับรองนักแปลรับรอง ผู้รับรองการแปล และล่ามรับรอง
สำนักงานใหญ่: อาคารบ้านราชครู เลขที่ 33 ห้อง 402 ซอยพหลโยธิน 5 ถนนพหลโยธิน แขวงพญาไท เขตพญาไท กรุงเทพมหานคร 10400 อีเมล: hello@seaproti.com โทรศัพท์: (+66) 2-114-3128 (เวลาทำการ: วันจันทร์–วันศุกร์ เวลา 9.00–17.00 น.)