การแบ่งคำภาษาไทย (Word Segmentation) เป็นขั้นตอนสำคัญที่มีผลต่อความถูกต้องของขั้นตอนการประมวลผลภาษาไทยอื่นๆ เนื่องจากคำในประโยคภาษาไทย จะถูกเขียนติดกันโดยไม่เว้นช่องว่างระหว่างคำ ถ้าการแบ่งคำผิดพลาดจะส่งผลกระทบต่อขั้นตอนอื่นๆ ด้วย วิธีการแบ่งคำที่ถูกนำเสนอในงานวิจัยที่มีมาก่อนสามารถแบ่งออกได้เป็น 2 กลุ่มใหญ่ คือ กลุ่มที่ใช้พจนานุกรม (Dictionary based) และกลุ่มที่ใช้หลักการอิงสถิติ (Statistically based) ปัญหาที่เกิดขึ้นกับวิธีการแบ่งคำทั้งสองวิธีคือ ปัญหาความกำกวมของการแบ่งคำ และการที่ไม่พบคำดังกล่าวในพจนานุกรม ผู้พัฒนาได้พัฒนาโปรแกรมตัดคำแบบสนใจบริบทโดยอาศัยหลักการผสมผสานระหว่างการใช้พจนานุกรมและหลักการสถิติซึ่งให้ความสำคัญกับคำบริบท โดยประโยคที่นำเข้ามาในระบบจะถูกแบ่งคำโดยพจนุกรมเพื่อหารูปแบบการแบ่งคำที่เป็นไปได้ทั้งหมด และใช้วิธีการเรียนรู้ด้วยวิธีการทางสถิติมาเลือกรูปแบบที่เป็นไปได้มากที่สุด วิธีการเรียนรู้ด้วยวิธีการทางสถิติจะถูกฝึกฝนด้วยข้อความจากคลังข้อความที่มีการแบ่งคำไว้ก่อนแล้ว (Annotated Corpus) จากการการทดสอบโปรแกรมพบว่าสามารถแบ่งคำได้ค่าความถูกต้อง 92.59% ที่ความเร็วไม่ต่ำกว่า 3,500 คำต่อวินาที Thai word segmentation is an important phase that effect to Thai data processing because word in Thai have been write contiguously. A word segmentation method in research can divided into two group dictionary based and statistically based but the problems happen in that two groups is cryptic or cloudy word segmentation. Our team develops Thai word segmentation application that focuses in context using dictionary and statistically. The sentence that input to the system will be divided by dictionary for finding sample space of word segmentation and use statistic for choose the most possible pattern. This method will be trained by use annotated corpus. From test result of our application average percent correctness is 92.59% and speed is not below than 3,500 words per second.
สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี (สสวท.) กระทรวงศึกษาธิการ เป็นหน่วยงานของรัฐที่ไม่แสวงหากำไร ได้จัดทำเว็บไซต์คลังความรู้ SciMath เพื่อส่งเสริมการสอนวิทยาศาสตร์ คณิตศาสตร์และเทคโนโลยีทุกระดับการศึกษา โดยเน้นการศึกษาขั้นพื้นฐานเป็นหลัก หากท่านพบว่ามีข้อมูลหรือเนื้อหาใด ๆ ที่ละเมิดทรัพย์สินทางปัญญาปรากฏอยู่ในเว็บไซต์ โปรดแจ้งให้ทราบเพื่อดำเนินการแก้ปัญหาดังกล่าวโดยเร็วที่สุด
The Institute for the Promotion of Teaching Science and Technology (IPST), Ministry of Education, a non-profit organization under the Thai government, developed SciMath as a website that provides educational resources in Science, Mathematics and Technology. IPST invites visitors to use its online resources for personal, educational and other non-commercial purpose. If there are any problems, please contact us immediately.
Copyright © 2018 SCIMATH :: คลังความรู้ SciMath. Terms and Conditions. Privacy. , All Rights Reserved.
อีเมล: This email address is being protected from spambots. You need JavaScript enabled to view it. (ให้บริการในวันและเวลาราชการเท่านั้น)