ซีพีเอสเคคัท
การแบ่งคำภาษาไทย (Word Segmentation) เป็นขั้นตอนสำคัญที่มีผลต่อความถูกต้องของขั้นตอนการประมวลผลภาษาไทยอื่นๆ เนื่องจากคำในประโยคภาษาไทย จะถูกเขียนติดกันโดยไม่เว้นช่องว่างระหว่างคำ ถ้าการแบ่งคำผิดพลาดจะส่งผลกระทบต่อขั้นตอนอื่นๆ ด้วย วิธีการแบ่งคำที่ถูกนำเสนอในงานวิจัยที่มีมาก่อนสามารถแบ่งออกได้เป็น 2 กลุ่มใหญ่ คือ กลุ่มที่ใช้พจนานุกรม (Dictionary based) และกลุ่มที่ใช้หลักการอิงสถิติ (Statistically based) ปัญหาที่เกิดขึ้นกับวิธีการแบ่งคำทั้งสองวิธีคือ ปัญหาความกำกวมของการแบ่งคำ และการที่ไม่พบคำดังกล่าวในพจนานุกรม ผู้พัฒนาได้พัฒนาโปรแกรมตัดคำแบบสนใจบริบทโดยอาศัยหลักการผสมผสานระหว่างการใช้พจนานุกรมและหลักการสถิติซึ่งให้ความสำคัญกับคำบริบท โดยประโยคที่นำเข้ามาในระบบจะถูกแบ่งคำโดยพจนุกรมเพื่อหารูปแบบการแบ่งคำที่เป็นไปได้ทั้งหมด และใช้วิธีการเรียนรู้ด้วยวิธีการทางสถิติมาเลือกรูปแบบที่เป็นไปได้มากที่สุด วิธีการเรียนรู้ด้วยวิธีการทางสถิติจะถูกฝึกฝนด้วยข้อความจากคลังข้อความที่มีการแบ่งคำไว้ก่อนแล้ว (Annotated Corpus) จากการการทดสอบโปรแกรมพบว่าสามารถแบ่งคำได้ค่าความถูกต้อง 92.59% ที่ความเร็วไม่ต่ำกว่า 3,500 คำต่อวินาที Thai word segmentation is an important phase that effect to Thai data processing because word in Thai have been write contiguously. A word segmentation method in research can divided into two group dictionary based and statistically based but the problems happen in that two groups is cryptic or cloudy word segmentation. Our team develops Thai word segmentation application that focuses in context using dictionary and statistically. The sentence that input to the system will be divided by dictionary for finding sample space of word segmentation and use statistic for choose the most possible pattern. This method will be trained by use annotated corpus. From test result of our application average percent correctness is 92.59% and speed is not below than 3,500 words per second.
-
6475 ซีพีเอสเคคัท /project-physics/item/6475-2016-09-09-03-51-08-6475เพิ่มในรายการโปรด