การแก้ไขคำผิดในภาษาไทย
ในปัจจุบันคอมพิวเตอร์ได้เข้ามามีบทบาทในการทำงานค่อนข้างมาก โดยเฉพาะอย่างยิ่งในการพิมพ์เอกสารต่าง ๆ ดังนั้นการตรวจสอบแก้ไขคำผิดที่พบในเอกสารจึงเป็นสิ่งหนึ่งที่มีความจำเป็น ซึ่งจะช่วยให้การใช้งานภาษาไทยบนเครื่องคอมพิวเตอร์มีประสิทธิภาพมากขึ้น โครงสร้างและลักษณะเฉพาะของภาษาเป็นปัจจัยที่สำคัญประการหนึ่ง ทำให้ลักษณะของคำผิดในแต่ละภาษาที่มีลักษณะเฉพาะแตกต่างกันไป ซึ่งจะมีผลอย่างมากต่อวิธีการที่ใช้ในการเขียนคำผิด ภาษาไทยจัดได้เป็นภาษาหนึ่งที่มีลักษณะเฉพาะที่เป็นเอกลักษณะแตกต่างจากภาษาอื่น ๆ โครงการนี้จึงมีจุดประสงค์ที่จะศึกษาและพัฒนาวิธีการในการแก้ไขคำผิดภาษาไทยที่มีความเหมาะสมกับลักษณะเฉพาะของภาษาไทย ลักษณะที่สำคัญประการหนึ่งของภาษาไทยคือการไม่มีเครื่องหมายแบ่งคำที่ชัดเจน ทำให้เราไม่สามารถระบุขอบเขตที่ชัดเจนของคำที่ผิดได้ แนวทางในการแก้ไขมีความยุ่งยาก ซับซ้อนและใช้เวลานาน ในโครงงานนี้จึงได้เสนอวิธีการแก้ไขคำผิด โดยการหาขอบเขตคำที่ผิดอย่างคร่าว ๆ และทำการแก้ไขเฉพาะในขอบเขตนั้น ทำให้สามารถลดความซับซ้อนในการทำงานลงได้มาก และยังคงมีความถูกต้องเท่าเดิม ในโครงงานนี้ได้ศึกษาคำผิดที่เกิดจากสาเหต่าง ๆ 3 กรณีคือ คำผิดที่เกิดจากการสะกดผิด คำผิดที่เกิดจากการพิมพ์ผิด และคำผิดที่เกิดจากโปรแกรมโอซีอาร์ภาษาไทย ซึ่งคำผิดที่เกิดจากสาเหตุต่างกัน จะมีลักษณะเฉพาะที่แตกต่างกันออกไป คำผิดที่เกิดจากการสะกดผิด มักเป็นคำที่มีเสียงที่เหมือนหรือคล้ายกับคำที่ถูก จึงได้มีการนำเอาระบบ SOUNDEX ซึ่งเป็นระบบสืบค้นคำตามเสียงอ่านมาช่วยในการแก้ไข คำที่เกิดจากการพิมพ์ผิด ตัวอักษรที่ผิดมักเป็นตัวอักษรที่ใกล้เคียงกันบนแป้นพิมพ์ การแก้ไขจึงต้องคำนึงถึงลักษณะของการวางตัวอักษรบนแป้นพิมพ์ ประกอบด้วย สำหรับคำผิดที่เกิดจากโปรแกรมโอซีอาร์ภาษาไทย ซึ่งเป็นโปรแกรมที่ใช้แปลงแฟ้มข้อมูลรูปภาพของตัวอักษร ให้เป็นแฟ้มข้อมูลชนิดข้อความ (text file) มักจะเกิดจากการที่โปรแกรมแปลงภาพตัวอักษรผิดเป็นตัวอักษรที่มีลักษณะคล้ายคลึงกัน หรือโปรแกรมไม่สามารถรู้จำตัวอักษรในระดับบนหรือระดับล่างได้ เนื่องจากเกิดการซ้อนทับของตัวอักษรที่เขียนคร่อม 2 ระดับ เช่น ป หรือ ฏ จำได้มีการกำหนดความใกล้เคียงระหว่างคำค้นมาใหม่ โดยให้คำที่ต่างกันที่ตัวอักษรระดับบนหรือระดับล่าง มีความใกล้เคียงกันมากกว่าความแตกต่างกรณีอื่น ๆ ในการแก้ไขคำผิด นอกจากลักษณะของคำผิดที่ได้กล่าวขึ้นข้างต้นแล้ว ยังต้องใช้ข้อมูลทางภาษาเข้ามาช่วยเลือกคำที่ถูกต้องด้วย โดยในโครงการนี้ได้นำเอาจำลองทางภาษา และค่าสถิติของคำและประเภทของคำในภาษาไทย มาช่วยในการเลือกคำและประโยคที่ถูกต้อง จากผลการทดลองแก้ไขคำผิดประเภทต่าง ๆ ตามวิธีการที่ได้เสนอไปนั้น พบว่ามีความเหมาะสมกับลักษณะของภาษาไทย สามารถแก้ไขคำผิดได้อย่างมีประสิทธิภาพ และลดความซับซ้อนของโปรแกรมแก้ไขคำผิดลงได้
-
4910 การแก้ไขคำผิดในภาษาไทย /project-biology/item/4910-2016-09-09-03-24-58_4910เพิ่มในรายการโปรด