MELODY RETRIEVAI SYSTEM
เนื่องจาก ในปัจจุบันการเก็บข้อมูลเกี่ยวกับเพลงด้วยสื่ออิเล็กทรอนิกส์กำลังได้รับความนิยมเป็นอันมาก จึงควรมีระบบที่จะช่วยค้นหาข้อมูลเหล่านั้นได้ง่ายและสะดวกยิ่งขึ้น โครงงานนี้ได้จัดทำขึ้นเพื่อศึกษาวิจัยและสร้างระบบการค้นหาข้อมูลเชิงเสียงเพลง อันประกอบด้วยสองส่วนคือ 1) เนื้อเพลง และ 2) เสียงเพลง เป้าหมายสูงสุดของโครงงานนี้คือการสร้างระบบที่สามารถค้นหาข้อมูลได้ใน 4 ลักษณะคือ 1) ค้นหาเนื้อเพลงด้วยเนื้อเพลง 2) และค้นหาเสียงเพลงด้วยเสียงเพลง 3) ค้นหาเนื้อเพลงด้วยเสียงเพลงและ 4) ค้นหาเสียงเพลงด้วยเนื้อเพลง โดยในการค้นหาทุกแบบจะต้องมีความสามารถในการวิเคราะห์ความคล้ายกันของข้อมูลได้ (ยอมให้ข้อมูลที่ค้นหามีความผิดพลาดได้เล็กน้อย ไม่จำเป็นต้องเหมือนกันทุกประการ) และที่สำคัญคือต้องสามารถรองรับภาษาไทย อย่างไรก็ตาม เนื่องด้วยระยะเวลาอันจำกัดผู้วิจัยจึงกำหนดขอบเขตของโครงงานนี้อยู่ที่การศึกษาระบบดังกล่าวในเบื้องต้น กล่าวคือจะมุ่งศึกษาแต่เพียงส่วนของเนื้อเพลง และการค้นหาข้อมูลเนื้อเพลงในเนื้อเพลงเท่านั้น ผู้วิจัยได้ตระหนักดีถึงความสำคัญของภาษาไทย ในการศึกษาระบบการค้นหาเนื้อเพลงดังกล่าว จึงคำนึงถึงลักษณะพิเศษและปัญหาต่างๆ ของภาษาไทยเป็นสำคัญ หัวข้อที่ทำการศึกษาไปบ้างแล้วได้แก่ 1) การตัดคำภาษาไทย 2) คำพ้องเสียงภาษาไทย ทั้งนี้เพราะผู้วิจัยเห็นว่า 2 ส่วนดังกล่าวถือเป็นส่วนสำคัญของเรื่องนี้ กล่าวคือการจดจำเนื้อเพลงของมนุษย์นั้นมักจดจำจากการฟังเสียงเพลง ซึ่งข้อมูลที่จำได้อาจไม่ใช่ข้อมูลที่แท้จริง แต่การออกเสียงของข้อมูลนั้นก็ต้องพ้องหรือใกล้เคียงกับข้อมูลจริงและการตรวจสอบคำพ้องเสียงนั้นจะทำได้ยากหากไม่ระบบอีกระบบหนึ่งมาช่วยในการตัดคำ ดังนั้นผู้วิจัยจึงเห็นว่าควรศึกษาในเรื่องทั้งสองไปด้วยกัน ก่อนที่จะทำการศึกษาในส่วนอื่นต่อไป ในส่วนของการตัดคำ ผู้วิจัยได้ทดลองสร้างโปรแกรมที่สามารถัดคำภาษาไทยได้ในเบื้องต้นคือสามารถตัดคำในประโยคสั้นๆได้ โดยใช้เทคนิคของ Digital Tree (ต้นไม้เชิงหลัก) ในการเก็บข้อมูลของพจนานุกรม และเทคนิค Backtracking (การย้อนรอย) ในการตัดคำทุกรูปแบบที่เป็นไปได้ ข้อจำกัดของโปรแกรมตัดคำที่สร้างขึ้นนี้คือ 1) คำทุกคำในประโยคจะต้องมีอยู่ในพจนานุกรม และ 2) การตัดคำยังไม่คำนึงถึงความหมายและความหมายและความถูกต้องทางไวยากรณ์ ในเรื่องของคำพ้องเสียง ผู้วิจัยได้คิดวิธีที่จะสามารถสร้างรหัสการออกเสียง (Soundex Code) สำหรับคำในภาษาไทย โดยใช้เทคนิค Backtracking (การย้อนรอย) ในการค้นหาขอบเขตของพยางค์ แล้วแปลงพยางค์โดดที่ได้เป็นรหัสการออกเสียงโดยใช้กฎการออกเสียงพยางค์ตามหลักไวยากรณ์ไทย สำหรับรหัสการออกเสียงนั้นผู้วิจัยได้ใช้รหัสในรูปแบบเดียวกับระบบของ [Thep97] ซึ่งมีข้อดีคือสามารถจัดกลุ่มคำที่มีการออกเสียงคล้ายกันไว้ด้วยกันได้ โดยไม่คำนึงถึงเสียงวรรณยุกต์และเสียงควบกล้ำระบบที่ผู้วิจัยได้พัฒนาขึ้นขึ้นนั้นให้ผลที่น่าพอใจในระดับหนึ่ง อย่างไรก็ดียังคงมีข้อจำกัดบางประการ คือ 1) ยังไม่รองรับกฎการออกเสียงบางกฎที่ค่อนข้างซับซ้อน รวมถึงกรณีของคำยกเว้นบางคำ 2) ยังทำงานได้ไม่รวดเร็วเท่าที่ควร และ 3) การสร้างกฎการออกเสียงเพิ่มเติมกระทำได้ไม่สะดวกนัก เพราะผู้วิจัยได้ออกแบบกฎลงไปในรหัสต้นแบบ ( Source Code) ของโปรแกรม มิได้แยกออกมาไว้ต่างหาก ระบบการค้นหาข้อมูลเชิงเสียงนั้นถือว่าเป็นระบบที่น่าสนใจอย่างยิ่งต่อการศึกษาวิจัยและมีประโยชน์มากเพราะสามารถนำไปใช้ได้จริง ในโครงงานนี้ผู้วิจัยเพียงแต่ได้ศึกษาส่วนของการค้นหาข้อมูลเนื้อเพลงในเบื้องต้นเท่านั้น (เพียงแค่การตัดคำและการตรวจสอบคำพ้องเสียง) แต่ในอนาคตนั้นควรมีการพัฒนาต่อไปทั้งในส่วนที่ได้ศึกษาแล้วรวมทั้งส่วนอื่นๆ (โดยเฉพาะเทคโนโลยีที่เกี่ยวกับภาษาไทย และเทคโนโลยีเกี่ยวกับเสียงเพลง) เพื่อให้บรรลุเป้าหมายสูงสุดของโครงงานดังที่ได้กล่าวแล้วในตอนต้นต่อไป
-
4878 MELODY RETRIEVAI SYSTEM /project-physics/item/4878-melody-retrievai-systemเพิ่มในรายการโปรด