Big data อภิมหาข้อมูล ไม่ได้ใหญ่ แค่ชื่อ!
Big data อภิมหาข้อมูล ไม่ได้ใหญ่ แค่ชื่อ!
ในปัจจุบัน ดูเหมือนว่าในวงการผู้คนแวดวงเทคโนโลยีจะใช้คำว่า “Big data” กันอย่างคุ้นหู ซึ่งเป็นสิ่งสะท้อนให้เห็นว่า Big data ได้กลายมาเป็นอีกสิ่งหนึ่งที่ได้รับความนิยมอย่างมาก หรือกลายเป็นคำทางการตลาดไปแล้วนั้นเอง
แต่ “Big data” คืออะไร? แล้วมันแตกต่างจาก “data” เฉยๆ ตรงไหน ???
Big data มีความหมายตรงตัว นั้นคือ “ข้อมูลขนาดใหญ่” หรือ “ข้อมูลปริมาณมาก” นั้นเอง ซึ่งโดยส่วนมากขั้นต่ำๆก็จะคุยกันในระดับ Tera Byte (TB) หรือระดับ Peta Byte (PB) ( 1 PB = 1,000 TB) นั่นเอง ซึ่งสาเหตุง่ายๆนั้นก็เกิดมาจากชีวิตของผู้คนในปัจจุบันคือชีวิตแบบ “ชีวิตติดเน็ต” หรือพูดอีกอย่างคือ internet ได้กลายมาเป็นหนึ่งในปัจจัยในการดำรงชีวิตของเราไปเสียแล้ว เชื่อไหมว่าจากผลงานวิจัยของ GlobalWebindex ในปี 2557 ชี้ว่ามีปริมาณประชากรผู้ใช้งานอินเตอร์เน็ตสูงถึง 65 % เมื่อเทียบกับปริมาณประชากรทั้งหมด นอกจากนี้เรายังมีอุปกรณ์ (Device) ที่พร้อมจะเชื่อมต่อกับอินเตอร์เน็ตได้ตลอดเวลา ติดตัวไปกับพวกเราทุกหนทุกแห่งก็ว่าได้
ต้อง “Big data” เลยหรือ ??
ลองมาดูตัวอย่างเล็กๆน้อยๆกันครับ ว่าทำไมเราถึงไม่ใช้แค่คำว่า “data”อีกต่อไป
-
ปัจจุบัน มี Mobile Device มากกว่า 7.4 Billion ที่ใช้งานบนโลกใบนี้
-
Facebook มีข้อมูลมากกว่า 500 TB ที่เกิดขึ้นใน แต่ละวัน
-
มีคนกด Like ใน Facebook มากกว่า 2.7 Billion ในแต่ละวัน
-
ข้อมูลมีแนวโน้มเพิ่มมากขึ้น ๆ กว่า 10 เท่าในทุกๆ 5 ปี
แนวโน้มของข้อมูลมีขนาดที่ใหญ่ขึ้น คือเป็นรูปภาพ และ วีดีโอมากขึ้น
ด้วยตัวอย่างแค่นี้ หลายคนคงนึกภาพออกแล้วว่า หากเราดูปริมาณข้อมูลที่วิ่งทั้งหมดในแต่ละวันมันจะมากมายมหาศาลขนาดไหน นี่แหละจึงเป็นเหตุว่าทำไมต้องใช้คำว่า “Big data”
คุณสมบัติของ Big data
-
Volume : ข้อมูลมีปริมาณมาก อยู่ในระดับ Terabytes ขึ้นไป
-
Variety : ข้อมูลมีรูปแบบที่หลากหลาย ไม่ว่าจะเป็น ข้อความ รูปภาพ วีดิโอ มัลติมีเดีย
-
Velocity : ข้อมูลจะมีการเปลี่ยนแปลงตลอดเวลาและรวดเร็ว
เทคโนโลยีเกี่ยวกับ Big data
ถูกแบ่งออกเป็น 3 กลุ่มได้แก่
1 Storage คือ การจัดเก็บข้อมูล นั่นคือเรื่อง Volume และ Varietyเนื่องจากข้อมูลนั้น ไม่มีรูปแบบที่ชัดเจน และไม่สามารถกำหนดได้ ดังนั้นเราจึงต้องการที่จัดเก็บแบบใหม่ โดยสามารถแบ่งตามคุณลักษณะได้ 3 กลุ่มใหญ่ ๆ ดังนี้
1 Distributed data ข้อมูลจะกระจายไปทำงานหลาย ๆ เครื่อง หรือ node
2 Cluster computing กระบวนการทำงานของแต่ละ node จะอยู่ภายใต้ cluster ซึ่งเป็น software ที่เชื่อมแต่ละ node เข้าด้วยกัน เหมือนกับว่าทำงานอยู่ในเครื่อง หรือ ระบบเดียวกัน
3 Massive parallel processing ระบบการประมวลผลภายใน cluster สามารถทำงานแบบขนานกันได้ ซึ่งช่วยให้การทำงานเร็วขึ้น
2 Processing คือ การประมวลผล นั่นคือเรื่อง Volume และ Velocity ข้อมูลจะไร้ค่าอย่างมาก ถ้า ปราศจากการประมวลผล ซึ่งมีรูปแบบการประมวลผล 2 แบบ คือ
1 Batch เป็นการประมวลผลที่ใช้เวลานาน
2 Streaming เป็นการประมวลผลแบบ realtime ซึ่งในปัจจุบันจะพูดถึง Apache Spark อย่างมาก
เนื่องจากสามารถทำงานได้อย่างรวดเร็ว ซึ่งเร็วกว่า Hadoop ประมาณ 10-100 เท่า
3 Analytic คือ การวิเคราะห์ นั่นคือกระบวนการวิธีสำหรับเข้าถึงข้อมูลเชิงลึกจาก 1 และ 2 ข้อมูลในโลกของ Big Data นั้น ไม่เหมาะสมอย่างยิ่งที่จะนำมาวิเคราะห์ ดังนั้น จึงต้องทำการแปลงข้อมูล ไปอยู่ในข้อมูลที่มีรูปแบบก่อนเสมอ โดยเทคนิคในการวิเคราะห์ประกอบไปด้วย
Data mining
Predictive analytic
Text analytic
Video analytic
Social media analytic
Sentiment analytic
Location analytic
Machine learning
ตอนนี้คงพอจะเห็นภาพรวมความหมายและคุณสมบัติของ Big Data กันไปพอสมควรแล้ว แน่นอนว่าในยุคปัจจุบันที่มีการใช้ Social Network กันอย่างแพร่หลาย ล้วนแล้วแต่เป็นการสร้างหรือเพิ่มปริมาณข้อมูลทั้งสิ้นสรุปคือตอนนี้พวกเราทุกคนถือเป็นผู้สร้างข้อมูลหรือเรียกว่าเป็น Data Generator การที่เราทำกิจกรรมอะไรบางอย่างก็มีโอกาสที่จะสร้างข้อมูลใหม่ๆ ขึ้นมาบนโลกนี้ เพียงแต่ข้อมูลเหล่านี้อาจจะไม่ได้อยู่ในรูปแบบเดิมๆ ที่เราคุ้นเคยและองค์กรธุรกิจสามารถนำไปใช้ได้เลย เพียงแต่ถ้าดูดีๆ จะพบว่าเบื้องหลังข้อมูลเหล่านี้ อาจจะมีบางสิ่งที่เป็นประโยชน์อยู่แบบที่เราไม่รู้ตัว
เนื้อหาจาก
http://library.acc.chula.ac.th/PageController.php?page=FindInformation/ArticleACC/2556/Pasu/BangkokBiznews/B2901131
http://www.siamhtml.com/getting-started-with-big-data-and-hadoop-spark-on-cloud-dataproc/
http://www.aware.co.th/big_data_คืออะไร
http://www.telecomjournalthailand.com/big-data-ใหญ่กว่าชื่อ
http://www.somkiat.cc/big-data-back-to-basic/
http://www.9experttraining.com/articles/big-data-คืออะไร
ภาพจาก
http://csanna.blog.hu/
http://www.imcinstitute.com/training/training-schedule-by-track/big-data-bi-track
-
6706 Big data อภิมหาข้อมูล ไม่ได้ใหญ่ แค่ชื่อ! /article-mathematics/item/6706-big-dataเพิ่มในรายการโปรด