การสกัดข้อมูลอัตโนมัติด้วยเทคนิค Web Scraping และ AI สู่การสร้างฐานข้อมูลข่าวและเหตุการณ์ในจังหวัดชายแดนภาคใต้

Main Article Content

มัรวาน จูแซ

บทคัดย่อ

      บทความวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาและประยุกต์ใช้ระบบสกัดข้อมูลอัตโนมัติด้วยเทคนิค Web Scraping และเทคโนโลยีปัญญาประดิษฐ์ (AI) สู่การสร้างฐานข้อมูลข่าวและเหตุการณ์ในจังหวัดชายแดนภาคใต้ของประเทศไทย และประเมินประสิทธิภาพของระบบที่พัฒนาขึ้นทั้งในเชิงเทคนิคและปริมาณ เพื่อยกระดับประสิทธิภาพการบริหารจัดการสารสนเทศของหอสมุดจอห์น เอฟ เคนเนดี้ สำนักวิทยบริการ มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตปัตตานี กระบวนการดำเนินงานประกอบด้วย 4 ขั้นตอนหลัก ได้แก่ (1) การรวบรวมข้อมูลด้วย Web Scraping จากแหล่งข่าวเป้าหมายทั้งระดับชาติและท้องถิ่นกว่า 15 แหล่ง (2) การใช้ AI ในการประมวลผลและจำแนกประเภทข้อมูลด้วยอัลกอริทึม Naive Bayes Classifier (3) การบูรณาการและลดความซ้ำซ้อนของข้อมูล และ (4) การออกแบบและจัดเก็บข้อมูลในฐานข้อมูล ผลการวิจัยพบว่า ระบบสามารถลดระยะเวลาในการจัดเก็บข้อมูลจาก 1–2 ชั่วโมงต่อวัน เหลือเพียง 10–15 นาทีต่อวัน ลดลงประมาณร้อยละ 85 พร้อมทั้งมีความถูกต้องในการดึงข้อมูลสูงถึงร้อยละ 97 ตรวจจับและป้องกันการบันทึกข่าวซ้ำได้ร้อยละ 98 นอกจากนี้ ระบบยังมีความแม่นยำในการจำแนกประเภทสูงถึงร้อยละ 92 พร้อมทั้งเพิ่มความครอบคลุมของแหล่งข่าวให้ครอบคลุมทั้งระดับชาติและท้องถิ่นรวมมากกว่า 15 แหล่งข่าว และลดอัตราความผิดพลาดในการประมวลผลเหลือเพียงร้อยละ 2 ระบบได้รับการประเมินจากผู้เชี่ยวชาญว่ามีประสิทธิภาพดีมาก (equation = 4.85, SD = 0.18) โดยเฉพาะในด้านความแม่นยำและความรวดเร็วในการประมวลผล ผลลัพธ์ที่ได้สร้างประโยชน์ต่อการสนับสนุนการวางแผนนโยบาย การติดตามสถานการณ์ และการตัดสินใจเชิงยุทธศาสตร์ในพื้นที่ พร้อมทั้งวางรากฐานฐานข้อมูลที่เชื่อถือได้ ซึ่งสามารถต่อยอดเพื่อการใช้งานในอนาคตอย่างยั่งยืน

Article Details

รูปแบบการอ้างอิง
จูแซ ม. (2025). การสกัดข้อมูลอัตโนมัติด้วยเทคนิค Web Scraping และ AI สู่การสร้างฐานข้อมูลข่าวและเหตุการณ์ในจังหวัดชายแดนภาคใต้. PULINET Journal, 12(2), 189–205. สืบค้น จาก https://so14.tci-thaijo.org/index.php/PJ/article/view/1772
ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

จักรินทร์ สันติรัตนภักดี. (2565). กระบวนการสกัดข้อมูลรายงานอุบัติเหตุทางถนนรายใหญ่และความสามารถในการนำเสนอสารสนเทศด้วยภาพข้อมูลผ่านเว็บไซต์. วารสารศรีนครินทรวิโรฒวิจัยและพัฒนา (สาขามนุษยศาสตร์และสังคมศาสตร์), 14(27), 14-34. https://so04.tci-thaijo.org/index.php/swurd/article/view/259751

ศตวรรษ รามไชย และ ผุสดี พรผล. (2565). การเตรียมข้อมูลจากเว็บในอุตสาหกรรมการท่องเที่ยว: กรณีที่พักในจังหวัดภูเก็ต. ใน การประชุมวิชาการระดับชาติ ด้านวิทยาศาสตร์และเทคโนโลยี เครือข่ายสถาบันอุดมศึกษา ภาคใต้ ครั้งที่ 7 (น.1-10). ฐานข้อมูลวิจัย สถาบันวิจัยและพัฒนา มหาวิทยาลัยราชภัฏภูเก็ต.

Bhatt, C., Bisht, A., Chauhan, R., Vishvakarma, A., Kumar, M., & Sharma, S. (2023). Web scraping techniques and its applications: A review [Conference session]. In 2023 3rd International Conference on Innovative Sustainable Computational Technologies (CISCT) (pp. 1-8). https://doi.org/10.1109/cisct57197.2023.10351298

Bhujbal, M., Bibawanekar, B., & Deshmukh, P. (2023). News aggregation using web scraping news portals. International Journal of Advanced Research in Science, Communication and Technology, 3(2), 275-284. https://doi.org/10.48175/IJARSCT-12138

Farias, W. A. S., Melo, D. M. A., Santos, L. M. dos, de Oliveira, Â. A. S., Medeiros, R. L. B. A., & Silva, Y. K. R. O. (2024). Web scraping as a scientific tool for theoretical reference. https://doi.org/10.21203/rs.3.rs-3854342/v1

Li, Q., Peng, H., Li, J., Xia, C., Yang, R., Sun, L., Yu, P. S., & He, L. (2022). A survey on text classification: From traditional to deep learning. ACM Transactions on Intelligent Systems and Technology (TIST), 13(2), 1–54. https://doi.org/10.1145/3495162

Minaee, S., Kalchbrenner, N., Cambria, E., Nikzad, N., Chenaghlu, M., & Gao, J. (2021). Deep learning-based text classification: A comprehensive review. ACM Computing Surveys (CSUR), 54(3), 1–40. https://doi.org/10.1145/3439726

Mitchell, R. (2018). Web scraping with Python: Collecting data from the modern web (2nd ed.). O'Reilly Media.

Pant, S., Yadav, E. N., Milan, Sharma, M., Bedi, Y., & Raturi, A. (2024). Web scraping using beautifulsoup [Conference session]. In 2024 International Conference on Knowledge Engineering and Communication Systems (ICKECS) (pp. 1-6). Chikkaballapur, India. https://doi.org/10.1109/ickecs61492.2024.10617017

Slamet, C., Andrian, R., Maylawati, D. S., Suhendar, Darmalaksana, W., & Ramdhani, M. A. (2018). Web scraping and Naïve Bayes Classification for job search engine. 288(1):012038-. https://doi.org/10.1088/1757-899X/288/1/012038

Valova, I., Mladenova, T., Kanev, G., & Halacheva, T. (2023). Web scraping - state of art, techniques and approaches [Conference session]. In 2023 31st National Conference with International Participation (TELECOM) (pp. 1-4). Sofia, Bulgaria. https://doi.org/10.1109/telecom59629.2023.10409723

Zhang, H. (2004). The optimality of naive Bayes. In Proceedings of the 17th International Florida Artificial Intelligence Research Society Conference (FLAIRS 2004) (pp. 562–567). AAAI Press.