MEMBANGUN SLANG DICTIONARY UNTUK NORMALISASI TEKS MENGGUNAKAN PRE-TRAINED FASTTEXT MODEL

Junita Amalia(1),


(1) Institut Teknologi Del
Corresponding Author

Abstract


Kata Slang merupakan kata yang kompleks, sulit dan tidak dapat diabaikan. Slang digunakan oleh kalangan tertentu dan terbatas sehingga tidak semua orang mengetahui maksud dari percakapan yang dilakukan oleh anggota kelompok. Berdasarkan penelitian terdahulu yang telah dilakukan yaitu pembuatan slang menggunakan proses manual yang memerlukan cukup banyak waktu untuk mengumpulkan kata slang, sehingga penelitian yang kami lakukan bertujuan untuk mengumpulkan kata slang dengan menerapkan Deep Learning yaitu Natural Language Processing dengan menggunakan metode word embedding FastText untuk mempercepat proses pengumpulan kata slang. Penulis melakukan implementasi teknik dan algoritma yang telah dirancang pada tahapan sebelumnya. Tahapan ini memastikan bahwa proses yang dilakukan dalam penelitian dapat dilaksanakan sesuai dengan teori-teori yang mendukung penelitian. Dari gabungan data antara kata komentar youtube dan kamus Bahasa Indonesia, didapatkan 421 kata yang merupakan kata slang. Kata slang ini didapatkan dengan cara proses mencari kesamaan kata (similarity word) antara kata komentar youtube dan kamus Bahasa Indonesia. Dalam membangun kamus slang dari dataset komentar youtube dengan pre-trained FastText model dilakukan proses preprocessing. Selanjutnya dilakukan tahap membuat list token dan list comprehension untuk mendapatkan word vector setiap kata komentar youtube. Untuk mendapatkan vektor kata untuk setiap kata komentar youtube dan kamus Bahasa Indonesia diperlukan metode pre-trained FastText model.


References


M. Rusli, M. R. Faisal, and I. Budiman, “Ekstraksi Fitur Menggunakan Model Word2Vec Untuk Analisis Sentimen Pada Komentar Facebook,” Semin. Nas. Ilmu Komput., vol. 2, no. January 2019, pp. 104–109, 2019.

dan T. R. I. Badan Pengembangan dan Pembinaan Bahasa, Kementerian Pendidikan, Kebudayaan, Riset, “KBBI Daring,” 2016. https://kbbi.kemdikbud.go.id/entri/slang

A. Nurdin, B. Anggo Seno Aji, A. Bustamin, and Z. Abidin, “Perbandingan Kinerja Word Embedding Word2Vec, Glove, Dan Fasttext Pada Klasifikasi Teks,” J. Tekno Kompak, vol. 14, no. 2, p. 74, 2020, doi: 10.33365/jtk.v14i2.732.

L. Wu, F. Morstatter, and H. Liu, “SlangSD: building, expanding and using a sentiment dictionary of slang words for short-text sentiment classification,” Lang. Resour. Eval., vol. 52, no. 3, pp. 839–852, 2018, doi: 10.1007/s10579-018-9416-0.

J. Turner and M. Kantardzic, “Twitter query expansion via Word2Vec-Urban Dictionary model,” ACM Int. Conf. Proceeding Ser., pp. 43–46, 2018, doi: 10.1145/3277104.3278310.

A. Josi, L. A. Abdillah, and Suryayusra, “Penerapan teknik web scraping pada mesin pencari artikel ilmiah,” 2014, [Online]. Available: http://arxiv.org/abs/1410.5777

A. P. Widyassari et al., “Review of automatic text summarization techniques & methods,” J. King Saud Univ. - Comput. Inf. Sci., vol. 34, no. 4, pp. 1029–1046, 2022, doi: 10.1016/j.jksuci.2020.05.006.


Full Text: PDF (Bahasa Indonesia)

Article Metrics

Abstract View : 110 times
PDF (Bahasa Indonesia) Download : 15 times

Refbacks

  • There are currently no refbacks.