Beda Metode Lexicon Based dan Machine Learning untuk Sentiment Analysis Kebijakan Pemerintah - Kata SUHU

03 Sep 2025

Baru-baru ini, tunjangan DPR 2025 memicu aksi demonstrasi di akhir Agustus, dan hal ini menjadi trending topic di berbagai platform media sosial seperti X/Twitter dan Instagram.

Trending Twitter/X 30 Agustus 2025

Trending topic twitter 30 Agustus 2025

Fenomena ini menunjukkan pentingnya analisis sentimen media sosial untuk memahami pandangan masyarakat terhadap kebijakan pemerintah.

Dalam artikel ini, kita akan membahas cara melakukan analisis sentimen menggunakan data dari X/Twitter, dengan dua metode: lexicon based dan machine learning based.

Apa itu Sentiment Analysis?

Sentiment analysis approaches

Sentiment Analysis adalah proses untuk mengidentifikasi dan mengklasifikasikan opini dalam sebuah teks menjadi kategori seperti positif, negatif, atau netral.

Di Twitter, analisis ini bisa menunjukkan bagaimana perasaan masyarakat terhadap suatu topik tertentu, misalnya pemilihan presiden, Covid-19, tunjangan dpr 2025, demo DPR 2025, dll.

Secara umum, metode sentiment analysis dapat diklasifikasikan menjadi tiga yaitu:

Lexicon-based
Machine Learning-based
Teknik Hybrid yang menggabungkan keduanya

Ikuti Webinar AI for Banking: Transforming Financial Services into Smart, Proactive, and Data-Driven Experiences. Daftar Sekarang!

Perbandingan Lexicon Based vs Machine Learning Based

Nah, ini perbedaan antara Lexicon based dan Machine Learning :

Aspek	Lexicon-based	Machine Learning
Cara Kerja	Menggunakan kamus kata (positif, negatif, netral).	Belajar dari training data (tweet yang sudah dilabeli).
Contoh Tools/Algoritma	VADER (best for social media), TextBlob, SentiWordNet.	Random Forest, Naïve Bayes, SVC.
Best Use Cases	Saat data terbatas. Untuk prototipe cepat dan analisis awal. Analisis general topics di social media.	Ingin mendapatkan hasil dengan akurasi tinggi. Ketika tersedia big data dan label sentimen. Analisis spesifik domain (mis., ulasan produk, dokumen hukum).

Mengenal Pendekatan Lexicon-Based dalam Sentiment Analysis

Pada pendekatan ini, analisis dilakukan dengan cara membandingkan kata-kata dalam teks dengan kumpulan kata-kata (lexicon) yang sudah diberi label sentimen, apakah positif, negatif, atau netral.

Library Lexicon-Based:

TextBlob
Library Python yang memberikan skor sentimen berdasarkan rata-rata polaritas kata. Skor ini berkisar antara -1 (negatif) hingga +1 (positif).
VADER
Dirancang khusus untuk teks media sosial yang sering mengandung bahasa informal, slang, dan singkatan. VADER memberikan skor sentimen komposit yang juga berkisar antara -1 sampai +1.

Classification threshold of TextBlob and VADER

SentiWordNet
Menggunakan database WordNet dengan skor polaritas untuk setiap sinonim kata yang terdaftar, memberikan analisis yang lebih terperinci namun cenderung lebih kompleks.

Process of SentiWordNet-based approaches

Process of SentiWordNet-based approaches

Ikuti Webinar AI for Banking: Transforming Financial Services into Smart, Proactive, and Data-Driven Experiences. Daftar Sekarang!

Kelebihan dan Kekurangan Pendekatan Lexicon Based

Kelebihan	Kekurangan
Mudah digunakan dan diimplementasikan	Bergantung pada kualitas dan cakupan lexicon
Cepat untuk analisis data skala besar	Kurang efektif untuk bahasa yang sangat informal atau slang
Tidak membutuhkan data berlabel	Tidak dapat mengenali konteks kata secara sempurna

Mengenal Pendekatan Machine Learning dalam Analisis Sentimen

Main process of machine-learning-based approaches

Pendekatan ini melihat analisis sentimen sebagai masalah klasifikasi teks menggunakan algoritma Machine Learning.

Model dilatih dengan data teks yang sudah diberi label sentimen, dan kemudian digunakan untuk memprediksi sentimen teks baru.

Baca Juga : Pelatihan Data Analysis with Python

Feature Representation (Representasi Fitur)

Teks harus diubah menjadi angka sebelum dimasukkan ke model machine learning. Metode utamanya:

Bag-of-Words (BoW) / Count Vectorizer: Membuat vektor berdasarkan frekuensi kemunculan setiap kata.
TF-IDF (Term Frequency-Inverse Document Frequency): Mengukur seberapa penting sebuah kata dengan mempertimbangkan frekuensinya dalam sebuah dokumen dan kelangkaannya di seluruh korpus.
Word Embedding (Word2Vec): Merepresentasikan kata ke dalam vektor multidimensi di mana kata dengan makna serupa akan berada dalam posisi yang berdekatan. Lebih canggih karena menangkap makna semantik.

Classification Models (Model Klasifikasi)

Naïve Bayes
Menggunakan probabilitas berdasarkan teorema Bayes, sangat efisien untuk teks yang berjumlah besar.
Support Vector Machine (SVM)
Berusaha menemukan hyperplane terbaik yang memisahkan data ke dalam kelas-kelas yang berbeda di ruang dimensi tinggi.
Random Forest
Menggabungkan banyak pohon keputusan (decision trees) untuk meningkatkan akurasi dan mengontrol overfitting.

Hyperparameter Tuning

Untuk mendapatkan performa terbaik, parameter dalam model perlu dioptimalkan. Teknik seperti Grid Search (mencoba semua kombinasi parameter) atau Random Search (mencoba kombinasi acak) digunakan untuk menemukan set parameter terbaik.

Baca Juga : Pelatihan Data Analysis with Python

Kelebihan dan Kekurangan Pendekatan Machine Learning

Kelebihan	Kekurangan
Lebih akurat jika data berlabel memadai	Membutuhkan data berlabel dan proses pelabelan memakan waktu
Dapat mengenali konteks kata secara lebih baik	Model perlu tuning hyperparameter yang kompleks
Fleksibel dengan berbagai representasi fitur	Membutuhkan sumber daya komputasi lebih besar

Pre-processing Data Twitter

Langkah kritis yang mendahului kedua metode analisis adalah pre-processing atau pembersihan data. Data Twitter mentah sangat berantakan dan informal, sehingga harus "dibersihkan" sebelum dianalisis.

Langkah-langkahnya meliputi:

Case Folding: Mengubah semua huruf menjadi lowercase (kecil) untuk konsistensi.
Cleaning: Menghapus hashtag (#), mention (@), URL, karakter non-alfanumerik, dan punctuation.
Slang & Contraction Handling: Mengganti kata tidak baku ("dg" -> "dengan") dan memperluas kontraksi ("don't" -> "do not").
Stopword Removal: Menghapus kata umum yang tidak bermakna (dalam, yang, di, dll.), tetapi menyisakan negasi ("tidak", "bukan").
Tokenization: Memecah kalimat menjadi unit kata yang lebih kecil (token).
Stemming/Lemmatization: Mengurangi kata ke bentuk dasarnya (stemming: "merasa" -> "rasa"; lemmatization lebih cerdas dengan mempertimbangkan konteks).
Emoji Handling: Mengonversi emoji menjadi representasi tekstualnya (😊 -> ":smiling_face:") karena emoji menyimpan muatan sentimen yang kuat.

Baca Juga : Pelatihan Data Analysis with Python

Kesimpulan

Analisis sentimen pada data social media merupakan tools penting untuk memahami opini publik terhadap isu-isu terkini.

Kedua pendekatan memiliki kelebihan masing-masing:

Gunakan Pendekatan Leksikon (VADER) jika Anda membutuhkan analisis yang cepat, tidak perlu melabeli data, dan fokus pada teks media sosial yang informal.
Gunakan Pendekatan Machine Learning (seperti SVC) dengan feature representation TF-IDF, memberikan hasil yang lebih akurat.

🚀Upskilling Tim di Perusahaan & Instansi Anda dengan Data Analysis

Setiap perusahaan, lembaga pendidikan, dan instansi pemerintah perlu membekali SDM-nya agar upgrade diri terhadap teknologi analitik dan kecerdasan buatan.

Bagi Anda yang tertarik mempelajari Data Analysis, saatnya upgrade skill Anda bersama SUHU Professional Training & Consulting.

Pelatihan yang kami rekomendasikan:

Silakan konsultasikan kebutuhan Anda bersama kami dengan klik link berikut: https://bit.ly/kontaksuhu

Tulisan ini bermanfaat bagimu?

Kata SUHU Pilihan

Lihat semua kata SUHU