Twitter Sentiment Analysis: Beda Metode Lexicon Based vs Machine Learning
Baru-baru ini, tunjangan DPR 2025 memicu aksi demonstrasi di akhir Agustus, dan hal ini menjadi trending topic di berbagai platform media sosial seperti X/Twitter dan Instagram.
Trending topic twitter 30 Agustus 2025
Fenomena ini menunjukkan pentingnya analisis sentimen media sosial untuk memahami pandangan masyarakat terhadap kebijakan pemerintah.
Dalam artikel ini, kita akan membahas cara melakukan analisis sentimen menggunakan data dari X/Twitter, dengan dua metode: lexicon based dan machine learning based.
Apa itu Sentiment Analysis?
Sentiment analysis approaches
Sentiment Analysis adalah proses untuk mengidentifikasi dan mengklasifikasikan opini dalam sebuah teks menjadi kategori seperti positif, negatif, atau netral.
Di Twitter, analisis ini bisa menunjukkan bagaimana perasaan masyarakat terhadap suatu topik tertentu, misalnya pemilihan presiden, Covid-19, tunjangan dpr 2025, demo DPR 2025, dll.
Secara umum, metode sentiment analysis dapat diklasifikasikan menjadi tiga yaitu:
- Lexicon-based
- Machine Learning-based
- Teknik Hybrid yang menggabungkan keduanya
Perbandingan Lexicon Based vs Machine Learning Based
Nah, ini perbedaan antara Lexicon based dan Machine Learning :
|
Aspek |
Lexicon-based |
Machine Learning |
|
Cara Kerja |
Menggunakan kamus kata (positif, negatif, netral). |
Belajar dari training data (tweet yang sudah dilabeli). |
|
Contoh Tools/Algoritma |
VADER (best for social media), TextBlob, SentiWordNet. |
Random Forest, Naïve Bayes, SVC. |
|
Best Use Cases |
|
|
Mengenal Pendekatan Lexicon-Based dalam Sentiment Analysis
Pada pendekatan ini, analisis dilakukan dengan cara membandingkan kata-kata dalam teks dengan kumpulan kata-kata (lexicon) yang sudah diberi label sentimen, apakah positif, negatif, atau netral.
Library Lexicon-Based:
-
TextBlob
Library Python yang memberikan skor sentimen berdasarkan rata-rata polaritas kata. Skor ini berkisar antara -1 (negatif) hingga +1 (positif). -
VADER
Dirancang khusus untuk teks media sosial yang sering mengandung bahasa informal, slang, dan singkatan. VADER memberikan skor sentimen komposit yang juga berkisar antara -1 sampai +1.
Classification threshold of TextBlob and VADER
-
SentiWordNet
Menggunakan database WordNet dengan skor polaritas untuk setiap sinonim kata yang terdaftar, memberikan analisis yang lebih terperinci namun cenderung lebih kompleks.
Process of SentiWordNet-based approaches
Kelebihan dan Kekurangan Pendekatan Lexicon Based
|
Kelebihan |
Kekurangan |
|
Mudah digunakan dan diimplementasikan |
Bergantung pada kualitas dan cakupan lexicon |
|
Cepat untuk analisis data skala besar |
Kurang efektif untuk bahasa yang sangat informal atau slang |
|
Tidak membutuhkan data berlabel |
Tidak dapat mengenali konteks kata secara sempurna |
Mengenal Pendekatan Machine Learning dalam Analisis Sentimen
Main process of machine-learning-based approaches
Pendekatan ini melihat analisis sentimen sebagai masalah klasifikasi teks menggunakan algoritma Machine Learning.
Model dilatih dengan data teks yang sudah diberi label sentimen, dan kemudian digunakan untuk memprediksi sentimen teks baru.
Baca Juga : Pelatihan Data Analysis with Python
Feature Representation (Representasi Fitur)
Teks harus diubah menjadi angka sebelum dimasukkan ke model machine learning. Metode utamanya:
-
Bag-of-Words (BoW) / Count Vectorizer: Membuat vektor berdasarkan frekuensi kemunculan setiap kata.
-
TF-IDF (Term Frequency-Inverse Document Frequency): Mengukur seberapa penting sebuah kata dengan mempertimbangkan frekuensinya dalam sebuah dokumen dan kelangkaannya di seluruh korpus.
-
Word Embedding (Word2Vec): Merepresentasikan kata ke dalam vektor multidimensi di mana kata dengan makna serupa akan berada dalam posisi yang berdekatan. Lebih canggih karena menangkap makna semantik.
Classification Models (Model Klasifikasi)
- Naïve Bayes
Menggunakan probabilitas berdasarkan teorema Bayes, sangat efisien untuk teks yang berjumlah besar. - Support Vector Machine (SVM)
Berusaha menemukan hyperplane terbaik yang memisahkan data ke dalam kelas-kelas yang berbeda di ruang dimensi tinggi. - Random Forest
Menggabungkan banyak pohon keputusan (decision trees) untuk meningkatkan akurasi dan mengontrol overfitting.
Hyperparameter Tuning
Untuk mendapatkan performa terbaik, parameter dalam model perlu dioptimalkan. Teknik seperti Grid Search (mencoba semua kombinasi parameter) atau Random Search (mencoba kombinasi acak) digunakan untuk menemukan set parameter terbaik.
Baca Juga : Pelatihan Data Analysis with Python
Kelebihan dan Kekurangan Pendekatan Machine Learning
|
Kelebihan |
Kekurangan |
|
Lebih akurat jika data berlabel memadai |
Membutuhkan data berlabel dan proses pelabelan memakan waktu |
|
Dapat mengenali konteks kata secara lebih baik |
Model perlu tuning hyperparameter yang kompleks |
|
Fleksibel dengan berbagai representasi fitur |
Membutuhkan sumber daya komputasi lebih besar |
Pre-processing Data Twitter
Langkah kritis yang mendahului kedua metode analisis adalah pre-processing atau pembersihan data. Data Twitter mentah sangat berantakan dan informal, sehingga harus "dibersihkan" sebelum dianalisis.
Langkah-langkahnya meliputi:
-
Case Folding: Mengubah semua huruf menjadi lowercase (kecil) untuk konsistensi.
-
Cleaning: Menghapus hashtag (#), mention (@), URL, karakter non-alfanumerik, dan punctuation.
-
Slang & Contraction Handling: Mengganti kata tidak baku ("dg" -> "dengan") dan memperluas kontraksi ("don't" -> "do not").
-
Stopword Removal: Menghapus kata umum yang tidak bermakna (dalam, yang, di, dll.), tetapi menyisakan negasi ("tidak", "bukan").
-
Tokenization: Memecah kalimat menjadi unit kata yang lebih kecil (token).
-
Stemming/Lemmatization: Mengurangi kata ke bentuk dasarnya (stemming: "merasa" -> "rasa"; lemmatization lebih cerdas dengan mempertimbangkan konteks).
-
Emoji Handling: Mengonversi emoji menjadi representasi tekstualnya (😊 -> ":smiling_face:") karena emoji menyimpan muatan sentimen yang kuat.
Baca Juga : Pelatihan Data Analysis with Python
Kesimpulan
Analisis sentimen pada data social media merupakan tools penting untuk memahami opini publik terhadap isu-isu terkini.
Kedua pendekatan memiliki kelebihan masing-masing:
-
Gunakan Pendekatan Leksikon (VADER) jika Anda membutuhkan analisis yang cepat, tidak perlu melabeli data, dan fokus pada teks media sosial yang informal.
-
Gunakan Pendekatan Machine Learning (seperti SVC) dengan feature representation TF-IDF, memberikan hasil yang lebih akurat.
🚀Upskilling Tim di Perusahaan & Instansi Anda dengan Data Analysis
Setiap perusahaan, lembaga pendidikan, dan instansi pemerintah perlu membekali SDM-nya agar upgrade diri terhadap teknologi analitik dan kecerdasan buatan.
Bagi Anda yang tertarik mempelajari Data Analysis, saatnya upgrade skill Anda bersama SUHU Professional Training & Consulting.
Pelatihan yang kami rekomendasikan:
- Pelatihan Introduction to Data Science
- Pelatihan Deep Learning Python
- Pelatihan Data Analysis with Python
Silakan konsultasikan kebutuhan Anda bersama kami dengan klik link berikut: https://bit.ly/kontaksuhu
