Kata SUHU

Twitter Sentiment Analysis: Beda Metode Lexicon Based vs Machine Learning

03 Sep 2025

Baru-baru ini, tunjangan DPR 2025 memicu aksi demonstrasi di akhir Agustus, dan hal ini menjadi trending topic di berbagai platform media sosial seperti X/Twitter dan Instagram.

Trending Twitter/X 30 Agustus 2025

Trending topic twitter 30 Agustus 2025

Fenomena ini menunjukkan pentingnya analisis sentimen media sosial untuk memahami pandangan masyarakat terhadap kebijakan pemerintah.

Dalam artikel ini, kita akan membahas cara melakukan analisis sentimen menggunakan data dari X/Twitter, dengan dua metode: lexicon based dan machine learning based.

Apa itu Sentiment Analysis?

Sentiment Analysis

Sentiment analysis approaches

Sentiment Analysis adalah proses untuk mengidentifikasi dan mengklasifikasikan opini dalam sebuah teks menjadi kategori seperti positif, negatif, atau netral.

Di Twitter, analisis ini bisa menunjukkan bagaimana perasaan masyarakat terhadap suatu topik tertentu, misalnya pemilihan presiden, Covid-19, tunjangan dpr 2025, demo DPR 2025, dll.

Secara umum, metode sentiment analysis dapat diklasifikasikan menjadi tiga yaitu: 

  • Lexicon-based
  • Machine Learning-based
  • Teknik Hybrid yang menggabungkan keduanya

Ikuti Webinar AI for Banking: Transforming Financial Services into Smart, Proactive, and Data-Driven Experiences. Daftar Sekarang!

Perbandingan Lexicon Based vs Machine Learning Based

Nah, ini perbedaan antara Lexicon based dan Machine Learning : 

Aspek

Lexicon-based

Machine Learning

Cara Kerja

Menggunakan kamus kata (positif, negatif, netral).

Belajar dari training data (tweet yang sudah dilabeli).

Contoh Tools/Algoritma

VADER (best for social media), TextBlobSentiWordNet.

Random Forest, Naïve Bayes, SVC.

Best Use Cases

  • Saat data terbatas.
  • Untuk prototipe cepat dan analisis awal.
  • Analisis general topics di social media.
  • Ingin mendapatkan hasil dengan akurasi tinggi.
  • Ketika tersedia big data dan label sentimen.
  • Analisis spesifik domain (mis., ulasan produk, dokumen hukum).

Mengenal Pendekatan Lexicon-Based dalam Sentiment Analysis

Pada pendekatan ini, analisis dilakukan dengan cara membandingkan kata-kata dalam teks dengan kumpulan kata-kata (lexicon) yang sudah diberi label sentimen, apakah positif, negatif, atau netral.

Library Lexicon-Based:

  • TextBlob
    Library Python yang memberikan skor sentimen berdasarkan rata-rata polaritas kata. Skor ini berkisar antara -1 (negatif) hingga +1 (positif).

  • VADER
    Dirancang khusus untuk teks media sosial yang sering mengandung bahasa informal, slang, dan singkatan. VADER memberikan skor sentimen komposit yang juga berkisar antara -1 sampai +1.

Classification threshold of TextBlob and VADER

  • SentiWordNet
    Menggunakan database WordNet dengan skor polaritas untuk setiap sinonim kata yang terdaftar, memberikan analisis yang lebih terperinci namun cenderung lebih kompleks.

Process of SentiWordNet-based approaches

Process of SentiWordNet-based approaches

Ikuti Webinar AI for Banking: Transforming Financial Services into Smart, Proactive, and Data-Driven Experiences. Daftar Sekarang!

Kelebihan dan Kekurangan Pendekatan Lexicon Based

Kelebihan

Kekurangan

Mudah digunakan dan diimplementasikan

Bergantung pada kualitas dan cakupan lexicon

Cepat untuk analisis data skala besar

Kurang efektif untuk bahasa yang sangat informal atau slang

Tidak membutuhkan data berlabel

Tidak dapat mengenali konteks kata secara sempurna

Mengenal Pendekatan Machine Learning dalam Analisis Sentimen

Main process of machine-learning-based approaches

Main process of machine-learning-based approaches

Pendekatan ini melihat analisis sentimen sebagai masalah klasifikasi teks menggunakan algoritma Machine Learning. 

Model dilatih dengan data teks yang sudah diberi label sentimen, dan kemudian digunakan untuk memprediksi sentimen teks baru.

Baca Juga : Pelatihan Data Analysis with Python

Feature Representation (Representasi Fitur)

Teks harus diubah menjadi angka sebelum dimasukkan ke model machine learning. Metode utamanya:

  • Bag-of-Words (BoW) / Count Vectorizer: Membuat vektor berdasarkan frekuensi kemunculan setiap kata.

  • TF-IDF (Term Frequency-Inverse Document Frequency): Mengukur seberapa penting sebuah kata dengan mempertimbangkan frekuensinya dalam sebuah dokumen dan kelangkaannya di seluruh korpus.

  • Word Embedding (Word2Vec): Merepresentasikan kata ke dalam vektor multidimensi di mana kata dengan makna serupa akan berada dalam posisi yang berdekatan. Lebih canggih karena menangkap makna semantik.

Classification Models (Model Klasifikasi)

  • Naïve Bayes
    Menggunakan probabilitas berdasarkan teorema Bayes, sangat efisien untuk teks yang berjumlah besar.
  • Support Vector Machine (SVM)
    Berusaha menemukan hyperplane terbaik yang memisahkan data ke dalam kelas-kelas yang berbeda di ruang dimensi tinggi.
  • Random Forest
    Menggabungkan banyak pohon keputusan (decision trees) untuk meningkatkan akurasi dan mengontrol overfitting.

Hyperparameter Tuning

Untuk mendapatkan performa terbaik, parameter dalam model perlu dioptimalkan. Teknik seperti Grid Search (mencoba semua kombinasi parameter) atau Random Search (mencoba kombinasi acak) digunakan untuk menemukan set parameter terbaik.

Baca Juga : Pelatihan Data Analysis with Python

Kelebihan dan Kekurangan Pendekatan Machine Learning

Kelebihan

Kekurangan

Lebih akurat jika data berlabel memadai

Membutuhkan data berlabel dan proses pelabelan memakan waktu

Dapat mengenali konteks kata secara lebih baik

Model perlu tuning hyperparameter yang kompleks

Fleksibel dengan berbagai representasi fitur

Membutuhkan sumber daya komputasi lebih besar

Pre-processing Data Twitter

Langkah kritis yang mendahului kedua metode analisis adalah pre-processing atau pembersihan data. Data Twitter mentah sangat berantakan dan informal, sehingga harus "dibersihkan" sebelum dianalisis.

Langkah-langkahnya meliputi:

  • Case Folding: Mengubah semua huruf menjadi lowercase (kecil) untuk konsistensi.

  • Cleaning: Menghapus hashtag (#), mention (@), URL, karakter non-alfanumerik, dan punctuation.

  • Slang & Contraction Handling: Mengganti kata tidak baku ("dg" -> "dengan") dan memperluas kontraksi ("don't" -> "do not").

  • Stopword Removal: Menghapus kata umum yang tidak bermakna (dalam, yang, di, dll.), tetapi menyisakan negasi ("tidak", "bukan").

  • Tokenization: Memecah kalimat menjadi unit kata yang lebih kecil (token).

  • Stemming/Lemmatization: Mengurangi kata ke bentuk dasarnya (stemming: "merasa" -> "rasa"; lemmatization lebih cerdas dengan mempertimbangkan konteks).

  • Emoji Handling: Mengonversi emoji menjadi representasi tekstualnya (😊 -> ":smiling_face:") karena emoji menyimpan muatan sentimen yang kuat.

Baca Juga : Pelatihan Data Analysis with Python

Kesimpulan

Analisis sentimen pada data social media merupakan tools penting untuk memahami opini publik terhadap isu-isu terkini.

Kedua pendekatan memiliki kelebihan masing-masing:

  • Gunakan Pendekatan Leksikon (VADER) jika Anda membutuhkan analisis yang cepat, tidak perlu melabeli data, dan fokus pada teks media sosial yang informal.

  • Gunakan Pendekatan Machine Learning (seperti SVC) dengan feature representation TF-IDF, memberikan hasil yang lebih akurat.

🚀Upskilling Tim di Perusahaan & Instansi Anda dengan Data Analysis

Setiap perusahaan, lembaga pendidikan, dan instansi pemerintah perlu membekali SDM-nya agar upgrade diri terhadap teknologi analitik dan kecerdasan buatan.

Bagi Anda yang tertarik mempelajari Data Analysis, saatnya upgrade skill Anda bersama SUHU Professional Training & Consulting.

Pelatihan yang kami rekomendasikan: 

Silakan konsultasikan kebutuhan Anda bersama kami dengan klik link berikut: https://bit.ly/kontaksuhu

Kata SUHU Pilihan

Loading...