Kata SUHU

Mengenal Snowflake: Cara Kerja, Arsitektur, dan Manfaatnya untuk Data Analysis & AI

28 Nov 2025

Apa Itu Snowflake?

Snowflake adalah cloud-native data platform yang memungkinkan organisasi untuk menyimpan, memproses, mengelola, dan menganalisis data dalam skala besar dengan performa tinggi. 

Tidak seperti sistem on-premises yang menggabungkan komputasi dan penyimpanan dalam satu hardware, Snowflake memisahkan kedua komponen itu.

[Ikuti WEBINAR GRATIS tentang Agentic AI for Data Analytics: Autonomous Workflow & Instant Insight Generation di SUHU]

3 Layer Snowflake Architecture

3 Layer Snowflake Architecture (2)

Kelebihan Snowflake terletak pada arsitektur multi-cluster shared data yang memisahkan storage dan compute layer.

3 Layer Architecture Snowflake

Layer

Fungsi

Storage Layer

Penyimpanan data

Compute Layer

Virtual Warehouse

Service Layer

Orkestrasi & manajemen

1. Storage Layer

Storage layer berfungsi sebagai centralized repository untuk menyimpan seluruh data, yang dioptimalkan menggunakan columnar format dan teknik highly compressedSnowflake mengelola:

  • Partitioning otomatis

  • Micro-partition indexing

  • Metadata management

  • Encryption

Pengguna tidak perlu melakukan tuning manual.

2. Compute Layer

Proses Compute dilakukan melalui Virtual Warehouse, yang merupakan sebuah computing cluster yang bersifat elastis. Computing resources pada cluster ini dapat di-scale up/down (dinaik-turunkan) secara instan.

Setiap tim dapat memiliki warehouse sendiri, misalnya:

  • Warehouse untuk BI dashboard

  • Warehouse untuk data engineering

  • Warehouse untuk machine learning

Tidak ada resource contention antar tim, yang menjadi masalah umum pada sistem on-premises.

3. Services Layer

Layer ini mengendalikan seluruh fungsi operasional seperti:

  • Security & access control

  • Transaction management

  • Query optimization

  • Metadata management

Snowflake secara otomatis mengoptimalkan query tanpa perlu index manual, vacuuming, atau tuning lainnya.

Baca juga : Pelatihan Data Science with Python

Fitur-Fitur Snowflake

Fitur Fitur Snowflake

Snowflake hadir dengan banyak fitur yang mempercepat pekerjaan data engineering maupun AI development. Ini fitur-fitur Snowflake:

1. Automatic Scalability

Virtual warehouse dapat scale-up atau scale-out otomatis.

Contoh:

  • Tim BI menjalankan dashboard.

  • Data engineer menjalankan ETL.

  • AI engineer menarik data untuk training model.

Semua bisa dilakukan tanpa saling mengganggu kinerja.

2. High Performance

Karena teknologi seperti:

  • Columnar storage

  • Automatic query optimization

  • Result caching

  • Intelligent metadata

Query kompleks tetap berjalan cepat meski dataset sangat besar.

3. Enterprise Security

Termasuk:

  • End-to-end encryption

  • Role-Based Access Control (RBAC)

  • MFA

  • Network policy & masking

  • HIPAA, GDPR compliance

  • Time Travel & Fail-safe (recovery hingga 90 hari)

4. Mendukung Data Terstruktur & Semi-Terstruktur

Snowflake mendukung berbagai format data:

Format

Keterangan

CSV

Data tabular klasik

Parquet

Optimal untuk big data

JSON

Sangat umum untuk data aplikasi

ORC

Format Hadoop ecosystem

Avro

Cocok untuk event / log data

XML

Dipakai pada sistem enterprise lama

Cocok untuk pipeline big data dan IoT.

5. Integrasi Luas

Dapat terhubung dengan:

  • Tools BI → Tableau, Power BI, Looker

  • ETL/ELT → Fivetran, Matillion, Airbyte

  • Python, Java, Scala melalui Snowpark

  • AI tools melalui Snowflake Cortex

Yuk ikut Pelatihan Introduction to Data Science di SUHU

Snowflake untuk Data Analysis

Snowflake Architecture

Snowflake dibuat untuk enterprise-level analytical performance. Berikut fungsi analysis yang digunakan:

1. Data Warehousing

Snowflake dapat menyimpan data dari berbagai sumber ke dalam satu centralized data warehouse.

Keuntungan:

  • Query cepat karena columnar architecture.

  • Tidak perlu tuning manual.

  • Mendukung analisis ad-hoc hingga dashboard real-time.

2. Data Lake / Lakehouse

Snowflake mendukung raw data storage dengan integrasi langsung dari S3, Azure Blob, atau GCP Storage.

  • Bisa query data di S3 tanpa copy (external table).

  • Bisa menggabungkan data lake + warehouse dalam satu platform.

3. Real-Time Analytics

Dengan fitur:

Snowpipe

Auto-load data dari S3/Blob setiap file baru muncul.

Snowpipe Streaming

Push data baris per baris dengan latensi < 1 detik.

Streams & Tasks

  • Digunakan untuk CDC (Change Data Capture).

  • Untuk pipeline data otomatis tanpa external scheduler.

Snowflake untuk AI & Machine Learning

Snowflake Cortex Ai 1

Snowflake tidak hanya untuk analitik. Platform ini semakin populer di kalangan AI engineer karena dua fitur kuncinya:

1. Snowflake Cortex (AI Layer)

Cortex adalah Snowflake AI/ML module yang bisa menjalankan:

  • Generative AI

  • Natural Language Query (NLQ)

  • Text summarization & translation

  • Sentiment analysis

  • Embedding generation

  • LLM inference dalam SQL

Contoh penggunaan:

SELECT SNOWFLAKE.CORTEX.COMPLETE(
    'llama3-70b',
    'Summarize the following customer analysis: ...'
);

 Cortex juga mampu:

  • Query data dengan natural language melalui Cortex Analyst.

  • Membangun aplikasi AI tanpa keluar dari Snowflake.

  • Menjalankan prompt langsung ke LLM internal (Deepseek, Llama, dll).

2. Snowpark (Python, Java, Scala in-database)

Snowpark memungkinkan developer membuat data transformation atau AI model langsung di dalam Snowflake tanpa harus:

  • mengekspor data

  • menarik file ke local notebook

  • atau menjalankan Spark cluster terpisah

Kelebihannya:

  • In-database processing (lebih aman).

  • Kolaborasi cross language (SQL + Python + Java).

  • Bisa membuat UDF/Stored Procedure dengan Python.

  • Tidak perlu cluster Spark eksternal

Contoh Snowpark Python

from snowflake.snowpark import Session
from snowflake.snowpark.functions import col

# Define connection parameters
connection_params = {
    "account": "your_account_identifier",
    "user": "your_username",
    "password": "your_password",
    "role": "your_role",
    "warehouse": "your_warehouse",
    "database": "your_database",
    "schema": "your_schema"
}

# Create session
session = Session.builder.configs(connection_params).create()

# Query and filter data
df = session.table("sales").filter(col("amount") > 1000)
df.show()

# Close session when done
session.close()

Ini mempermudah AI engineer untuk membuat feature engineering, data preparation, atau inference pipeline langsung dari Snowflake.

Baca juga : Pelatihan Data Science with Python

Snowflake di AWS, Azure, dan Google Cloud

Snowflake the Future of Data Scaled

Snowflake dapat berjalan di tiga cloud berbeda.
Untuk AWS, integrasinya paling sempurna:

Integrasi Snowflake + AWS:

  • Amazon S3 → tempat staging & data lake

  • AWS Lambda → trigger Snowpipe otomatis

  • AWS SNS/SQS → event-driven pipeline

  • AWS PrivateLink → koneksi private, aman, tanpa internet

Pipeline architecture:

  1. File masuk ke S3

  2. S3 Event → trigger SNS

  3. SNS → jalankan Lambda

  4. Lambda → push ke Snowpipe

  5. Snowflake → otomatis load ke table

  6. Streams & Tasks → proses ke warehouse

Cara Kerja Snowflake untuk Data Analysis (Contoh Workflow)

How to Become a Freelance Data Analyst

1. Load data

  • Upload ke Snowflake UI

  • COPY INTO dari S3

  • Auto-load dengan Snowpipe

2. Transformasi

Dengan:

  • SQL

  • Snowpark Python

  • Stored Procedure

  • dbt (jika digunakan untuk ELT)

3. Query untuk analitik

Contoh query TPC-H:

SELECT
  l_returnflag,
  l_linestatus,
  SUM(l_quantity) AS sum_qty,
  SUM(l_extendedprice) AS sum_price
FROM lineitem
WHERE l_shipdate <= DATEADD(day, -90, '1998-12-01')
GROUP BY 1, 2;

4. Integrasi BI

Disambungkan ke:

  • Power BI

  • Tableau

  • Looker Studio

Snowflake cocok digunakan untuk:

Untuk Data Analyst

  • Query cepat

  • Mudah buat dashboard

  • SQL standar

Untuk Data Engineer

  • Mudah membangun pipeline

  • Auto-scaling membuat ETL cepat

  • CDC via Streams/Tasks

Untuk Cloud Engineer

  • Integrasi natural dengan AWS/Azure/GCP

  • Tidak ada konfigurasi server

Untuk AI Engineer

  • Bisa jalankan AI/ML langsung di Snowflake via Cortex

  • Snowpark Python untuk pipeline feature engineering

  • Tidak perlu pisahkan environment data & AI

Kesimpulan

Fitur

Manfaat 

Contoh Penggunaan

Separation Compute & Storage

Scaling fleksibel

Analitik besar tanpa ganggu ETL

AI via Cortex

Running LLM & NLP dalam SQL

Ringkas review pelanggan pakai Llama

Snowpark

Python/Java in-database

Feature engineering untuk ML

Snowpipe

Real-time ingestion

Log streaming

Data Sharing

Tidak perlu copy data

Kolaborasi antar tim/instansi

Security & Compliance

Aman untuk enterprise

HIPAA, GDPR, PII masking

Seperti itu penjelasan terkait Snowflake yang powerful untuk Data Analytic, AI dan Machine Learning. Snowflake bukan hanya solusi untuk data warehousing tetapi end-to-end data & AI platform juga.

Ingin menguasai Snowflake dan membangun data pipeline yang scalable?

Ikuti Pelatihan Data Analytics & Implementasi Snowflake di SUHU. Pelatihan yang kami rekomendasikan: 

Silakan konsultasikan kebutuhan Anda bersama kami dengan klik link berikut: https://bit.ly/kontaksuhu

Kata SUHU Pilihan

Loading...