---
title: Spark Optimization
category: product
entity_type: skill
price: ₺369
canonical: https://forgehouse.ai/tr/skiller/spark-optimization/
lang: tr
hreflang_alt: https://forgehouse.ai/skills/spark-optimization/
last_updated: 2026-06-20
---

# Spark Optimization

> Optimize Apache Spark jobs with partitioning, caching, shuffle optimization, and memory tuning.

Yavaş Apache Spark işlerini hızlı ve uygun maliyetli hale getiren üretim rehberi. Asıl darboğazlara saldırır: shuffle, veri çarpıklığı, bölüm boyutlandırma ve bellek baskısı: somut PySpark desenleri, broadcast ve bucket join stratejileri ve AQE etkin bir yapılandırma şablonuyla; böylece veri hatlarınız küme maliyetlerini patlatmadan ölçeklenir.

## Ne için kullanılır
- Yavaş Spark işlerini ve ETL hatlarını hızlandırma
- İş süresini domine eden veri çarpıklığını teşhis etme
- Bölümleri 128-256MB aralığına doğru boyutlandırma
- Broadcast, sort-merge ve bucket join arasında seçim
- Bellek dökülmesini ve OOM'u durdurmak için executor ayarı
- Tam tarama bulmak için EXPLAIN planlarını okuma

## Faydalar
- En pahalı işlemi (shuffle) en aza indirerek süreyi kısaltın
- Otomatik ölçekleme ve doğru boyutlandırmayla küme harcamasını düşürün
- Tek bir çarpık bölümün tüm işi bekletmesini engelleyin
- Sütunsal formatlar ve filtre itmesiyle 10-100 kat daha az veri okuyun

## Ne içerir
- AQE etkin optimize SparkSession yapılandırma şablonu
- Bölüm boyutlandırma hesaplayıcısı ve budama desenleri
- Ciddi çarpıklık için manuel salting dahil dört join stratejisi
- Depolama seviyesine göre cache, persist ve checkpoint rehberi
- Executor bellek dağılımı ve OOM önleme ayarları
- Çarpıklık tespiti ve aşama metriği izleme parçacıkları

## Kimler için
Yavaş işlerin hızlı çalışmasına, büyük veri kümelerine ölçeklenmesine ve küme bütçesinde kalmasına ihtiyaç duyan, Spark hatları işleten veri mühendisleri için.

## Nasıl çalışır
Yavaş bir Spark job'ında skill'in izlediği teşhis sırası, en pahalı maliyetten başlayarak şu:
1. Spark UI'ı açar, toplam süreyi domine eden stage'i bulur; task süre histogramından skew okur. Max/ortalama partition oranı 2x'i geçiyorsa tek bir sıcak partition bütün job'ı rehin tutuyordur.
2. Önce shuffle avlar, çünkü Spark'taki en pahalı operasyon shuffle'dır: partition sayısı sadece azalıyorsa repartition yerine coalesce, groupBy öncesi lokal ön-toplama, kesin distinct yerine approx_count_distinct.
3. Sonra join'leri düzeltir: küçük taraf executor belleğine gerçekten sığıyorsa F.broadcast ile açıkça yayınlar, büyük-büyük join'de sort-merge'e bırakır; ciddi skew'de salting uygular (sıcak anahtara rastgele ek, karşı tarafta explode).
4. Partition'ları 128-256MB hedefine oturtur ve AQE'yi açar; böylece partition sayısı ve skew'li join'ler plan anında donmak yerine çalışma anında ayarlanmaya devam eder.
5. Yalnızca birden fazla action'da tekrar kullanılan DataFrame'leri cache'ler, count ile materyalize eder, iş bitince unpersist çağırır; büyük veriyi driver'a asla collect etmez, take(n) bunun için var.
6. explain(mode="cost") çıktısı ve partition skew yeniden kontrolüyle yeni planın fazla shuffle aşamalarını gerçekten kaldırdığını doğrular, ancak ondan sonra job'a ayarlandı der.

## Sık sorulanlar
### Databricks veya EMR gibi yönetilen Spark ortamlarında da geçerli mi, yoksa sadece kendi kümemi yönetiyorsam mı işe yarar?
Desenler sağlayıcıya değil motora bağlı: shuffle azaltma, 128-256MB bölüm boyutlandırma, join stratejisi seçimi ve executor bellek dağılımı Spark'ın çalıştığı her yerde uygulanır. Örnekler PySpark, AQE etkin SparkSession yapılandırma şablonu da config ayarına izin veren her ortama taşınır.

### Spark'ta zaten AQE var. Üstüne bu rehbere neden ihtiyaç duyayım?
AQE orta düzey çarpıklığı ve bölüm birleştirmeyi kendisi halleder, ama broadcast ile bucket join arasında sizin yerinize seçim yapmaz, ciddi çarpık bir anahtarı salting ile bölmez, bir aşamanın neden diske döküldüğünü açıklamaz. Rehber tam da AQE'nin karar veremediği yerleri kapsar; manuel salting ve EXPLAIN planı okuma dahil.

### Kümemi otomatik ayarlayıp işleri ben uğraşmadan düzeltir mi?
Hayır. Bu bir desen seti, yapılandırma şablonu ve çarpıklık tespit parçacıkları bütünü; hattınızı kendi kendine yeniden yazan bir araç değil. Aşama metriklerinizi yine siz okur, darboğazı siz bulur ve uygun deseni siz uygularsınız.

## Fiyat
₺369, tek seferlik, abonelik yok. KDV dahil.

İlgili rehber: [Yapay zekâ ile veri analitiği](https://forgehouse.ai/tr/rehberler/yapay-zeka-veri-analitigi/)
