---
title: Agent Eval Suite Langsmith
category: product
entity_type: skill
price: ₺369
canonical: https://forgehouse.ai/tr/skiller/agent-eval-suite-langsmith/
lang: tr
hreflang_alt: https://forgehouse.ai/skills/agent-eval-suite-langsmith/
last_updated: 2026-06-20
---

# Agent Eval Suite Langsmith

> Production agent eval suite LangSmith dataset curation + Promptfoo assertion framework +…

Yapay zeka ajanları için seçilmiş altın veri setlerini, bir doğrulama çerçevesini ve bir CI kapısını birleştiren üretim sınıfı bir değerlendirme paketi. Öznel elle örnek kontrollerini her değişiklikte çalışan otomatik bir kalite kapısıyla değiştirir; gerileme, saldırı ve kalibrasyon testleri bir ajan yayınlanmadan önce geçmelidir.

## Ne için kullanılır
- Değişiklikleri birleştirmeden önce ajanlar için gerileme testleri eklemek
- Ajan başına 50+ örnekten oluşan seçilmiş bir altın veri seti oluşturmak
- Ajan çıktısını bağımsız bir LLM-yargıç rubriğiyle puanlamak
- Geçiş oranı veya kalibrasyon düştüğünde birleştirmeleri otomatik bloklamak
- Ajanları komut enjeksiyonu ve jailbreak vakalarıyla kırmızı takım testine sokmak
- Brier puanı kalibrasyonuyla aşırı özgüveni ölçmek

## Faydalar
- Kalite gerilemelerini kullanıcıya ulaşmadan önce, üç hafta sonra değil yakalayın
- Yaklaşık %20'lik örnek kontrol kapsamından her değişiklikte %100'e geçin
- 'Bence iyi' kararını nesnel geçiş oranı ve kalibrasyon kapılarıyla değiştirin
- Hangi testin neden başarısız olduğunu tam gerekçe izleriyle açığa çıkarın

## Ne içerir
- Yerleşik kişisel veri temizlemeli altın veri seti hazırlama betiği
- Doğrulama yapılandırması (regex, JSON şeması, LLM-yargıç, gömme benzerliği)
- Birleştirmeleri geçiş oranı ve kalibrasyon eşiklerine göre kapılayan CI akışı
- Brier puanı ve beklenen kalibrasyon hatası hesaplaması
- Saldırı test kategorileri (enjeksiyon, jailbreak, veri sızdırma, hedef kaçırma, taşma)
- Veri sızıntısı, yargıç önyargısı ve anlık görüntü boşluklarını kapsayan anti-kalıp kataloğu

## Kimler için
Elle inceleme yerine otomatik ve nesnel kalite kapılarına ihtiyaç duyan, üretimde birden çok ajan çalıştıran yapay zeka mühendisliği ekipleri.

## Nasıl çalışır
Suite'in her pull request'te koştuğu gerçek kapı, kara kutu yok, yaptığı iş tam olarak bu:
1. Üretim trace'lerinden altın örnek devşirir: yüksek puanlı çalıştırmaları çeker, kişisel veriyi (e-posta, telefon, kimlik numarası, API anahtarı) regex ile temizler ve veri setini SHA256 özetiyle Git'e işler
2. Her pull request'te önce veri seti özetini commit edilmiş checksum ile doğrular, böylece kimse test setini sessizce değiştiremez
3. Eval suite'i paralel koşar (ajan başına 50+ örnek, eşzamanlılık 10) ve testi dosya yoluyla referanslanan canlı üretim sistem prompt'una karşı yapar, bayat kopyaya değil
4. Her çıktıya dört doğrulama zinciri uygular: yasak kelime regex'i, JSON şema kontrolü, 5 puanlık rubrik uygulayan bağımsız bir hakem model ve beklenen cevapla embedding benzerliği
5. Sonuçlardan geçme oranı, Brier skoru ve kalibrasyon hatasını hesaplar; geçme oranı %95'in altında veya Brier 0.15'in üstündeyse merge kapısı kapanır, çünkü aşırı özgüvenli ajan risktir
6. Raporu PR yorumu olarak yapıştırır, bulguları repo güvenlik sekmesine yükler ve gecelik tam koşu bir gerileme yakaladığında anında alarm gönderir

## Sık sorulanlar
### Mevcut CI'ma oturur mu, yoksa ayrı bir hat mı gerekir?
Bir CI kapısı olarak kurulur, böylece regresyon ve düşmanca testler zaten birleştirme yaptığınız hat içinde her değişiklikte çalışır. Kapıdan geçemeyen değişiklik yayına çıkmaz.

### Bir modelin çıktısını puanlamak için başka bir LLM yargıcına güvenebilir miyim?
Tam da bu yüzden kalibrasyon testleri regresyon ve düşmanca testlerin yanında durur, yargıcı doğru olduğu bilinen örneklerle ölçer. Değerlendirme ölçütü de denetlenen ajandan bağımsızdır, yani kendi işini puanlamaz.

### Altın veri setini yazıp hataları benim için düzeltir mi?
Hayır, doğru davranışı tanımlayan ajan başına 50'den fazla örneği siz hazırlarsınız, değerlendirme paketi de bunları zorunlu kılar. Regresyonu işaretler; ajanı düzeltmek sizin mühendislik işinizdir.

## Fiyat
₺369, tek seferlik, abonelik yok. KDV dahil.

İlgili rehber: [Yapay zekâ ve LLM mühendisliği](https://forgehouse.ai/tr/rehberler/yapay-zeka-llm-muhendisligi/)
