Agent Eval Suite Langsmith

Yapay zeka ajanları için seçilmiş altın veri setlerini, bir doğrulama çerçevesini ve bir CI kapısını birleştiren üretim sınıfı bir değerlendirme paketi.

Öznel elle örnek kontrollerini her değişiklikte çalışan otomatik bir kalite kapısıyla değiştirir; gerileme, saldırı ve kalibrasyon testleri bir ajan yayınlanmadan önce geçmelidir.

₺369 tek seferlik
Bir kit içine ekle →

Fiyatlara KDV (%20) dahildir. · Gerçek ajans işinden çıkarıldı · tek seferlik, kilit yok

  • Tür Skill
  • Kategori Yapay Zeka & LLM
  • Teslimat E-posta · anında
  • Lisans Tek seferlik
Çalışma önizlemesi
forgehouse, agent-eval-suite-langsmith

Çalışmanın içinden · kara kutu yok

Satın almadan önce işin kendisini gör.

Suite'in her pull request'te koştuğu gerçek kapı, kara kutu yok, yaptığı iş tam olarak bu:

  1. Üretim trace'lerinden altın örnek devşirir: yüksek puanlı çalıştırmaları çeker, kişisel veriyi (e-posta, telefon, kimlik numarası, API anahtarı) regex ile temizler ve veri setini SHA256 özetiyle Git'e işler
  2. Her pull request'te önce veri seti özetini commit edilmiş checksum ile doğrular, böylece kimse test setini sessizce değiştiremez
  3. Eval suite'i paralel koşar (ajan başına 50+ örnek, eşzamanlılık 10) ve testi dosya yoluyla referanslanan canlı üretim sistem prompt'una karşı yapar, bayat kopyaya değil
  4. Her çıktıya dört doğrulama zinciri uygular: yasak kelime regex'i, JSON şema kontrolü, 5 puanlık rubrik uygulayan bağımsız bir hakem model ve beklenen cevapla embedding benzerliği
  5. Sonuçlardan geçme oranı, Brier skoru ve kalibrasyon hatasını hesaplar; geçme oranı %95'in altında veya Brier 0.15'in üstündeyse merge kapısı kapanır, çünkü aşırı özgüvenli ajan risktir
  6. Raporu PR yorumu olarak yapıştırır, bulguları repo güvenlik sekmesine yükler ve gecelik tam koşu bir gerileme yakaladığında anında alarm gönderir
Kullanım senaryoları · taktığında neler oluyor

Tek güç kaynağı. 6 hat dışarı.

agent-eval-suite-langsmith · çekirdek

çekirdek aktif · 6 hat

  1. Değişiklikleri birleştirmeden önce ajanlar için gerileme testleri eklemek

    ✓ değişiklikleri birleştir…
  2. Ajan başına 50+ örnekten oluşan seçilmiş bir altın veri seti oluşturmak

    ✓ ajan başına 50+ örnekten
  3. Ajan çıktısını bağımsız bir LLM-yargıç rubriğiyle puanlamak

    ✓ ajan çıktısını bağımsız
  4. Geçiş oranı veya kalibrasyon düştüğünde birleştirmeleri otomatik bloklamak

    ✓ geçiş oranı veya kalibra…
  5. Ajanları komut enjeksiyonu ve jailbreak vakalarıyla kırmızı takım testine sokmak

    ✓ ajanları komut enjeksiyonu
  6. Brier puanı kalibrasyonuyla aşırı özgüveni ölçmek

    ✓ brier puanı kalibrasyonu…
Kazanımlar · elinde kalanlar

Aldıkların sende kalır.

Zamanı ileri sar. Ne kaldığını izle.

Sonsuza dek

Sahip olmak tam olarak bu.

Kiralık yığın

yapay zekâ yazım aracı: abonelik

süresi doldu · erişim gitti

analiz paketi: abonelik

süresi doldu · erişim gitti

tasarım platformu: abonelik

süresi doldu · erişim gitti

(geriye bir şey kalmadı)

Senin ocağın

  1. Kalite gerilemelerini kullanıcıya ulaşmadan önce, üç hafta sonra değil yakalayın

    lisans: kalıcı
  2. Yaklaşık %20'lik örnek kontrol kapsamından her değişiklikte %100'e geçin

    lisans: kalıcı
  3. 'Bence iyi' kararını nesnel geçiş oranı ve kalibrasyon kapılarıyla değiştirin

    lisans: kalıcı
  4. Hangi testin neden başarısız olduğunu tam gerekçe izleriyle açığa çıkarın

    lisans: kalıcı

abonelikler biter · tapular bitmez

Ne içerir · eksiksiz manifest

Kutudaki her şey.

Bir parçayı eline al. Çalışırken izle.

Yerleşik kişisel veri temizlemeli altın veri seti hazırlama betiği

parça 01 / 06 · kutuda

6 parça · tek çalışan sistem · e-postayla anında teslim

Kimler için

Bu herkes için dövülmedi.

  • Araç kiralamayı sahip olmaya tercih ediyorsan, sana göre değil.
  • Yığınını senin yerine başkası yönetsin istiyorsan, sana göre değil.
  • Tahmin etmekten memnunsan, sana göre değil.
Hâlâ burada mısın? Güzel.

Elle inceleme yerine otomatik ve nesnel kalite kapılarına ihtiyaç duyan, üretimde birden çok ajan çalıştıran yapay zeka mühendisliği ekipleri.

o zaman bu senin için dövüldü.

Hangi AI ile çalışır

Tasarımı gereği evrensel: her yapay zekada çalışır. Açık Agent Skills + MCP biçiminde gelir (Claude’da yerleşik); ChatGPT, Gemini, Cursor ve Copilot aynı dosyaları kendine uyarlar.

  • Claude Yerleşik biçim
  • ChatGPT Açık standartla uyarlanır
  • Gemini Açık standartla uyarlanır
  • Cursor Açık standartla uyarlanır
  • Copilot Açık standartla uyarlanır
Sorular · hâlâ havada

Aklındakini yakala.

hava temizlendi. seninle ocak arasında hiçbir şey kalmadı.
bir kıvılcım yakala: ocak cevaplar

  1. Mevcut CI'ma oturur mu, yoksa ayrı bir hat mı gerekir?

    Bir CI kapısı olarak kurulur, böylece regresyon ve düşmanca testler zaten birleştirme yaptığınız hat içinde her değişiklikte çalışır. Kapıdan geçemeyen değişiklik yayına çıkmaz.

  2. Bir modelin çıktısını puanlamak için başka bir LLM yargıcına güvenebilir miyim?

    Tam da bu yüzden kalibrasyon testleri regresyon ve düşmanca testlerin yanında durur, yargıcı doğru olduğu bilinen örneklerle ölçer. Değerlendirme ölçütü de denetlenen ajandan bağımsızdır, yani kendi işini puanlamaz.

  3. Altın veri setini yazıp hataları benim için düzeltir mi?

    Hayır, doğru davranışı tanımlayan ajan başına 50'den fazla örneği siz hazırlarsınız, değerlendirme paketi de bunları zorunlu kılar. Regresyonu işaretler; ajanı düzeltmek sizin mühendislik işinizdir.

  4. Nasıl teslim edilir?

    Satın alımdan hemen sonra e-posta ile iletilir, kuruluma hazır, anında indirilir; bekleme yok.

  5. Tek seferlik mi, abonelik mi?

    Tek seferlik alımdır; abonelik veya gizli ücret yoktur. Fiyata KDV (%20) dahildir.

  6. İade alabilir miyim?

    Dijital ürün olduğu için indirildikten sonra iade yapılmaz. Bu yüzden ne içerdiğini ve kime uygun olduğunu burada açıkça paylaşıyoruz.