Mevcut CI'ma oturur mu, yoksa ayrı bir hat mı gerekir?

Bir CI kapısı olarak kurulur, böylece regresyon ve düşmanca testler zaten birleştirme yaptığınız hat içinde her değişiklikte çalışır. Kapıdan geçemeyen değişiklik yayına çıkmaz.

Bir modelin çıktısını puanlamak için başka bir LLM yargıcına güvenebilir miyim?

Tam da bu yüzden kalibrasyon testleri regresyon ve düşmanca testlerin yanında durur, yargıcı doğru olduğu bilinen örneklerle ölçer. Değerlendirme ölçütü de denetlenen ajandan bağımsızdır, yani kendi işini puanlamaz.

Altın veri setini yazıp hataları benim için düzeltir mi?

Hayır, doğru davranışı tanımlayan ajan başına 50'den fazla örneği siz hazırlarsınız, değerlendirme paketi de bunları zorunlu kılar. Regresyonu işaretler; ajanı düzeltmek sizin mühendislik işinizdir.

Nasıl teslim edilir?

Satın alımdan hemen sonra e-posta ile iletilir, kuruluma hazır, anında indirilir; bekleme yok.

Tek seferlik mi, abonelik mi?

Tek seferlik alımdır; abonelik veya gizli ücret yoktur. Fiyata KDV (%20) dahildir.

İade alabilir miyim?

Dijital ürün olduğu için indirildikten sonra iade yapılmaz. Bu yüzden ne içerdiğini ve kime uygun olduğunu burada açıkça paylaşıyoruz.

Skill Yapay Zeka & LLM →

Agent Eval Suite Langsmith

Yapay zeka ajanları için seçilmiş altın veri setlerini, bir doğrulama çerçevesini ve bir CI kapısını birleştiren üretim sınıfı bir değerlendirme paketi.

Öznel elle örnek kontrollerini her değişiklikte çalışan otomatik bir kalite kapısıyla değiştirir; gerileme, saldırı ve kalibrasyon testleri bir ajan yayınlanmadan önce geçmelidir.

₺369 tek seferlik

Bir kit içine ekle →

Fiyatlara KDV (%20) dahildir. · Gerçek ajans işinden çıkarıldı · tek seferlik, kilit yok

Tür Skill
Kategori Yapay Zeka & LLM
Teslimat E-posta · anında
Lisans Tek seferlik

Çalışma önizlemesi

forgehouse, agent-eval-suite-langsmith

Çalışmanın içinden · kara kutu yok

Satın almadan önce işin kendisini gör.

Suite'in her pull request'te koştuğu gerçek kapı, kara kutu yok, yaptığı iş tam olarak bu:

Üretim trace'lerinden altın örnek devşirir: yüksek puanlı çalıştırmaları çeker, kişisel veriyi (e-posta, telefon, kimlik numarası, API anahtarı) regex ile temizler ve veri setini SHA256 özetiyle Git'e işler
Her pull request'te önce veri seti özetini commit edilmiş checksum ile doğrular, böylece kimse test setini sessizce değiştiremez
Eval suite'i paralel koşar (ajan başına 50+ örnek, eşzamanlılık 10) ve testi dosya yoluyla referanslanan canlı üretim sistem prompt'una karşı yapar, bayat kopyaya değil
Her çıktıya dört doğrulama zinciri uygular: yasak kelime regex'i, JSON şema kontrolü, 5 puanlık rubrik uygulayan bağımsız bir hakem model ve beklenen cevapla embedding benzerliği
Sonuçlardan geçme oranı, Brier skoru ve kalibrasyon hatasını hesaplar; geçme oranı %95'in altında veya Brier 0.15'in üstündeyse merge kapısı kapanır, çünkü aşırı özgüvenli ajan risktir
Raporu PR yorumu olarak yapıştırır, bulguları repo güvenlik sekmesine yükler ve gecelik tam koşu bir gerileme yakaladığında anında alarm gönderir

Kullanım senaryoları · taktığında neler oluyor

Tek güç kaynağı. 6 hat dışarı.

agent-eval-suite-langsmith · çekirdek

çekirdek aktif · 6 hat

Değişiklikleri birleştirmeden önce ajanlar için gerileme testleri eklemek

✓ değişiklikleri birleştir…
Ajan başına 50+ örnekten oluşan seçilmiş bir altın veri seti oluşturmak

✓ ajan başına 50+ örnekten
Ajan çıktısını bağımsız bir LLM-yargıç rubriğiyle puanlamak

✓ ajan çıktısını bağımsız
Geçiş oranı veya kalibrasyon düştüğünde birleştirmeleri otomatik bloklamak

✓ geçiş oranı veya kalibra…
Ajanları komut enjeksiyonu ve jailbreak vakalarıyla kırmızı takım testine sokmak

✓ ajanları komut enjeksiyonu
Brier puanı kalibrasyonuyla aşırı özgüveni ölçmek

✓ brier puanı kalibrasyonu…

Kazanımlar · elinde kalanlar

Aldıkların sende kalır.

Zamanı ileri sar. Ne kaldığını izle.

Sonsuza dek

Sahip olmak tam olarak bu.

Kiralık yığın

yapay zekâ yazım aracı: abonelik

süresi doldu · erişim gitti

analiz paketi: abonelik

süresi doldu · erişim gitti

tasarım platformu: abonelik

süresi doldu · erişim gitti

(geriye bir şey kalmadı)

Senin ocağın

Kalite gerilemelerini kullanıcıya ulaşmadan önce, üç hafta sonra değil yakalayın
lisans: kalıcı
Yaklaşık %20'lik örnek kontrol kapsamından her değişiklikte %100'e geçin
lisans: kalıcı
'Bence iyi' kararını nesnel geçiş oranı ve kalibrasyon kapılarıyla değiştirin
lisans: kalıcı
Hangi testin neden başarısız olduğunu tam gerekçe izleriyle açığa çıkarın
lisans: kalıcı

abonelikler biter · tapular bitmez

Ne içerir · eksiksiz manifest

Kutudaki her şey.

Bir parçayı eline al. Çalışırken izle.

Yerleşik kişisel veri temizlemeli altın veri seti hazırlama betiği

parça 01 / 06 · kutuda

6 parça · tek çalışan sistem · e-postayla anında teslim

Kimler için

Bu herkes için dövülmedi.

Araç kiralamayı sahip olmaya tercih ediyorsan, sana göre değil.
Yığınını senin yerine başkası yönetsin istiyorsan, sana göre değil.
Tahmin etmekten memnunsan, sana göre değil.

Hâlâ burada mısın? Güzel.

Elle inceleme yerine otomatik ve nesnel kalite kapılarına ihtiyaç duyan, üretimde birden çok ajan çalıştıran yapay zeka mühendisliği ekipleri.

o zaman bu senin için dövüldü.

Hangi AI ile çalışır

Tasarımı gereği evrensel: her yapay zekada çalışır. Açık Agent Skills + MCP biçiminde gelir (Claude’da yerleşik); ChatGPT, Gemini, Cursor ve Copilot aynı dosyaları kendine uyarlar.

Claude Yerleşik biçim
ChatGPT Açık standartla uyarlanır
Gemini Açık standartla uyarlanır
Cursor Açık standartla uyarlanır
Copilot Açık standartla uyarlanır

Sorular · hâlâ havada

Aklındakini yakala.

hava temizlendi. seninle ocak arasında hiçbir şey kalmadı.

bir kıvılcım yakala: ocak cevaplar

Mevcut CI'ma oturur mu, yoksa ayrı bir hat mı gerekir?

Bir CI kapısı olarak kurulur, böylece regresyon ve düşmanca testler zaten birleştirme yaptığınız hat içinde her değişiklikte çalışır. Kapıdan geçemeyen değişiklik yayına çıkmaz.
Bir modelin çıktısını puanlamak için başka bir LLM yargıcına güvenebilir miyim?

Tam da bu yüzden kalibrasyon testleri regresyon ve düşmanca testlerin yanında durur, yargıcı doğru olduğu bilinen örneklerle ölçer. Değerlendirme ölçütü de denetlenen ajandan bağımsızdır, yani kendi işini puanlamaz.
Altın veri setini yazıp hataları benim için düzeltir mi?

Hayır, doğru davranışı tanımlayan ajan başına 50'den fazla örneği siz hazırlarsınız, değerlendirme paketi de bunları zorunlu kılar. Regresyonu işaretler; ajanı düzeltmek sizin mühendislik işinizdir.
Nasıl teslim edilir?

Satın alımdan hemen sonra e-posta ile iletilir, kuruluma hazır, anında indirilir; bekleme yok.
Tek seferlik mi, abonelik mi?

Tek seferlik alımdır; abonelik veya gizli ücret yoktur. Fiyata KDV (%20) dahildir.
İade alabilir miyim?

Dijital ürün olduğu için indirildikten sonra iade yapılmaz. Bu yüzden ne içerdiğini ve kime uygun olduğunu burada açıkça paylaşıyoruz.

İlgili ürünler

Tüm beceriler →

Yapay Zeka & LLM Skill

Brain Context Engineering

Bir AI ajanının bağlam penceresine nelerin gireceğini mühendislik disipliniyle yönetir: ne kadar (token bütçesi), hangi sırayla (alaka çarpı tazelik) ve ne kadar sıkıştırılmış (prompt cache artı kayan pencere özetleme).

₺369

İncele →

Yapay Zeka & LLM Skill

Brain Memory Hybrid Search

BM25 sözcüksel aramayı pgvector anlamsal aramayla birleştirip Karşılıklı Sıralama Birleştirmesiyle harmanlayan ve çeşitlilik gözeten ilk beşi döndüren hibrit bir hafıza arama uç noktası için eksiksiz tarif.

₺369

İncele →

Yapay Zeka & LLM Skill

Claude Agent Template Library

100'den fazla Claude Code alt-ajan şablonunun, katı bir frontmatter standardıyla (ad, açıklama, araç beyaz listesi, model takma adı, sistem istemi) kategorize edilmiş kanonudur.

₺369

İncele →

Yapay Zeka & LLM Skill

Context Driven Development

Proje bağlamını kodunuzun yanında birinci sınıf bir varlık olarak yöneten disiplinli bir metodoloji, böylece yapay zeka asistanları ve ekip üyeleri her zaman aynı ve güncel kaynaktan çalışır.

₺369

İncele →