Özet: Neden hızlı teşhis önemlidir?
Bir web sitesinde kullanıcı girişlerinin çalışmaması, dönüşüm, kullanım ve itibar açısından ciddi etkiler yaratır. Bu rehberin amacı, olayın kapsamını hızla belirlemeniz ve hemen uygulayabileceğiniz adımları önceliklendirmeniz için pratik bir giriş kesintisi teşhis kontrol listesi sunmaktır. İçerik, sunucu log analizi, CDN ve DNS kontrolleri, SSL sertifika doğrulama ve uptime izleme araçları gibi temel alanlara odaklanır.
Hızlı triage: İlk 60–180 saniyede yapılacaklar
Olayı hızlıca sınıflandırmak müdahalenin hızını belirler. İlk birkaç dakika içinde şu adımları uygulayın:
- Durum kapsamını belirleyin: tüm kullanıcılar mı etkileniyor, belirli coğrafyalar veya tarayıcılar mı? Mobil mi masaüstü mü?
- Kısa bir kontrol: site durumu sayfası veya hata raporları mevcut mu? (internal status page)
- Sistemlerinizde son 10–30 dakikada yapılmış yeni dağıtım (deploy) veya konfigürasyon değişikliği var mı?
- Hızlı sağlık kontrolleri: load balancer, web server ve auth servislerinin temel metriklerini kontrol edin (CPU, bellek, bağlantı sayısı).
- Ekipyi bilgilendirin: ağ ve uygulama ekiplerini olay tabanlı uyarı mekanizmanızla haberdar edin.
Sunucu log analizi: Nerelere bakmalısınız?
Sunucu logları çoğunlukla doğru teşhisin anahtarıdır. Aşağıdaki adımları sistematik olarak uygulayın:
- İlgili zaman aralığını daraltın: sorunun başladığı ilk log timestamp'ini bulun ve önce/sonra kayıtlarına bakın.
- Auth-endpoint loglarını filtreleyin: kimlik doğrulama isteği/yanıtlarına bakın; belirgin hata kodları ve tekrar eden istisnalar arayın.
- HTTP durum kodlarını gözleyin: 401/403 (yetki/erişim), 500'ler (sunucu hataları), 502/503/504 (geçici arızalar veya upstream problemler). Bu kodlar sorunun hangi katmanda olduğunu gösterir.
- Stack trace ve hata mesajlarını ilişkilendirin: aynı hatayı üreten IP veya user-agent örüntüsü var mı?
- Veritabanı/queue hatalarını kontrol edin: bağlantı zaman aşımı, sorgu hataları veya connection pool tıkanması görülebilir.
Pratik ipuçları
- Loglarda zaman damgası farklılıklarını düzeltin (zaman dilimleri/UTC kontrolü) ve korelasyon id'leriyle isteği takip edin.
- Load balancer loglarını inceleyin; health check başarısızlıkları genelde bir sunucunun dışlanmasına neden olur.
- Rate limiter veya WAF (web application firewall) loglarını kontrol edin; hatalı kural bloklaması olabilir.
CDN ve DNS kontrolü
CDN ve DNS hataları sıklıkla geniş coğrafi alanları etkiler ve giriş isteklerinin yönlendirilmesini bozar. Kontrol adımları:
- DNS çözümlemesini test edin: farklı coğrafi lokasyonlardan isim çözümleme sonucu bekleniyor mu? TTL değeri ve son yapılan DNS değişikliklerini gözden geçirin.
- CDN durumu ve konfigürasyon: CDN üzerinde yapılan cache kuralı değişiklikleri veya origin erişim hataları giriş isteklerini etkileyebilir.
- Origin erişilebilirliği: CDN'den origin'e doğrudan erişimi test edin; origin yanıt veriyorsa CDN katmanında problem olabilir.
- Geçici cache temizleme (purge) ve yeniden yönlendirme kurallarını gözden geçirin; yanlış yapılandırılmış bir yönlendirme login endpointlerini etkileyebilir.
SSL sertifika doğrulama
SSL hataları kullanıcıların tarayıcılarında veya API istemcilerinde bağlantıyı engelleyebilir. Kontrol listesi:
- Sertifika süresi: sertifika süresi dolmuş mu veya yakında mı doluyor?
- Alan adı uyuşması: sertifikanın common name veya subject alternative name (SAN) kayıtları, kullanılan alan adıyla eşleşiyor mu?
- Aradaki sertifika zinciri: tarayıcıların gördüğü eksik ara sertifika (intermediate) hatalarını kontrol edin.
- SNI ayarları: sunucuda hosting edilen birden fazla site varsa SNI doğru yapılandırılmış mı?
- Otomatik yenileme süreçleri: otomasyon (ör. ACME tabanlı) günlüklerini kontrol ederek yenileme hatası olup olmadığını doğrulayın.
Kimlik doğrulama altyapısı ve veritabanı
Giriş akışının başarısız olması sıklıkla kimlik doğrulama servisleri veya kullanıcı veritabanıyla ilgilidir:
- Auth servislerinin durumunu kontrol edin: bağımsız olarak çalışıyorlar mı, hatalı konfigürasyon veya deploy var mı?
- Veritabanı bağlantı sayısı ve gecikme: connection pool dolması veya yüksek sorgu gecikmeleri girişleri başarısız kılabilir.
- Cache/session store kontrolleri: Redis/Memcached gibi oturum depoları erişilemezse oturum doğrulama bozulabilir.
- Üçüncü taraf OAuth/OpenID sağlayıcıları: dış sağlayıcı kaynaklı bir kesinti olup olmadığını kontrol edin.
Uptime izleme araçları: hangi kontrolleri çalıştırmalısınız?
Sorunun yeniden oluşmasını önlemek için izlemeyi uygun şekilde kurmak gerekir. Öneriler:
- Synthetic login testleri: gerçek bir kullanıcı akışını taklit eden düzenli testler kurun (çoklu lokasyon).
- Endpoint bazlı health check'ler: auth, db bağlantı testi, cache testi gibi uygulama içi sağlık uç noktaları oluşturun.
- Alert eşikleri: hızlı hata artışı, latency sıçraması veya hata oranı artışı için uyarılar kurun.
- Dashboard ve toplantı tetikleyicileri: kritik uyarılar için otomatik çağrı/mesaj akışı tanımlayın.
İlk müdahale ve eskalasyon adımları
Kontroller sonucu müdahale için tipik bir runbook sırası şöyle olabilir:
- Etki analizi yapın ve durum sayfasını güncelleyin (kısa bir bilgi, beklenen durum ve tahmini çözüm süresi).
- Hızlı düzeltme seçeneklerini değerlendirin: son dağıtımı geri almak (rollback), konfigürasyon değişikliğini geri alma veya servis yeniden başlatma.
- Gerekirse trafiği başka bir bölge/stack'e yönlendirin (failover) veya CDN cache'i temizleyin.
- Kalıcı çözüm için hata kök nedenini (root cause) araştırın ve düzeltme planı oluşturun.
Hızlı eylem kontrol listesi (kopyala-yapıştır uygulanabilir)
- 1. Dakika: kullanıcı raporlarını ve durum sayfasını kontrol et.
- 2–5. Dakika: auth endpoint loglarını ve HTTP durum kodlarını filtrele.
- 5–15. Dakika: son deploy/konfig değişikliklerini kontrol et; geri alma seçeneğini hazır et.
- 15–30. Dakika: CDN/DNS ve SSL durumunu doğrula; origin erişimini test et.
- 30–60. Dakika: veritabanı, cache ve üçüncü taraf servis bağlantılarını incele; gerektiğinde ekipleri eskale et.
Önleyici tedbirler ve uzun vadeli iyileştirmeler
Bir kesinti sonrası aynı hatayı tekrarlamamak için uygulanabilecek önlemler:
- Synthetic login testlerini yaygınlaştırın ve sonuçları düzenli inceleyin.
- Deploy süreçlerinize canary veya blue/green dağıtım ekleyin.
- Otomatik SSL yenileme ve sertifika takip sistemleri kurun.
- İzleme metriklerini (latency, error rate, db connections) SLA bazlı eşiklerle ilişkilendirin.
- Runbook ve postmortem süreçlerini belgelendirip, gerçek vaka üzerinden öğrenilenleri kaydedin.
Son not ve sınırlamalar
Bu belge genel teknik rehberlik sunar ve her altyapı farklıdır; belirli sistemlerinize uygulamadan önce ilgili ekiplerle kontrol edin. Verilen adımlar pratik deneyime dayanır ancak tüm olası durumları kapsamayabilir.