Çıta Yükseldi! - Claude 3.5 Sonnet Değerlendirmesi ve GPT 4o Kıyaslaması

Hatırlarsanız daha bundan 1 ay öncesi bile değilken, oturup sizlere GPT 4o'yu anlatıyor, karşılaştırıyor ve ne kadar mükemmel olduğunu aktarıp duruyordum. Daha aradan 1 ay geçmeden, Anthropic firması öyle bir bomba bıraktı ki, ne bomba ama! Zaten GPT sesli modeli ertelenmek üzereyken üzerine harika bir model fırlattı üstümüze, o modelin adı da Claude 3.5 Sonnet'ti, ve evet ücretsiz işin ilginci, sınırlı da olsa oraya geleceğiz.

Ben işi gücü bıraktım bu yapay zeka ile vakit geçirmeye başladım, ki gördüğüm şey gerçekten hayret vericiydi. GPT 4o'nun yarattığı enerjiyi ve havayı tekte dağıtabilecek kadar hayret vericiydi. Neyse neyse, havadan sudan konuşarak olmaz, bugün övgüye gelmedik, bugün burada bazı sorulara cevap bulmak için geldik. Bugün, sizlerle bu 2 yapay zeka modelini kafa kafaya tokuşturacağız, bakalım kim sağlam kalacak. Ama, öncelikle temel bir bilgi sahibi olmak için en azından VIP Yapay Zekalar - Ücretli Yapay Zekalar Arasındaki Mücadele V3 (ChatGPT - Copilot - Gemini) (alphardal.blogspot.com) bu yazıyı okuyarak neden ChatGPT modelinin zirvede olduğunu, ve çıtanın nereden nereye çekildiğini görmenizi isterim.

Biz benim açımdan tacın yeni sahibi olan arkadaş ile başlayalım;

Claude 3.5 Sonnet

Claude.ai sitesinden giriş yaptığınızda (giriş ücretsiz) karşınızda böyle bir arayüz bulacaksınız. Sizde sadece sol üstteki Projects kısmı olmayacak, ama oraya sonra geleceğiz. Site, oldukça basit, ve kendine has stilistik bir tasarım diline sahip. Yani karşıdan baktığınızda, sadece kullanılan renk paleti dahi kendini belirtebilir. Üstte günün zaman dilimine göre bir karşılama mesajı, altında da Prompt kutumuz yer almakta. Kutunun altında hem dosya yükleyebileceğiniz buton, hem de örnek girdileri görmektesiniz. Onun da altında, son konuşmalarınız yer almakta, ama eğer ki fazla göze kalabalık geiyorsa kapatıp sade bir görüntü elde edebiliyorsunuz.

Claude'un maalesef bir Android uygulaması yok, sitesi üzerinden giriş yapmalısınız. iOS için uygulama şu an mevcut, eğer ki bir iOS kullanıcıysanız sizler için eksik yok. Fakat, eksilerinden birisi site ChatGPT, ve diğer rakiplerine göre biraz daha yavaş çalışıyor, bir sohbete girmek, ana menüye dönmek gibi işlemler rahatsız etmese de, kendini biraz hissettirecek biçimde yavaş. İkinci eksisi, herhangi bir sesli görüşme, sesli mesaj okuma şu anlık yok, bu da bunu fazlasıyla kullanan kişiler için büyük bir eksi. Geri kısmı, fazlasıyla bence güzel arayüz bakımından.

Ama, asıl şuan arayüzün alametifarikası, kesinlikle Artifacts adındaki özelliği. Bu nedir diye mi soruyorsunuz?

Ayarlardan Feature Preview kısmında bu menüye ulaşacaksınız. Bu özellik ücretsiz kullanım için de açık, ve yaptığı şey modelin yazdığı kodları, tüm formatlarda kendi içinde çalıştırabilmesi. Yani, bir kod yazdırdıktan sonra onu çalıştırmak için uğraşmak yerine, site içerisinde interaktif olarak kodları çalıştırabiliyorsunuz, ki bu harika bir özellik! İster site yaptırın, ister oyun yaptırın, ister grafik çizdirin, ister SVG formatında tasarım yaptırın, her şeyi site içerisinden hiçbir ekstra işlem olmaksızın çalıştırıp önizleyebiliyorsunuz. Örnek olarak sizlere;

bu örnekleri verebilirim. İstediğiniz zaman sağ üstteki kısımdan Prewiew/Code butonundan Code kısmına basarak altındaki kod dizisini görebilirsiniz. Bu özellik, benim gibi kodlamadan hiçbir şey anlamayan kişiler için derya sunuyor! Simülasyonlar, oyunlar, web siteleri, tablolar, grafikler, hatta makaleler gibi gibi aklınıza gelebilecek hemen hemen her şeyi yaptırabilirsiniz. Sırf bu özellik dahi, şu an Claude'un etkili olması için yeterli, ama sadece bu da değil.

Bir de sadece "Professional" üyelik sahibi kişilere sunulan Projects özelliği yer almakta. Bu özellik, size kısaca Claude içinde özelleştirilmiş yapay zekalar üretmenize olanak sağlıyor diyebiliriz, bir nevi GPT'ler özelliği gibi. Dosyalar yükleyerek o dosyalar üzerinden eğitip şekillendirebilir, özel komutlar verebilir, ve modeli kişiselleştirebilirsiniz. Bu arayüzü de sizlere göstereyim;

Bu Claude'un örnek olarak oluşturduğu bir Project. Sağda dosyaların yüklendiği kısım yer alıyor, o kısımdan aynı zamanda tıpkı ChatGPT gibi modeli özelleştirebiliyorsunuz. Tabii, yükleyebileceğiniz dosyanın sınırı var, 200k bağlam penceresi çerçevesinde gezebiliyorsunuz, ki öyle ağır işler yoksa hedefinizde fazlasıyla yeterli bana kalırsa.

Şu ana kadar, arayüzün artılarını konuştuk, ama hala modele geçemedik. O halde, sizi daha da fazla bekletmeden Claude 3.5 Sonnet modeline gelin yakından bakalım!

Bu tablo üzerinden, 3.5 Sonnet, önceki FlagShip model olan 3 Opus, GPT 4o, Gemini 1.5 Pro, ve Llama 400B modellerinin belirli testlerdeki başarı oranını görmektesiniz. Gördüğünüz gibi, lisansüstü düzeyde akıl yürütme, kodlama, çok dilli matematik, metin üzerinde akıl yürütme gibi birçok konuda tüm bu rakiplerini ezip geçmiş bir model var karşımızda. Sadece, matematik problemlerinde GPT 4o modelinden biraz geride, ama fark halen oldukça az. Ama, asıl ilginç olan kısma geliyoruz şimdi;

Görsel veriler üzerindeki başarılarına baktığımızda, neredeyse tamamen görsel becerilerinin gelişmesiyle pazarlanan GPT 4o modelinin de üzerinde bir veri görmekteyiz ki bu çok heyecan verici kesinlikle. Diğer modeller ise, yine iyi olsalar da bu iki modele pek yanaşamamışlar. Özellikle, 3 Opus gibi ağır ve iyi bir model üzerinden yarım yıl geçmeden bu tarzda bir gelişim, gerçekten heyecan verici bunu söylemeliyim.

Teoride 3.5 Sonnet, 4o modelinden fersah fersah iyi gibi duruyor. Peki, gelin bakalım durum öyle miymiş?

ChatGPT arayüzünü, özelliklerini tekrar anlatmak istemiyorum pek, o yüzden sizlere yine Yapay Zekanın Geldiği Son Nokta! - ChatGPT Plus ve GPT 4o İnceleme (alphardal.blogspot.com) yazısına da bir göz atmanızı isteyeceğim. Şimdi, bu iki devi karşılaştırmada sıra. İlk kriterimiz, güncel bilgiler;

Claude internete erişimi olmadığından maalesef nisan 2024 ile sınırlı, bu yüzden güncel bilgilerde eksiye düşüyor. Ama en azından halüsinasyon görmeyip durumu dürüstçe açıklıyor, ve kendi veritabanı çerçevesinde cevabını veriyor. ChatGPT ise 4o modeli ile internete erişebildiğinden bu büyük bir avantaj kesinlikle. Bir de, bana Claude 3.5 Sonnet modeli çok daha doğal bir dil kullanıyormuş gibi geliyor, ChatGPT'nin kıramadığı yapay zeka illüzyonunu Claude çok güzel şekilde kırıyor bence. Tabii, karar sizin ben Claude'un dilini daha çok beğeniyorum.

Hikaye yazdırma testinde ikisi de bence güzel cevap verdi, ama Claude hem daha güzel bir dil ve derlemeyle, hem de Haiku gibi güzel dokunuşlarla bir adım önde benim gözümde. Ama tabii ki bu biraz öznel bir tercih, siz hangisini beğenirseniz beğenin, ikisi de kaliteli ve güzel çıktılar kesinlikle. Claude'un bir artısı da, bunu yukarıda anlattığım artifacts menüsünde hazırladı, hikayenin yorum kısmını hikayeden ayrı şekilde cevap kutusunda gösterdi. Derli topluluk bakımından Claude önde olsa da, ikisi de kabul edilebilir güzel hikayeler. Şarkı sözü testini bu sefer yapmayacağım, çünkü gerek yok artık görüyoruz ki tüm yapay zekalar yaratıcılık kısımlarında çok ilerideler, bu sefer farklı bir yol izleyeceğiz.

Yukarıda gördüğünüz sorunun çözümünü istediğimde, Claude çuvalladı. Birkaç iterasyon ve düzeltme denedim ama doğru sonuca ulaşamadım. ChatGPT ise ilginç şekilde sonda bir işlem hatası sebebiyle yakın cevabı buldu, ama tam cevabı bulamadı. Doğru şıkkı seçse de, çözümde hata var minik bir miktarda da olsa. Bu soruyu önceki yazımda sorduğumda nokta atışı yapmıştı, ama her zaman mükemmel çalışmıyor matematiksel terimlerde halen yapay zekalar. %70-75 dolaylarındaki doğruluk da zaten bu yüzden. Hadi başka bir soru daha soralım ikisine de;

Bu soruyu ikisi de doğru bildi, ama ChatGPT daha açıklayıcı bir çözüm sundu. Tabii, siz detay isterseniz yardımcı olacaktır ama temelde sayısal veriler işin içindeyse ChatGPT daha kabiliyetli gibi duruyor.

Görsel güçlerini test etmek için karmaşık bir teknik resim çizimi gönderdim, ve gördüklerini tanımlamalarını istedim. Claude da, ChatGPT de doğru şekilde görseli yorumladı ve açıkladı. Sadece, bana ChatGPT'nin verdiği detay ve açıklamalar daha güzel geldi, her ne kadar ikisi de yeterince başarılı olsalar da.

Kod kısmını pek yorumlamak istemiyorum, çünkü orada net bir galip var zaten. Claude Sonnet 3.5 modeli, Artifacts özelliği ile kodlamada şuan başka bir çıtada bunu net söyleyebilirim. Her ne kadar, isterse hepsinde ChatGPT daha iyi kodlar yazsa bile (ki pek her zaman olmuyor), kodu direkt o an çalıştırmak büyük bir üstünlük. Sırf bu bile Claude için bir tercih sebebi olabilir.

Sonuca gelirsek, hem kendine has özellikleri, hem bence daha güzel bir dil kullanması ile Claude büyük ve ciddi bir rakip olmuş vaziyette, ama internete erişememesi, ve matematiksel işlemlerde geride kalması hala ChatGPT'yi çok iyi bir alternatif yapıyor. Şahsi kullanımımı sorarsanız, şimdilik ikisi de plus aboneliği olarak bende var, fakat bu gidişle bana Claude yolu gözüküyor gibi. Sizler de, bu gösterdiklerim doğrultusunda istediğiniz seçimi yapabilirsiniz, hangisini seçerseniz seçin pişman olmayacaksınız orası bir gerçek...

AlpHa Teknoloji

Bu Blogda Ara

Çıta Yükseldi! - Claude 3.5 Sonnet Değerlendirmesi ve GPT 4o Kıyaslaması

Claude 3.5 Sonnet

Etiketler

En Popüler Yazılarım

50 mp giriş seviyesi kameralar neden 48 mp giriş seviye kameralardan daha kötü?

Anker Bu İşi Çözmüş! - Q30 İncelemesi ve Q10i Karşılaştırması

VIP Yapay Zekalar - Ücretli Yapay Zekalar Arasındaki Mücadele V3 (ChatGPT - Copilot - Gemini)

Yapay Zeka Kapışması V2 - Copilot vs Gemini vs ChatGPT

Akıllı Saat Budur İşte - Samsung Galaxy Watch 4 Classic Uzun Kullanım Deneyimleri

Devil May Cry Övüyorum! Evet Baya Baya Övüyorum.

Google Kamera ve Stok Kamera Uygulaması Farkı! (Dikkat Ciddi Farklar İçermektedir)

Kulaklık Seçimi Nasıl Yapılmalı?

E Bu Çok İyiymiş - Xbox 9.Nesil Oyun Kolu İncelemesi

Ya Bir Oyun İnsanı Ne Kadar Kendine Bağımlı Yapabilir Ki? (Vampire Survivors İncelemesi)