Ana içeriğe atla

Çıta Yükseldi! - Claude 3.5 Sonnet Değerlendirmesi ve GPT 4o Kıyaslaması

 Hatırlarsanız daha bundan 1 ay öncesi bile değilken, oturup sizlere GPT 4o'yu anlatıyor, karşılaştırıyor ve ne kadar mükemmel olduğunu aktarıp duruyordum. Daha aradan 1 ay geçmeden, Anthropic firması öyle bir bomba bıraktı ki, ne bomba ama! Zaten GPT sesli modeli ertelenmek üzereyken üzerine harika bir model fırlattı üstümüze, o modelin adı da Claude 3.5 Sonnet'ti, ve evet ücretsiz işin ilginci, sınırlı da olsa oraya geleceğiz.

Ben işi gücü bıraktım bu yapay zeka ile vakit geçirmeye başladım, ki gördüğüm şey gerçekten hayret vericiydi. GPT 4o'nun yarattığı enerjiyi ve havayı tekte dağıtabilecek kadar hayret vericiydi. Neyse neyse, havadan sudan konuşarak olmaz, bugün övgüye gelmedik, bugün burada bazı sorulara cevap bulmak için geldik. Bugün, sizlerle bu 2 yapay zeka modelini kafa kafaya tokuşturacağız, bakalım kim sağlam kalacak. Ama, öncelikle temel bir bilgi sahibi olmak için en azından VIP Yapay Zekalar - Ücretli Yapay Zekalar Arasındaki Mücadele V3 (ChatGPT - Copilot - Gemini) (alphardal.blogspot.com) bu yazıyı okuyarak neden ChatGPT modelinin zirvede olduğunu, ve çıtanın nereden nereye çekildiğini görmenizi isterim.

Biz benim açımdan tacın yeni sahibi olan arkadaş ile başlayalım;

Claude 3.5 Sonnet


Claude.ai sitesinden giriş yaptığınızda (giriş ücretsiz) karşınızda böyle bir arayüz bulacaksınız. Sizde sadece sol üstteki Projects kısmı olmayacak, ama oraya sonra geleceğiz. Site, oldukça basit, ve kendine has stilistik bir tasarım diline sahip. Yani karşıdan baktığınızda, sadece kullanılan renk paleti dahi kendini belirtebilir. Üstte günün zaman dilimine göre bir karşılama mesajı, altında da Prompt kutumuz yer almakta. Kutunun altında hem dosya yükleyebileceğiniz buton, hem de örnek girdileri görmektesiniz. Onun da altında, son konuşmalarınız yer almakta, ama eğer ki fazla göze kalabalık geiyorsa kapatıp sade bir görüntü elde edebiliyorsunuz.

Claude'un maalesef bir Android uygulaması yok, sitesi üzerinden giriş yapmalısınız. iOS için uygulama şu an mevcut, eğer ki bir iOS kullanıcıysanız sizler için eksik yok. Fakat, eksilerinden birisi site ChatGPT, ve diğer rakiplerine göre biraz daha yavaş çalışıyor, bir sohbete girmek, ana menüye dönmek gibi işlemler rahatsız etmese de, kendini biraz hissettirecek biçimde yavaş. İkinci eksisi, herhangi bir sesli görüşme, sesli mesaj okuma şu anlık yok, bu da bunu fazlasıyla kullanan kişiler için büyük bir eksi. Geri kısmı, fazlasıyla bence güzel arayüz bakımından.

Ama, asıl şuan arayüzün alametifarikası, kesinlikle Artifacts adındaki özelliği. Bu nedir diye mi soruyorsunuz?

Ayarlardan Feature Preview kısmında bu menüye ulaşacaksınız. Bu özellik ücretsiz kullanım için de açık, ve yaptığı şey modelin yazdığı kodları, tüm formatlarda kendi içinde çalıştırabilmesi. Yani, bir kod yazdırdıktan sonra onu çalıştırmak için uğraşmak yerine, site içerisinde interaktif olarak kodları çalıştırabiliyorsunuz, ki bu harika bir özellik! İster site yaptırın, ister oyun yaptırın, ister grafik çizdirin, ister SVG formatında tasarım yaptırın, her şeyi site içerisinden hiçbir ekstra işlem olmaksızın çalıştırıp önizleyebiliyorsunuz. Örnek olarak sizlere;



bu örnekleri verebilirim. İstediğiniz zaman sağ üstteki kısımdan Prewiew/Code butonundan Code kısmına basarak altındaki kod dizisini görebilirsiniz. Bu özellik, benim gibi kodlamadan hiçbir şey anlamayan kişiler için derya sunuyor! Simülasyonlar, oyunlar, web siteleri, tablolar, grafikler, hatta makaleler gibi gibi aklınıza gelebilecek hemen hemen her şeyi yaptırabilirsiniz. Sırf bu özellik dahi, şu an Claude'un etkili olması için yeterli, ama sadece bu da değil.

Bir de sadece "Professional" üyelik sahibi kişilere sunulan Projects özelliği yer almakta. Bu özellik, size kısaca Claude içinde özelleştirilmiş yapay zekalar üretmenize olanak sağlıyor diyebiliriz, bir nevi GPT'ler özelliği gibi. Dosyalar yükleyerek o dosyalar üzerinden eğitip şekillendirebilir, özel komutlar verebilir, ve modeli kişiselleştirebilirsiniz. Bu arayüzü de sizlere göstereyim;

Bu Claude'un örnek olarak oluşturduğu bir Project. Sağda dosyaların yüklendiği kısım yer alıyor, o kısımdan aynı zamanda tıpkı ChatGPT gibi modeli özelleştirebiliyorsunuz. Tabii, yükleyebileceğiniz dosyanın sınırı var, 200k bağlam penceresi çerçevesinde gezebiliyorsunuz, ki öyle ağır işler yoksa hedefinizde fazlasıyla yeterli bana kalırsa.

Şu ana kadar, arayüzün artılarını konuştuk, ama hala modele geçemedik. O halde, sizi daha da fazla bekletmeden Claude 3.5 Sonnet modeline gelin yakından bakalım!

Bu tablo üzerinden, 3.5 Sonnet, önceki FlagShip model olan 3 Opus, GPT 4o, Gemini 1.5 Pro, ve Llama 400B modellerinin belirli testlerdeki başarı oranını görmektesiniz. Gördüğünüz gibi, lisansüstü düzeyde akıl yürütme, kodlama, çok dilli matematik, metin üzerinde akıl yürütme gibi birçok konuda tüm bu rakiplerini ezip geçmiş bir model var karşımızda. Sadece, matematik problemlerinde GPT 4o modelinden biraz geride, ama fark halen oldukça az. Ama, asıl ilginç olan kısma geliyoruz şimdi;

Görsel veriler üzerindeki başarılarına baktığımızda, neredeyse tamamen görsel becerilerinin gelişmesiyle pazarlanan GPT 4o modelinin de üzerinde bir veri görmekteyiz ki bu çok heyecan verici kesinlikle. Diğer modeller ise, yine iyi olsalar da bu iki modele pek yanaşamamışlar. Özellikle, 3 Opus gibi ağır ve iyi bir model üzerinden yarım yıl geçmeden bu tarzda bir gelişim, gerçekten heyecan verici bunu söylemeliyim.

Teoride 3.5 Sonnet, 4o modelinden fersah fersah iyi gibi duruyor. Peki, gelin bakalım durum öyle miymiş?

ChatGPT arayüzünü, özelliklerini tekrar anlatmak istemiyorum pek, o yüzden sizlere yine Yapay Zekanın Geldiği Son Nokta! - ChatGPT Plus ve GPT 4o İnceleme (alphardal.blogspot.com) yazısına da bir göz atmanızı isteyeceğim. Şimdi, bu iki devi karşılaştırmada sıra. İlk kriterimiz, güncel bilgiler;


Claude internete erişimi olmadığından maalesef nisan 2024 ile sınırlı, bu yüzden güncel bilgilerde eksiye düşüyor. Ama en azından halüsinasyon görmeyip durumu dürüstçe açıklıyor, ve kendi veritabanı çerçevesinde cevabını veriyor. ChatGPT ise 4o modeli ile internete erişebildiğinden bu büyük bir avantaj kesinlikle. Bir de, bana Claude 3.5 Sonnet modeli çok daha doğal bir dil kullanıyormuş gibi geliyor, ChatGPT'nin kıramadığı yapay zeka illüzyonunu Claude çok güzel şekilde kırıyor bence. Tabii, karar sizin ben Claude'un dilini daha çok beğeniyorum.




Hikaye yazdırma testinde ikisi de bence güzel cevap verdi, ama Claude hem daha güzel bir dil ve derlemeyle, hem de Haiku gibi güzel dokunuşlarla bir adım önde benim gözümde. Ama tabii ki bu biraz öznel bir tercih, siz hangisini beğenirseniz beğenin, ikisi de kaliteli ve güzel çıktılar kesinlikle. Claude'un bir artısı da, bunu yukarıda anlattığım artifacts menüsünde hazırladı, hikayenin yorum kısmını hikayeden ayrı şekilde cevap kutusunda gösterdi. Derli topluluk bakımından Claude önde olsa da, ikisi de kabul edilebilir güzel hikayeler. Şarkı sözü testini bu sefer yapmayacağım, çünkü gerek yok artık görüyoruz ki tüm yapay zekalar yaratıcılık kısımlarında çok ilerideler, bu sefer farklı bir yol izleyeceğiz.


Yukarıda gördüğünüz sorunun çözümünü istediğimde, Claude çuvalladı. Birkaç iterasyon ve düzeltme denedim ama doğru sonuca ulaşamadım. ChatGPT ise ilginç şekilde sonda bir işlem hatası sebebiyle yakın cevabı buldu, ama tam cevabı bulamadı. Doğru şıkkı seçse de, çözümde hata var minik bir miktarda da olsa. Bu soruyu önceki yazımda sorduğumda nokta atışı yapmıştı, ama her zaman mükemmel çalışmıyor matematiksel terimlerde halen yapay zekalar. %70-75 dolaylarındaki doğruluk da zaten bu yüzden. Hadi başka bir soru daha soralım ikisine de;


Bu soruyu ikisi de doğru bildi, ama ChatGPT daha açıklayıcı bir çözüm sundu. Tabii, siz detay isterseniz yardımcı olacaktır ama temelde sayısal veriler işin içindeyse ChatGPT daha kabiliyetli gibi duruyor. 


Görsel güçlerini test etmek için karmaşık bir teknik resim çizimi gönderdim, ve gördüklerini tanımlamalarını istedim. Claude da, ChatGPT de doğru şekilde görseli yorumladı ve açıkladı. Sadece, bana ChatGPT'nin verdiği detay ve açıklamalar daha güzel geldi, her ne kadar ikisi de yeterince başarılı olsalar da. 

Kod kısmını pek yorumlamak istemiyorum, çünkü orada net bir galip var zaten. Claude Sonnet 3.5 modeli, Artifacts özelliği ile kodlamada şuan başka bir çıtada bunu net söyleyebilirim. Her ne kadar, isterse hepsinde ChatGPT daha iyi kodlar yazsa bile (ki pek her zaman olmuyor), kodu direkt o an çalıştırmak büyük bir üstünlük. Sırf bu bile Claude için bir tercih sebebi olabilir.

Sonuca gelirsek, hem kendine has özellikleri, hem bence daha güzel bir dil kullanması ile Claude büyük ve ciddi bir rakip olmuş vaziyette, ama internete erişememesi, ve matematiksel işlemlerde geride kalması hala ChatGPT'yi çok iyi bir alternatif yapıyor. Şahsi kullanımımı sorarsanız, şimdilik ikisi de plus aboneliği olarak bende var, fakat bu gidişle bana Claude yolu gözüküyor gibi. Sizler de, bu gösterdiklerim doğrultusunda istediğiniz seçimi yapabilirsiniz, hangisini seçerseniz seçin pişman olmayacaksınız orası bir gerçek...

Yorumlar

Bu blogdaki popüler yayınlar

E Bu Çok İyiymiş - Xbox 9.Nesil Oyun Kolu İncelemesi

Daha yeni sizlere bir yazı paylaştım, bu yazıda 2 adet imitasyon kol, ve hesaplı olmasına rağmen harika bir performansa sahip logitech oyun kollarını beraber her açıdan irdelemiştik. Şimdi, ben bu yazıyı yazdığımda f310 modeli 2 3 yıllık serüveninin sonuna gelmek zorunda kaldı, çünkü Lb tuşu bir düşürme sonucu çalışmaya devam etse de hissizleşti, yani basıp basmadığınızı anlamıyorsunuz ama bastırdığınızda bir şekil çalışıyor gibi düşünebilirsiniz. Ben de bunun sonrasında fellik fellik yeni oyun kollarını araştırmaya başladım. Önümde 2 seçenek vardı, ya ucuza yönelecektim ve geleceği pek düşünmeyecektim, ya da bir çılgınlık yapıp almışken tam alayım diyecektim. Yazının başlığından hangisini seçtiğim malum gibi 😅 Aldım kendisini, hemen ertesi gün kapıma geldi, ve evet taksitle aldım tekte ödeyecek maddi durumum yoktu maalesef :') Beklentim de, tamamiyle stabil her şeyi düzgün çalışan sorunsuz bir kol olmasıydı. Ve galiba da elde ettim, birkaç pürüz dışında en azından... Bu pürüzleri...

Yapay Zeka Kapışması V2 - Copilot vs Gemini vs ChatGPT

 Ben ilk defa bu kapışmayı yapalı 2,5 ay geçti, ve bu sırada düşündüğümden çok daha fazla gelişme gördük. Ben de dedim ki, madem geliştiler bir daha kapıştıralım geleceğin asistanlarını. Bu sefer biraz puanlama tarafına da gireceğiz, ve sonda kategorileşmiş ve toplu halde kimin daha iyi olduğuna her yönden karar vereceğiz. Eski yazım için  Geleceğin Asistanları, Fakat Hangisi En İyisi? (ChatGPT vs Microsoft Copilot vs Google Bard) (alphardal.blogspot.com)  linkine tıklayabilirsiniz. Ama önce şuradan başlayalım, 2,5 ayda ne değişti? Copilot'un tasarımı elden geçirildi, GPTs denilen özellik hem ChatGPT hem de Copilot'a geldi, Copilot'a eklentiler dahil oldu, ChatGPT ile sesli konuşma özelliği geldi, Bard direkt olarak kimlik değiştirdi, modeli güncellendi ve tasarımı yine değiştirildi, yeni adı Gemini olan Bard'ın mobil uygulaması çıktı vs vs. Evet, bunların hepsi son 2.5 ayda oldu, ciddi manada sert bir kapışma var ortada ve tüm modeller birbirlerine ayak uydurma çabasın...

50 mp giriş seviyesi kameralar neden 48 mp giriş seviye kameralardan daha kötü?

 Evet bu konu birazcık benim pazarlama argümanlarına saldırım gibi olacak, çünkü insanları pazarlama yöntemleri ile kandırmanın peşindeler belli ki. Ortada şöyle saçma bir kanı var, aynı fiyat etiketindeki iki telefona bakıyor mesela Mehmet diye biri, Mehmet telefonlardan pek anlamıyor ve sayılara bakarak karar vermek istiyor. Birinde 48, diğerinde 50 mp kamera görünce matematik bilgisiyle 50>48 diyerek 50 mp kameranın daha iyi olduğu kanısına varıyor. Amma velakin detaya indiğimizde durum pek öyle değil. Öncelikle Sony'nin orta üst segmentteki telefonlarda kullanılan 50 mp sensörü konumuzun dışında, o sensör bambaşka bir kitleye hitap ediyor. Biz giriş ve orta seviyedeki telefonların sensörlerini baz alacağız. En basit örnek ile redmi note 10 ve redmi note 11 farkına göz atalım. Note 10 sensör olarak Sony IMX 582 48 mp'lik sensörünü kullanırken, Note 11 sensör olarak Samsung JN1 50 mp'lik sensörünü kullanıyor. Şimdi Mehmet olduğumuzu varsayarsak, Note 10 eski model 1 yı...