DÜNYAYI SARSAN YAPAY Zekâ ARCI DEEP SEEK HAKKINDA BİLGİLER

Az sayıda çip ve az maliyetle geliştirilen modellerin sonuncusu DeepSeek-R1, OpenAI, Google ve Meta gibi dev oyuncuların sektördeki hakimiyetine meydan okuyor.

Çinli yapay zekâ laboratuvarı DeepSeek’in kendi adını taşıyan büyük dil modeli (LLM), ABD’li OpenAI firmasının ChatGPT’sinin en büyük rakiplerinden biri haline gelirken, Silikon Vadisi’ni şaşkınlığa uğrattı.

Bu ay yayınlanan son DeepSeek modellerinin hem son derece hızlı hem de az maliyetle geliştirildiği söyleniyor.

Aynı zamanda daha az sayıda çiple geliştirilen modellerin sonuncusu DeepSeek-R1, OpenAI, Google ve Meta gibi dev oyuncuların sektördeki hakimiyetine meydan okuyor.

İşte sekiz soruda DeepSeek:

1. Nereden çıktı bu DeepSeek?

Çin’in Hangzhou kentindeki şirket, Temmuz 2023’te Zhejiang Üniversitesi mezunu, bilgi ve elektronik mühendisi Liang Wenfeng tarafından kuruldu. Liang’ın 2015’te kurduğu bir fon olan High-Flyer’ın kuluçka programında yer aldı. Liang da sektörün diğer ileri gelen isimleri gibi, çeşitli görevlerde insanlara yetişebilen veya onları geçebilen “yapay genel zekâ” seviyesine ulaşmayı hedefliyor.

Bağımsız faaliyet gösteren DeepSeek’in finansman modeli, dış yatırımcıların baskısı olmadan iddialı yapay zekâ projelerini sürdürmesine ve uzun vadeli araştırma ve geliştirmeye öncelik vermesine olanak tanıyor. DeepSeek ekibi, Çin’in en iyi üniversitelerinden mezun genç ve yetenekli kişilerden oluşuyor ve yenilikçilik kültürünü teşvik ediyor. Şirketin işe alım sürecinde iş deneyiminden çok teknik becerilere öncelik veriliyor. Kısacası yapay zekâ modelleri geliştirme sürecinde yeni bir bakış açısına sahip olduğu düşünülüyor.

DeepSeek’in yolculuğu, Kasım 2023’te kodlama görevleri için tasarlanmış açık kaynaklı bir model olan DeepSeek Coder’ın piyasaya sürülmesiyle başladı. Bunu, diğer büyük dil modelleriyle rekabet etmeyi amaçlayan DeepSeek LLM izledi. Mayıs 2024’te piyasaya sürülen DeepSeek-V2, güçlü performansı ve düşük maliyeti nedeniyle ilgi gördü. ByteDance, Tencent, Baidu ve Alibaba gibi diğer büyük Çinli teknoloji devlerini de yapay zekâ modellerinin fiyatlarını düşürmeye zorladı.

2. DeepSeek modellerinin kapasitesi ne durumda?

DeepSeek-V2, daha sonra 236 milyar parametreye sahip daha gelişmiş bir model olan DeepSeek-Coder-V2 ile değiştirildi. Karmaşık kodlama istemleri için tasarlanan model 128.000 token’a varan yüksek bir bağlam penceresine sahip. 128.000 token’lık bağlam penceresi, modelin aynı anda işleyebileceği maksimum giriş metni uzunluğunu ifade ediyor.

Daha geniş bir bağlam penceresi, bir modelin daha uzun metinleri anlamasına, özetlemesine veya analiz etmesine olanak tanır. Bu, örneğin uzun belgeler, kitaplar veya karmaşık diyaloglar üzerinde çalışırken büyük bir avantaj sağlar.

Token ise metindeki bir birim anlamına geliyor. Bu birim genellikle kelime, kelime parçacığı (örneğin “yapay” ve “zekâ” gibi) veya hatta bir karakter olabilir. Örneğin: “Yapay zekâ harika!” cümlesi dört tokendan oluşabilir: “Yapay,” “zekâ,” “harika,” “!”.

Şirketin en son modelleri DeepSeek-V3 ve DeepSeek-R1 ise konumunu daha da sağlamlaştırdı. 671.000 parametreli bir model olan DeepSeek-V3, akranlarından önemli ölçüde daha az kaynak gerektirirken diğer markalarla çeşitli kıyaslama testlerinde etkileyici bir performans sergiliyor. Ocak 2025’te piyasaya sürülen DeepSeek-R1 de akıl yürütme, kodlama ve matematik gibi karmaşık görevlere odaklanıyor. Bu alandaki yetenekleriyle ChatGPT’nin son modellerinden biri olan o1’e meydan okuyor.

DeepSeek kısa sürede önemli bir başarı yakalamış olsa da Forbes, şirketin öncelikli olarak araştırmaya odaklandığını ve yakın gelecekte ticarileştirmeye yönelik detaylı planları olmadığını yazdı.

3. Son kullanıcı için ücretsiz mi?

DeepSeek’in ilgi çekmeyi başarmasının temel nedenlerinden biri son kullanıcılar için ücretsiz olması. Hatta bu, kullanıcılara ücretsiz olarak sunulan bu denli gelişmiş ilk yapay zekâ sistemi. OpenAI o1 ve Claude Sonnet gibi diğer güçlü sistemler ücretli abonelik gerektiriyor. Hatta bazı aboneliklerde bile kullanıcılara kota konuyor.

Google Gemini da ücretsiz olarak sunuluyor, ancak ücretsiz sürümleri eski modellerle sınırlı. DeepSeek’in şimdilik herhangi bir sınırlaması yok.

4. Nasıl kullanılır?

Kullanıcılar, son kullanıcı için geliştirilen DeepSeek sohbet arayüzüne “chat. Deepseek” adresinden erişebiliyor. Buradaki Chat ekranına komutları girmek ve internette arama yapmak için “search” butonuna basmak yeterli oluyor.

Herhangi bir konuyla ilgili daha ayrıntılı bilgiler elde etmek içinse “deep think” seçeneği var. Bu seçenek kullanıcıların istemlerine daha detaylı yanıtlar sunarken, arama motorunda da daha fazla sitede arama yapabiliyor. Ancak sadece belirli kaynaklara güvenerek arama yapan ChatGPT’nin aksine bu özellik, bazı ufak sitelerdeki yanlış bilgileri de kullanıcıların karşısına çıkarabilir. Bu yüzden kullanıcıların bu sohbet botunda da elde ettikleri bilgileri teyit etmesi gerek.

5. Güvenli mi?

DeepSeek kullanımıyla ilgili bir önemli soru başlığı da güvenli olup olmadığı. DeepSeek de tıpkı diğer hizmetlerde olduğu gibi kullanıcının verilerini istiyor ve bunlar muhtemelen Çin’deki sunucularda saklanıyor.

Kullanıcıların herhangi bir LLM’de olduğu gibi burada da sohbet botuna hassas verilerini vermemesi önemli.

DeepSeek de açık kaynaklı olduğu için bağımsız araştırmacılar modelin kodlarına bakıp güvenli olup olmadığını belirlemeye yönelik çalışmalar yapabilir. Güvenlik konusundaki endişelere yönelik daha ayrıntılı bilgilerin ilerleyen günlerde çıkması bekleniyor.

6. Açık kaynak kodlu olması ne anlama geliyor?

DeepSeek-R1 dahil olmak üzere modeller, büyük ölçüde açık kaynaklı olarak yayınlandı. Yani isteyen herkes aracın kodlarına erişebiliyor ve bu kodları kullanarak LLM’i kişiselleştirebiliyor. Eğitim verileri ise patentli.

Öte yandan OpenAI, o1 modelini kapalı olarak piyasaya sürmüştü ve halihazırda sadece kullanıcılara bile aylık 20 ila 200 dolarlık paketlerle satıyor.

7. ABD kısıtlamalarına rağmen nasıl böyle bir model üretti?

Şirket teknolojik yeteneklerini ve pazar erişimini geliştirmek için stratejik ortaklıklar da kurdu. Dikkat çeken iş birliklerinden biri, ABD’li çip firması AMD ile yapıldı. Forbes’a göre DeepSeek, özellikle DeepSeek-V3 için model geliştirmenin temel aşamalarında AMD Instinct GPU’larını (grafik işlem birimleri) ve ROCM yazılımını kullandı.

MIT Technology Review dergisi ise ABD’den Çin’e yönelik çip yaptırımlarının gelmesinden çok önce Liang’ın, şu anda Çin’e ihracatı yasaklanmış bir tür olan Nvidia A100 çiplerinden önemli miktarda stok satın aldığını yazdı. Çinli medya kuruluşu 36Kr, şirketin stoklarında 10.000’den fazla birim olduğunu tahmin ediyor. Bazıları bu rakamın 50.000 olduğunu söylüyor. Bu stokun yapay zekâ eğitimi açısından önemini fark eden Liang, DeepSeek’i kurdu ve modellerini geliştirmek için bunları düşük güçteki çiplerle birlikte kullanmaya başladı.

Ancak burada önemli olan bir nokta da Liang’ın az sayıda kaynakla yetkin modeller inşa etmenin yolunu bulmuş olması. ABD’nin çip ihracat kısıtlamaları, DeepSeek geliştiricilerini hesaplama gücü eksikliklerini telafi etmek için daha akıllı, daha enerji verimli algoritmalar oluşturmaya zorladı. ChatGPT’nin eğitim verilerini işlemek için 10.000 Nvidia GPU’ya ihtiyaç duyduğu düşünülüyor. DeepSeek mühendisleri sadece 2.000 GPU ile benzer sonuçlara ulaştıklarını söylüyor.

8. DeepSeek’in yenilikçi teknikleri neler?

DeepSeek’in başarısı birkaç önemli yeniliğe bağlanabilir.

Pekiştirmeli öğrenme: Teknolojist Janakiram MSV’ye göre, büyük ölçüde gözetimli ince ayara dayanan geleneksel yöntemlerin aksine, DeepSeek saf RL kullanıyor. Gözetimli ince ayar yönteminde ince ayar yapılmadan önce, model genellikle geniş bir veri kümesi üzerinde eğitilmiştir. Saf RL kullanmak ise bir yapay zekâ sisteminin yalnızca pekiştirmeli öğrenme yöntemlerini kullanarak eğitilmesi anlamına gelir. Bu, modelin insan tarafından ayıklanmış veriler veya gözetimli öğrenme yöntemleri olmaksızın, yalnızca ödül ve ceza mekanizmaları üzerinden öğrenmesi demek. Bu yaklaşım, DeepSeek-R1’in muhakeme yeteneklerini geliştirmede özellikle etkili.

MoE mimarisi: Açılımıyla Mixture of Experts, yani Uzmanlar Karışımı mimarisi yapay zekâ modellerinde farklı uzmanlardan oluşan yenilikçi bir sistem. Burada kullanıcının girdisi için en uygun birkaç uzman seçiliyor ve sadece onlar çalışıyor. Bu sayede hem büyük modellerin performansı artırılıyor hem de işlem maliyeti düşürülüyor. Bunu her biri farklı bir alanda uzmanlaşmış bir uzman ekibi olarak düşünmek mümkün. Bir görevle karşı karşıya kaldığında, yalnızca ilgili uzmanlar çağrılıyor ve kaynakların ve uzmanlığın verimli kullanımı sağlanıyor.

Multi-Head Latent Attention: Bu yöntem, bir modelin farklı dikkat başlıklarını kullanarak gizli temsiller ile girişler arasındaki ilişkileri öğrenmesini sağlıyor. Bilgiyi daha esnek, güçlü ve ayrıntılı şekilde işlemek için kullanılıyor. Bunu, girdi verilerinin farklı bölümlerine odaklanabilen ve modelin bilgiyi daha kapsamlı şekilde anlamasını sağlayan birden fazla “dikkatli kafa” olarak düşünmek mümkün.

Damıtma: DeepSeek, daha büyük modellerin bilgi ve yeteneklerini daha küçük, daha verimli olanlara aktarmak için damıtma tekniklerini kullanıyor. Bu, bir öğretmenin bilgisini bir öğrenciye aktarmasına benziyor. Öğrencinin benzer yeterlilikteki görevleri ancak daha az deneyim veya kaynakla gerçekleştirmesine olanak tanıyor. DeepSeek’in damıtma süreci, daha küçük modellerin daha büyük muadillerinin gelişmiş akıl yürütme ve dil işleme yeteneklerini devralmasını sağlayarak onları daha çok yönlü ve erişilebilir hale getiriyor.

Kısacası DeepSeek, RL ve MoE gibi verimli mimarileri kullanarak eğitim için gereken hesaplama kaynaklarını önemli ölçüde azaltıyor ve daha düşük maliyetlerle tamamlayabiliyor. Örneğin DeepSeek-V3, Meta’daki modellerin maliyetinin çok daha az bir kısmıyla eğitildi.

OpenAI ve Google gibi önemli oyuncuların yapay zekâ modellerine eğitim verileri sağlayan ScaleAI firmasının CEO’su Alexandr Wang, perşembe günü İsviçre’nin Davos kentinde düzenlenen Dünya Ekonomik Forumu’nda (WEF) yaptığı konuşmada DeepSeek’in ürününü “dünyayı sarsacak bir model” diye nitelendirdi.

(Yukarıdaki yazı Euronews sitesinden alınmıştır.)

ZAFER ÖZCİVAN

Ekonomist-Yazar

zozcivan@hotmail.com

  • Benzer Haberler

    TARIMDA GİRDİ BAĞIMLILIĞI

    TARIMDA GİRDİ BAĞIMLILIĞI Tarım sektörü, gıda güvenliğinin temelini oluşturan stratejik alanlardan biridir. Ancak son yıllarda birçok ülkede olduğu gibi Türkiye’de de tarımın en önemli sorunlarından biri giderek artan girdi bağımlılığıdır. Tohumdan gübreye, enerjiden yeme kadar üretimin pek çok aşamasında dışa bağımlı bir yapı oluşması hem üreticilerin maliyetlerini artırmakta hem de gıda fiyatlarını doğrudan etkilemektedir. Bu durum, yalnızca çiftçilerin değil, aynı zamanda tüketicilerin ve genel ekonominin de kırılganlığını artıran bir faktör haline gelmiştir. Tarımda girdi bağımlılığı, basit bir maliyet sorunu olmanın ötesinde stratejik bir mesele olarak görülmelidir. Çünkü tarımsal üretim, sanayiden farklı olarak doğrudan doğa koşullarına ve uzun üretim döngülerine bağlıdır. Bir ülkede tarım girdilerinin önemli bir kısmı ithal ediliyorsa, küresel piyasalardaki dalgalanmalar doğrudan üretim kararlarını etkileyebilir. Özellikle son yıllarda dünya genelinde yaşanan enerji fiyatı artışları, tedarik zinciri sorunları ve jeopolitik gerilimler, tarımda girdi bağımlılığının ne kadar kritik bir risk olduğunu açık biçimde göstermiştir. Türkiye’de tarım sektöründe en çok tartışılan konulardan biri gübre fiyatlarıdır. Gübre üretimi büyük ölçüde enerji maliyetlerine bağlıdır ve doğalgaz fiyatlarındaki artışlar gübre fiyatlarını hızla yukarı çekmektedir. Bu durum, çiftçilerin gübre kullanımını azaltmasına ve dolayısıyla verimin düşmesine yol açabilmektedir. Verim düşüşü ise kısa vadede üretim miktarını azaltırken uzun vadede gıda enflasyonunu artıran bir etki yaratır. Tarım ekonomisinde bu tür zincirleme etkiler oldukça yaygındır. Bir diğer önemli girdi ise tohumdur. Türkiye’de bazı ürünlerde yerli tohum üretimi gelişmiş olsa da özellikle yüksek verimli hibrit tohumlarda dışa bağımlılık devam etmektedir. Küresel tarım şirketlerinin hâkim olduğu bu alanda fiyatların döviz kuruna bağlı olarak değişmesi, üreticinin planlama yapmasını zorlaştırmaktadır. Çiftçiler çoğu zaman sezon başında maliyetlerini öngörmekte güçlük çekmekte ve bu belirsizlik üretim kararlarını doğrudan etkilemektedir. Tarımda enerji maliyetleri de girdi bağımlılığının önemli bir boyutudur. Sulama sistemleri, seracılık faaliyetleri ve tarımsal mekanizasyon büyük ölçüde akaryakıt ve elektrik kullanımına bağlıdır. Enerji fiyatlarındaki artış, özellikle sulama yapılan bölgelerde üretim maliyetlerini ciddi biçimde yükseltmektedir. Bu durum bazı çiftçilerin üretimden çekilmesine ya da ekim alanlarını daraltmasına yol açabilmektedir. Uluslararası kuruluşların raporları da bu soruna dikkat çekmektedir. Örneğin, küresel tarım piyasalarına ilişkin analizler yayımlayan Birleşmiş Milletler Gıda ve Tarım Örgütü (FAO), son yıllarda birçok ülkede tarımsal üretimin artan girdi maliyetleri nedeniyle baskı altında olduğunu vurgulamaktadır. Aynı şekilde küresel kalkınma ve ekonomik analizler yapan Dünya Bankası da gıda üretiminde sürdürülebilirlik için yerli üretim kapasitesinin güçlendirilmesi gerektiğine dikkat çekmektedir. Türkiye özelinde değerlendirildiğinde, tarımda girdi bağımlılığı meselesi verilerle de kendini göstermektedir. Tarım sektörüne ilişkin resmi istatistikleri yayımlayan Türkiye İstatistik Kurumu verileri incelendiğinde, üretici fiyatları ile girdi maliyetleri arasındaki farkın zaman zaman hızla açıldığı görülmektedir. Bu durum çiftçinin kârlılığını azaltmakta ve tarımın cazibesini düşürmektedir. Özellikle genç nüfusun tarımdan uzaklaşmasının arkasında da bu ekonomik gerçeklik bulunmaktadır. Bu noktada tarım politikalarının yeniden düşünülmesi gerektiği açıktır. Uzmanlar, tarımda girdi bağımlılığını azaltmanın birkaç temel yolu olduğunu ifade ediyor. Bunlardan ilki yerli üretim kapasitesinin artırılmasıdır. Gübre, tohum ve tarım makineleri gibi kritik alanlarda yerli üretimin teşvik edilmesi, uzun vadede maliyetlerin daha öngörülebilir hale gelmesini sağlayabilir. İkinci olarak, çiftçilere yönelik destek politikalarının daha hedefli ve veri temelli bir yapıya kavuşturulması önem taşımaktadır. Tarım politikalarının uygulanmasında kamu kurumlarının rolü de kritik önemdedir. Türkiye’de tarım politikalarının koordinasyonundan sorumlu olan Tarım ve Orman Bakanlığı, son yıllarda sözleşmeli üretim, dijital tarım uygulamaları ve destek programları gibi çeşitli adımlar atmaktadır. Ancak sektör temsilcileri, bu politikaların daha uzun vadeli ve istikrarlı bir çerçevede uygulanması gerektiğini vurgulamaktadır.…

    ÜLKELERİN MİSİLLEME ÖNLEMLERİ

    ÜLKELERİN MİSİLLEME ÖNLEMLERİ Uluslararası ilişkiler tarihinde ülkeler arasındaki rekabet yalnızca diplomatik söylemlerle sınırlı kalmamış, çoğu zaman ekonomik ve ticari araçlarla da şekillenmiştir. Günümüzde küreselleşmenin derinleşmesiyle birlikte devletler arasındaki ilişkiler çok daha karmaşık bir hal almış; ekonomik yaptırımlar, ticaret kısıtlamaları ve gümrük vergileri gibi araçlar uluslararası politikanın önemli enstrümanları haline gelmiştir. Bu bağlamda “misilleme önlemleri”, bir ülkenin başka bir ülkenin aldığı ekonomik veya siyasi kararlara karşılık olarak uyguladığı karşı tedbirleri ifade etmektedir. Misilleme, çoğu zaman ticaret politikalarında karşımıza çıksa da enerji, teknoloji, finans ve diplomasi gibi birçok alanda etkisini göstermektedir. Misilleme önlemleri genellikle bir ülkenin uyguladığı yaptırım veya ticari kısıtlamaya karşılık olarak ortaya çıkar. Örneğin bir ülke başka bir ülkenin ürünlerine yüksek gümrük vergisi getirdiğinde, karşı taraf da benzer bir vergi uygulamasıyla yanıt verebilir. Bu durum uluslararası ticarette “ticaret savaşı” olarak adlandırılan süreçlerin başlangıcı olabilir. Tarihsel olarak bakıldığında misilleme politikaları yeni bir olgu değildir; ancak günümüz dünyasında küresel ekonominin birbirine daha fazla bağlı olması bu tür adımların etkisini çok daha geniş bir alana yaymaktadır. Ekonomik misilleme önlemlerinin en yaygın biçimi gümrük vergileridir. Bir ülke kendi üreticisini korumak amacıyla belirli ürünlere yüksek vergi koyduğunda, karşı ülke de aynı yöntemi uygulayarak denge kurmaya çalışır. Bunun yanı sıra ithalat kotaları, teknik standartlar, lisans zorunlulukları ve çeşitli bürokratik engeller de misilleme araçları arasında yer alır. Bu tür uygulamalar doğrudan ticaret hacmini etkileyerek hem üreticiler hem de tüketiciler üzerinde önemli sonuçlar doğurabilir. Misilleme politikalarının bir diğer boyutu finansal yaptırımlardır. Özellikle son yıllarda uluslararası sistemde finansal araçların dış politika unsuru olarak kullanıldığı görülmektedir. Bankacılık işlemlerinin kısıtlanması, belirli şirketlerin kara listeye alınması veya yatırım akışlarının sınırlandırılması gibi adımlar, ekonomik baskı oluşturmanın farklı yöntemleri olarak karşımıza çıkmaktadır. Bu tür uygulamalar yalnızca hedef ülkeyi değil, aynı zamanda küresel finans sistemini de etkileyebilecek sonuçlar doğurabilir. Enerji politikaları da misilleme stratejilerinin önemli bir parçası haline gelmiştir. Enerji kaynaklarına sahip ülkeler, doğal gaz veya petrol arzını sınırlayarak karşı taraf üzerinde ekonomik baskı kurabilir. Enerjiye bağımlı ülkeler için bu tür hamleler ciddi ekonomik riskler doğururken, enerji ihracatçısı ülkeler açısından da gelir kaybı gibi sonuçlar ortaya çıkabilir. Bu nedenle enerji alanındaki misilleme politikaları çoğu zaman iki taraf için de maliyetli bir süreç anlamına gelir. Misilleme önlemlerinin teknoloji ve sanayi politikalarında da giderek daha fazla kullanıldığı görülmektedir. Özellikle stratejik sektörlerde faaliyet gösteren şirketlere yönelik ihracat kısıtlamaları, lisans iptalleri veya yatırım yasakları son yıllarda sıkça gündeme gelmektedir. Yüksek teknoloji ürünleri, yarı iletkenler, yapay zekâ ve savunma sanayi gibi alanlarda uygulanan bu tür kısıtlamalar, ülkeler arasındaki rekabetin ekonomik boyutunu daha da derinleştirmektedir. Ancak misilleme önlemleri yalnızca ekonomik araçlarla sınırlı değildir. Diplomatik ilişkilerin sınırlandırılması, büyükelçilerin geri çağrılması veya uluslararası platformlarda siyasi baskı oluşturulması da misillemenin farklı biçimleri arasında sayılabilir. Bu tür adımlar çoğu zaman sembolik görünse de uluslararası ilişkilerde ciddi mesajlar içermektedir. Misilleme politikalarının en önemli sonuçlarından biri küresel ticaret sisteminde belirsizlik yaratmasıdır. Ülkeler arasındaki karşılıklı yaptırımlar ticaret akışını sekteye uğratabilir, yatırım kararlarını geciktirebilir ve küresel büyümeyi olumsuz etkileyebilir. Özellikle tedarik zincirlerinin karmaşık hale geldiği günümüz ekonomisinde bu tür gelişmeler yalnızca ilgili ülkeleri değil, çok sayıda üçüncü ülkeyi de etkileyebilir. Ekonomistler misilleme politikalarının kısa vadede siyasi amaçlara hizmet edebilse de uzun vadede ekonomik maliyetler doğurabileceğini vurgulamaktadır. Gümrük vergilerinin artması tüketici fiyatlarını yükseltebilir, üretim maliyetlerini artırabilir ve küresel ticaret hacmini daraltabilir. Bu nedenle birçok ülke uluslararası anlaşmalar ve çok taraflı ticaret…