Bilgisayarınıza bir yapay zeka asistanı nasıl yüklenir ve kullanılır

ChatGPT, Copilot ve Midjourney’in tüm avantajlarını verilerinizi internete sızdırmadan lokal olarak elde edin.

Pek çok kişi halihazırda jeneratif nöral ağları denemeye başladı ve iş amaçlı kullanımlar da dâhil olmak üzere bu ağlar için düzenli kullanım alanları ortaya çıkmakta. Örneğin, ChatGPT ve benzerleri Amerikalıların neredeyse %60’ı tarafından düzenli olarak kullanılıyor (ve bu her zaman yönetimden izin alınarak yapılmıyor). Bununla birlikte, bu tür işlemlerde yer alan tüm veriler – hem kullanıcı istemleri hem de model yanıtları – OpenAI, Google ve diğer şirketlerin sunucularında saklanır. Bu tür bilgi sızıntılarının kabul edilemez olduğu görevler için yapay zekayı tamamen terk etmeniz gerekmez – sadece nöral ağı yerel olarak kendi bilgisayarınızda (hatta bir dizüstü bilgisayarda) çalıştırmak için biraz çaba (ve belki de para) harcamanız yeterlidir.

Bulut tehditleri

En popüler yapay zeka asistanları büyük şirketlerin bulut altyapısı üzerinde çalışıyor. Bu yöntem verimli ve hızlıdır, ancak model tarafından işlenen verilerinize hem yapay zeka hizmet sağlayıcısı hem de geçen yıl ChatGPT’de olduğu gibi tamamen ilgisiz taraflar erişebilir.

Bu tür olaylar, bu yapay zeka asistanlarının ne için kullanıldığına bağlı olarak değişen düzeylerde tehdit oluşturuyor. Yazdığınız peri masalları için sevimli illüstrasyonlar üretiyorsanız veya ChatGPT’den yaklaşan hafta sonu şehir tatiliniz için bir güzergah oluşturmasını istiyorsanız, bir sızıntının ciddi hasara yol açması pek olası değildir. Ancak bir chatbot ile yaptığınız görüşme gizli bilgiler (kişisel veriler, parolalar veya banka kartı numaraları) içeriyorsa, buluta olası bir sızıntı kabul edilmez olacaktır.. Neyse ki, verileri önceden filtreleyerek bunu önlemek nispeten kolaydır – bu konuda ayrı bir yazımız var.

Ancak, tüm yazışmaların gizli olduğu (örneğin tıbbi veya finansal bilgiler) veya ön filtrelemenin güvenilirliğinin şüpheli olduğu durumlarda (kimsenin önizleme ve filtreleme yapmayacağı büyük hacimli verileri işlemeniz gerektiğinde), tek bir çözüm vardır: işlemeyi buluttan yerel bir bilgisayara taşımak. Elbette ChatGPT veya Midjourney’in kendi versiyonunu çevrimdışı çalıştırmak pek mümkün değildir, ancak yerel olarak çalışan diğer nöral ağlar daha az bilgisayar yükü ile kıyaslanabilir bir kalite sağlar.

Bir nöral ağı çalıştırmak için hangi donanıma ihtiyacınız vardır?

Sinir ağlarıyla çalışmanın süper güçlü grafik kartları gerektirdiğini muhtemelen duymuşsunuzdur, ancak pratikte durum her zaman böyle değildir. Farklı yapay zeka modelleri, özelliklerine bağlı olarak, RAM, video belleği, sürücü ve işlemci gibi bilgisayar bileşenlerini zorlayabilir (burada sadece işlem hızı değil, aynı zamanda işlemcinin belirli vektör talimatlarını desteklemesi de önemlidir). Modeli yükleme yeteneği RAM miktarına bağlıdır ve “bağlam penceresinin” boyutu – yani önceki konuşmanın belleği – video belleği miktarına bağlıdır. Tipik olarak, zayıf bir grafik kartı ve işlemci ile üretim salyangoz hızında gerçekleşir (metin modelleri için saniyede bir ila iki kelime), bu nedenle bu kadar minimal bir kuruluma sahip bir bilgisayar yalnızca belirli bir modelle tanışmak ve uygunluğunu basitçe değerlendirmek için uygundur. Tam teşekküllü günlük kullanım için RAM’i artırmanız, grafik kartını yükseltmeniz veya daha hızlı bir yapay zeka modeli seçmeniz gerekecektir.

Başlangıç noktası olarak, 2017’de nispeten güçlü kabul edilen bilgisayarlarla çalışmayı deneyebilirsiniz: AVX2 talimatlarını destekleyen Core i7’den düşük olmayan işlemciler, 16 GB RAM ve en az 4 GB belleğe sahip grafik kartları. Mac meraklıları için Apple M1 çipi ve üzerinde çalışan modeller yeterli olacaktır, bellek gereksinimleri ise aynıdır.

Bir yapay zeka modeli seçerken, öncelikle sistem gereksinimlerini öğrenmelisiniz. “Model_adı gereksinimleri” gibi bir arama sorgusu, mevcut donanımınız göz önüne alındığında bu modeli indirmeye değip değmeyeceğini değerlendirmenize yardımcı olacaktır. Bellek boyutu, CPU ve GPU’nun farklı modellerin performansı üzerindeki etkisine ilişkin ayrıntılı çalışmalar mevcuttur; örneğin, buradaki çalışma.

Güçlü donanımlara erişimi olmayanlar için iyi haber: Eski donanımlarda bile basit görevleri yerine getirebilen basitleştirilmiş yapay zeka modelleri vardır. Grafik kartınız çok basit ve zayıf olsa bile, yalnızca işlemciyi kullanarak modelleri çalıştırmak ve ortamları başlatmak mümkündür. Gerçekleştireceğiniz işlere bağlı olarak, bunlar kabul edilebilir derecede iyi bile çalışabilir.

GPU verim testleri

Çeşitli bilgisayar yapılarının popüler dil modelleriyle nasıl çalıştığına dair örnekler

Bir yapay zeka modeli seçmek ve kuantizasyonun büyüsü

Günümüzde çok sayıda dil modeli mevcuttur, ancak bunların birçoğunun pratik uygulamaları sınırlıdır. Bununla birlikte, metin oluşturmak (örneğin Mistral 7B) veya kod parçacıkları oluşturmak (örneğin Code Llama 13B) gibi belirli görevler için çok uygun olan kullanımı kolay ve halka açık yapay zeka araçları vardır. Bu nedenle, bir model seçerken, seçimi birkaç uygun adaya indirgeyin ve ardından bilgisayarınızın bunları çalıştırmak için gerekli kaynaklara sahip olduğundan emin olun.

Herhangi bir nöral ağda, bellek zorlanmasının çoğu, ağdaki her bir nöronun çalışmasını tanımlayan sayısal katsayılar olan ağırlıklardan kaynaklanır. Başlangıçta, modeli eğitirken, ağırlıklar hesaplanır ve yüksek hassasiyetli kesirli sayılar olarak saklanır. Ancak, eğitilen modeldeki ağırlıkların yuvarlanmasının, yapay zeka aracının normal bilgisayarlarda çalıştırılmasına izin verirken performansı sadece biraz düşürdüğü ortaya çıktı. Bu yuvarlama işlemine kuantizasyon denir ve bunun yardımıyla modelin boyutu önemli ölçüde azaltılabilir – 16 bit yerine, her ağırlık sekiz, dört veya hatta iki bit kullanabilir.

Güncel araştırmalara göre, daha fazla parametre ve kuantizasyona sahip daha büyük bir model, bazen hassas ağırlık depolamalı ancak daha az parametreli bir modelden daha iyi sonuçlar verebiliyor.

Bu bilgilerle donanmış olarak, artık açık kaynaklı dil modellerinin hazinesini, yani en iyi Açık Büyük Dil Modellerini keşfetmeye hazırsınız. Bu listede, yapay zeka araçları çeşitli üretim kalitesi ölçütlerine göre sıralanır ve filtreler çok büyük, çok küçük veya çok doğru olan modelleri dışarıda bırakmayı kolaylaştırır.

Filtre kümesine göre sıralanmış dil modelleri listesi

Filtre kümesine göre sıralanmış dil modelleri listesi

Model açıklamasını okuduktan ve ihtiyaçlarınıza uygun olduğundan emin olduktan sonra, Hugging Face veya Google Colab hizmetlerini kullanarak buluttaki performansını test edin. Bu şekilde, tatmin edici olmayan sonuçlar üreten modelleri indirmekten kaçınabilir ve zamandan tasarruf edebilirsiniz. Modelin ilk testinden memnun kaldığınızda, sıra yerel olarak nasıl çalıştığını görmeye gelir!

Gerekli yazılım

Açık kaynaklı modellerin çoğu Hugging Face üzerinde yayınlanmaktadır, ancak bunları bilgisayarınıza indirmek yeterli değildir. Bunları çalıştırmak için LLaMA.cpp gibi özel bir yazılım veya daha da kolayı “fonksiyon çevirici” LM Studio‘yu yüklemeniz gerekir. LM Studio, istediğiniz modeli doğrudan uygulamadan seçmenize, indirmenize ve bir iletişim kutusunda çalıştırmanıza olanak tanır.

Bir sohbet robotunu yerel olarak kullanmanın bir başka “kullanıma hazır” yolu da GPT4All olarak karşımıza çıkar. Burada seçim yaklaşık bir düzine dil modeliyle sınırlıdır, ancak bunların çoğu yalnızca 8 GB belleğe ve temel bir grafik kartına sahip bir bilgisayarda bile çalışacaktır.

Eğer üretim çok yavaşsa, daha kaba kuantizasyonlu (dört yerine iki bit) bir modele ihtiyacınız olabilir. Oluşturma kesintiye uğrarsa veya yürütme hataları meydana gelirse, sorun genellikle yetersiz bellektir. Böyle bir durumda daha az parametreye sahip veya yine daha kaba kuantizasyonlu bir model aramaya değer.

Hugging Face’teki birçok model zaten çeşitli hassasiyet derecelerine göre kuantize edilmiştir, ancak kimse istediğiniz modeli istediğiniz hassasiyetle kuantize etmediyse, GPTQ kullanarak bunu kendiniz yapabilirsiniz.

Bu hafta, gelecek vaat eden bir başka araç daha halka açık beta sürümünde yayınlandı: NVIDIA’dan Chat With RTX. En çok aranan yapay zeka çiplerinin üreticisi, kullanıcının 16 GB belleğe sahip bir Windows PC’si ve 8 GB veya daha fazla video belleğine sahip bir NVIDIA RTX 30. veya 40. serisi ekran kartı olması koşuluyla, YouTube videolarının içeriğini özetleyebilen, belge kümelerini işleyebilen ve çok daha fazlasını yapabilen yerel bir sohbet robotu yayınladı. Yakından baktığımızda Hugging Face‘in Mistral ve Llama 2 varyasyonları vardır. Elbette güçlü grafik kartları jenerasyon performansını artırabilir, ancak ilk testerlardan gelen geri bildirimlere göre, şu anki beta oldukça hantal (yaklaşık 40 GB) ve kurulumu zor. Ancak NVIDIA’nın Chat With RTX’i gelecekte çok kullanışlı bir yerel yapay zeka asistanı haline gelebilir.

Kuantize dil modeli TheBloke/CodeLlama-7B-Instruct-GGUF tarafından yazılan 'Yılan' oyununun kodu

Kuantize dil modeli TheBloke/CodeLlama-7B-Instruct-GGUF tarafından yazılan “Yılan” oyununun kodu

Yukarıda listelenen uygulamalar tüm hesaplamaları yerel olarak gerçekleştirir, sunuculara veri göndermez ve çevrimdışı çalışabilir, böylece gizli bilgileri onlarla güvenle paylaşabilirsiniz. Ancak, kendinizi sızıntılara karşı tam olarak korumak için yalnızca dil modelinin değil, bilgisayarınızın da güvenliğini sağlamanız gerekir – işte bu noktada kapsamlı güvenlik çözümümüz devreye girer. Bağımsız testlerde doğrulandığı gibi, Kaspersky Premium bilgisayarınızın performansını üzerinde neredeyse hiç etkilemez ve bu, yerel AI modelleriyle çalışırken önemli bir avantajdır.

İpuçları