Reworkd’ün kurucuları, bir haftada 100.000’den fazla günlük kullanıcı edinen, AI aracıları oluşturmak için ücretsiz bir araç olan AgentGPT’yi geçen yıl GitHub’da viral hale getirdi. Bu onlara Y Combinator’ın 2023 yazındaki kohortunda bir yer kazandırdı, ancak kurucu ortaklar, genel yapay zeka ajanları oluşturmanın çok geniş kapsamlı olduğunu hemen fark ettiler. Artık Reworkd bir web kazıma şirketidir ve özellikle genel ağdan yapılandırılmış verileri çıkarmak için yapay zeka aracıları geliştirmektedir.
AgentGPT, tarayıcıda kullanıcıların otonom yapay zeka aracıları oluşturabileceği basit bir arayüz sağladı. Çok geçmeden herkes aracıların bilişimin geleceği olacağı konusunda övgüler yağdırmaya başladı.
Araç ortaya çıktığında Asim Shrestha, Adam Watkins ve Srijan Subedi hâlâ Kanada’da yaşıyordu ve Reworkd diye bir şey yoktu. Büyük kullanıcı akını onları hazırlıksız yakaladı; Artık Reworkd’ün COO’su olan Subedi, aracın API çağrılarında kendilerine günde 2.000 dolara mal olduğunu söyledi. Bu nedenle Reworkd’ü oluşturup hızla fon bulmaları gerekiyordu. AgentGPT’nin en popüler kullanım durumlarından biri, nispeten basit ama yüksek hacimli bir görev olan web kazıyıcılar oluşturmaktı, bu nedenle Reworkd bunu tek odak noktası haline getirdi.
Web kazıyıcılar yapay zeka çağında çok değerli hale geldi. Bright Data’nın son raporuna göre kuruluşların 2024’te halka açık web verilerini kullanmasının bir numaralı nedeni yapay zeka modelleri oluşturmak olacak. Sorun, web kazıyıcıların geleneksel olarak insanlar tarafından oluşturulması ve belirli web sayfaları için özelleştirilmesi gerekmesi, bu da onları pahalı hale getirmesidir. Ancak Reworkd’ün yapay zeka ajanları, döngüde daha az insan varken web’in daha fazlasını kazıyabilir.
Müşteriler, Reworkd’e yüzlerce, hatta binlerce web sitesinden oluşan bir liste verebilir ve ardından ilgilendikleri veri türlerini belirleyebilir. Daha sonra, Reworkd’ün yapay zeka aracıları, bunu yapılandırılmış verilere dönüştürmek için çok modlu kod oluşturmayı kullanır. Temsilciler, her web sitesini kazımak için benzersiz kod oluşturur ve bu verileri müşterilerin istedikleri gibi kullanmaları için çıkarır.
Örneğin, her NFL oyuncusunun istatistiklerini istediğinizi ancak her takımın web sitesinin farklı bir düzene sahip olduğunu varsayalım. Reworkd’ün temsilcileri, her web sitesi için bir kazıyıcı oluşturmak yerine, yalnızca bağlantılar ve çıkarmak istediğiniz verilerin bir açıklamasını vererek bunu sizin için yapar. 32 takımla bu size saatler kazandırabilir, ancak 1000 takım olsaydı haftalar kazandırabilirdi.
Reworkd, TechCrunch’a özel olarak Paul Graham, AI Grant (Nat Friedman ve Daniel Gross’un girişim hızlandırıcısı), SV Angel, General Catalyst ve Panache Ventures’tan 2,75 milyon dolarlık yeni bir tohum fonu topladı. Panache Ventures ve Y Combinator’ın geçen yıl yaptığı 1,25 milyon dolarlık tohum öncesi yatırımla birleştirildiğinde bu, Reworkd’ün bugüne kadar topladığı toplam fonu 4 milyon dolara çıkarıyor.
İnterneti kullanabilen yapay zeka
Ekip, Reworkd’ü kurup San Francisco’ya taşındıktan kısa bir süre sonra Rohan Pandey’i kurucu araştırma mühendisi olarak işe aldı. Kendisi şu anda Körfez Bölgesi’nin yapay zeka döneminin en popüler hacker evlerinden biri olan AGI House SF’de yaşıyor. Bir yatırımcı Pandey’i “Reworkd bünyesinde tek kişilik bir araştırma laboratuvarı” olarak tanımladı.
Pandey, TechCrunch ile yaptığı röportajda, dünya çapındaki web mucidi Tim Berners-Lee’nin bilgisayarların tüm interneti okuyabildiği vizyonuna atıfta bulunarak, “Kendimizi Semantik Web’in 30 yıllık hayalinin doruk noktası olarak görüyoruz” dedi. “Bazı web sitelerinde işaretleme olmasa da, LLM’ler web sitelerini insanlarla aynı şekilde anlayabilir, öyle ki temel olarak herhangi bir web sitesini bir API olarak gösterebiliriz. Yani bir bakıma Reworkd internet için evrensel API katmanı gibidir.”
Reworkd, müşteri veri ihtiyaçlarının uzun kuyruk ucunu yakalayabildiğini söylüyor; bu da yapay zeka aracılarının, büyük rakiplerin sıklıkla atladığı binlerce küçük halka açık web sitesini kazımak için özellikle iyi olduğu anlamına geliyor. Bright Data gibi diğerlerinin, LinkedIn veya Amazon gibi büyük web siteleri için halihazırda oluşturulmuş kazıyıcıları vardır, ancak bir insanın her küçük web sitesi için bir kazıyıcı oluşturması zahmetine değmeyebilir. Reworkd bu endişeyi gideriyor ancak potansiyel olarak başkalarını da gündeme getiriyor.
‘Herkese açık’ web verileri tam olarak nedir?
Web kazıyıcılar onlarca yıldır mevcut olmasına rağmen, yapay zeka çağında tartışmalara yol açtılar. Büyük veri yığınlarının başıboş bir şekilde kazınması, OpenAI ve Perplexity’yi yasal sorunlarla karşı karşıya bıraktı: haber ve medya kuruluşları, yapay zeka şirketlerinin fikri mülkiyeti bir ödeme duvarının arkasından çıkardığını ve bunları ücretsiz olarak geniş çapta çoğalttığını iddia ediyor. Reworkd bu sorunların yaşanmaması için önlemler alıyor.
Reworkd’ün kurucu ortağı ve CEO’su Shrestha, TechCrunch ile yaptığı röportajda “Bunu, kamuya açık bilgilerin erişilebilirliğini artırıcı bir gelişme olarak görüyoruz” dedi. “Yalnızca kamuya açık olan bilgilere izin veriyoruz, oturum açma duvarlarından veya buna benzer şeylerden geçmiyoruz.”
Bir adım daha ileri gitmek gerekirse Reworkd, haberleri tamamen kazımaktan kaçındığını ve kiminle çalışacakları konusunda seçici davrandıklarını söylüyor. Şirketin CTO’su Watkins, haber içeriğini başka yerlerde toplamak için daha iyi araçların bulunduğunu ve bunların odak noktası olmadığını söylüyor.
Bunun bir örneği olarak Reworkd, politika ekiplerinin hükümet düzenlemelerine uymasına yardımcı olan bir şirket olan Axis ile yaptıkları çalışmaları anlattı. Axis, Avrupa Birliği’ndeki birçok ülke için binlerce hükümet düzenleme belgesinden veri çıkarmak için Reworkd’ün yapay zekasını kullanıyor. Axis daha sonra bu verilere dayanarak bir yapay zeka modelini eğitip ince ayarını yapıyor ve bunu müşterilere bir ürün olarak sunuyor.
Silikon Vadisi merkezli hukuk firması Gunderson Dettmer’in ortağı Aaron Fiske’ye göre bugünlerde bir web kazıma şirketi kurmak, tehlikeli bir bölgeye girmek olarak değerlendirilebilir. Şu anda manzara biraz değişken ve jüri hala yapay zeka modelleri için web verilerinin gerçekte ne kadar “kamuya açık” olduğu konusunda kararsız. Ancak Fiske, Reworkd’ün müşterilerin hangi web sitelerini kazıyacaklarına karar verdikleri yaklaşımının onları yasal sorumluluktan koruyabileceğini söylüyor.
TechCrunch ile yaptığı röportajda Fiske, “Sanki fotokopi makinesini icat etmişler gibi ve kopyalama yapmak için ekonomik açıdan son derece değerli, ancak aynı zamanda yasal olarak gerçekten sorgulanabilir olduğu ortaya çıkan bir kullanım durumu var” dedi. “Yapay zeka şirketlerine hizmet veren web kazıyıcıların mutlaka riskli olması söz konusu değil, ancak telif hakkıyla korunan içeriği toplamakla gerçekten ilgilenen yapay zeka şirketleriyle çalışmak belki bir sorun olabilir.”
Bu nedenle Reworkd kiminle çalıştığına dikkat ediyor. Web kazıyıcılar şimdiye kadar yapay zeka ile ilgili olası telif hakkı ihlali vakalarındaki suçun çoğunu gizledi. OpenAI davasında Fiske, The New York Times’ın makalelerini toplayan web kazıyıcıya değil, çalışmalarını çoğalttığı iddia edilen şirkete dava açtığına dikkat çekiyor. Ancak orada bile OpenAI’nin yaptığı şeyin gerçekten telif hakkı ihlali olup olmadığına henüz karar verilmedi.
Yapay zeka patlaması sırasında web kazıyıcıların yasal olarak temiz olduğuna dair daha fazla kanıt var. Bir mahkeme yakın zamanda Facebook ve Instagram profillerini internet üzerinden silmesinin ardından Bright Data’nın lehine karar verdi. Mahkeme davasındaki bir örnek, Bright Data’nın 860.000 dolara sattığı 615 milyon Instagram kullanıcı verisi kaydından oluşan bir veri kümesiydi. Meta, bunun hizmet şartlarını ihlal ettiğini iddia ederek şirkete dava açtı. Ancak bir mahkeme bu verilerin kamuya açık olduğuna ve bu nedenle kazınmaya uygun olduğuna karar verdi.
Yatırımcılar Reworkd’ün büyük adamlarla ölçeklendiğini düşünüyor
Reworkd, Y Combinator ve Paul Graham’dan Daniel Gross ve Nat Friedman’a kadar ilk yatırımcılar olarak büyük isimlerin ilgisini çekti. Bazı yatırımcılar bunun Reworkd teknolojisinin yeni modellerle birlikte gelişip ucuzlamasından kaynaklandığını söylüyor. Girişim, OpenAI’nin GPT-4o’sunun şu anda multimodal kod üretimi için en iyisi olduğunu ve Reworkd teknolojisinin çoğunun yalnızca birkaç ay öncesine kadar mümkün olmadığını söylüyor.
General Catalyst’ten Viet Le, TechCrunch ile yaptığı röportajda, “Teknolojinin ilerleme hızıyla rekabet etmeye çalışırsanız (bunun üzerine inşa etmek yerine), o zaman kurucu olarak zor zamanlar geçireceğinizi düşünüyorum” diyor. “Reworkd, çözümünü ilerleme hızına dayandıran bir zihniyete sahip.”
Reworkd, pazardaki belirli bir boşluğa hitap eden yapay zeka aracıları yaratıyor; AI hızla ilerlediği için şirketlerin daha fazla veriye ihtiyacı var. Daha fazla şirket kendi işlerine özel özel yapay zeka modelleri oluşturdukça, Reworkd daha fazla müşteri kazanmaya hazırlanıyor. Modellerin ince ayarı, kaliteyi, yapılandırılmış verileri ve bunların çoğunu gerektirir.
Reworkd, yaklaşımının “kendini iyileştirme” olduğunu söylüyor, bu da web kazıyıcılarının bir web sayfası güncellemesi nedeniyle bozulmayacağını gösteriyor. Başlangıç, geleneksel olarak yapay zeka modelleriyle ilişkilendirilen halüsinasyon sorunlarından kaçındığını iddia ediyor çünkü Reworkd’ün temsilcileri bir web sitesini kazımak için kod üretiyor. Yapay zekanın bir hata yapması ve bir web sitesinden yanlış verileri alması mümkün ancak Reworkd ekibi, doğruluğunu düzenli olarak değerlendirmek için açık kaynaklı bir değerlendirme çerçevesi olan Banana-lyzer’ı yarattı.
Reworkd’ün büyük bir maaş bordrosu yok – ekip sadece dört kişiden oluşuyor – ancak AI aracılarını çalıştırmak için önemli miktarda çıkarım maliyeti üstlenmek zorunda. Başlangıç, bu maliyetler düştükçe fiyatlarının giderek daha rekabetçi olmasını bekliyor. OpenAI, sektör lideri modelinin rekabetçi ölçütlere sahip daha küçük bir versiyonu olan GPT-4o mini’yi kısa süre önce piyasaya sürdü. Bunun gibi yenilikler Reworkd’ü daha rekabetçi hale getirebilir.
Paul Graham ve AI Grant, TechCrunch’ın yorum talebine yanıt vermedi.
Kaynak: https://techcrunch.com/2024/07/24/reworkd-paul-graham-nat-friedman-daniel-gross-scrape-ai-agents/