Anketler çok eski zamanlardan beri nüfus, ürünler ve kamuoyu hakkında bilgi edinmek için kullanılmıştır. Metodolojiler bin yıl boyunca değişmiş olsa da bir şey sabit kaldı: İnsanlara duyulan ihtiyaç, çok sayıda insana duyulan ihtiyaç.
Peki ya anlamlı sonuçlar elde etmek için yeterince büyük bir örnek grup oluşturmaya yetecek kadar insan bulamazsanız? Ya da potansiyel olarak yeterli sayıda insan bulabiliyorsanız ancak bütçe kısıtlamaları kaynak sağlayabileceğiniz ve röportaj yapabileceğiniz kişi sayısını sınırlıyorsa?
Fairgen’in yardım etmek istediği yer burasıdır. İsrailli girişim bugün, gerçeği kadar iyi olduğunu söylediği sentetik veriler üretmek için “istatistiksel yapay zeka”yı kullanan bir platform başlattı. Şirket ayrıca Maverick Ventures Israel, The Creator Fund, Tal Ventures, Ignia ve bir avuç melek yatırımcıdan 5,5 milyon dolarlık yeni bir bağış toplamayı da duyurdu ve başlangıçtan bu yana toplanan toplam nakdi 8 milyon dolara çıkardı.
“Sahte veriler”
Veriler yapay zekanın can damarı olabilir ama aynı zamanda ezelden beri pazar araştırmasının da temel taşı olmuştur. Dolayısıyla Fairgen’in dünyasında olduğu gibi iki dünya çarpıştığında, kaliteli verilere olan ihtiyaç biraz daha belirgin hale geliyor.
2021 yılında İsrail’in Tel Aviv kentinde kurulan Fairgen, daha önce yapay zekadaki önyargılarla mücadeleye odaklanıyordu. Ancak 2022’nin sonlarında şirket, şu anda beta sürümünden çıkan yeni bir ürün olan Fairboost’a geçti.
Fairboost, daha küçük bir veri kümesini üç kata kadar “artırmayı” vaat ederek, normalde ulaşılması çok zor veya pahalı olabilecek nişlere ilişkin daha ayrıntılı içgörülere olanak tanır. Bunu kullanarak şirketler, Fairgen platformuna yükledikleri her veri seti için farklı anket segmentlerindeki istatistiksel yapay zeka öğrenme modelleriyle derin bir makine öğrenme modeli eğitebilirler.
“Sentetik veri” kavramı (gerçek dünyadaki olaylardan ziyade yapay olarak oluşturulan veriler) yeni değildir. Kökleri, yazılım ve algoritmaları test etmek ve süreçleri simüle etmek için kullanıldığı bilgisayar biliminin ilk günlerine kadar uzanır. Ancak bugün anladığımız şekliyle sentetik veriler, özellikle modelleri eğitmek için giderek daha fazla kullanıldığı makine öğreniminin ortaya çıkışıyla birlikte kendi başına bir hayat kazandı. Hassas bilgiler içermeyen yapay olarak oluşturulmuş verileri kullanarak hem veri kıtlığı sorunlarını hem de veri gizliliği endişelerini giderebiliriz.
Fairgen, sentetik verileri teste tabi tutan en son girişimdir ve birincil hedefi pazar araştırmasıdır. Fairgen’in yoktan veri üretmediğini veya milyonlarca tarihsel araştırmayı yapay zeka destekli bir eritme potasına atmadığını belirtmekte fayda var; pazar araştırmacılarının hedef pazarlarının küçük bir örneği için bir anket yürütmeleri gerekiyor ve bundan yola çıkarak Fairgen Örneği genişletmek için modeller oluşturur. Şirket, orijinal numunede en az iki kat artış garanti edebileceğini, ancak ortalama olarak üç kat artış sağlayabileceğini söylüyor.
Bu şekilde Fairgen, belirli bir yaş grubundan ve/veya gelir düzeyinden birinin bir soruyu belirli bir şekilde yanıtlamaya daha yatkın olduğunu tespit edebilir. Veya orijinal veri kümesinden tahmin yapmak için istediğiniz sayıda veri noktasını birleştirin. Temel olarak bu, Fairgen kurucu ortağı ve CEO’su Samuel Cohen’in söylediği gibi “daha düşük hata payına sahip, daha güçlü, daha sağlam veri bölümleri” oluşturmakla ilgilidir.
Cohen, TechCrunch’a şöyle konuştu: “Asıl fark, insanların giderek daha fazla çeşitlilik kazandığıydı; markaların buna uyum sağlaması ve müşteri segmentlerini anlaması gerekiyor.” “Segmentler çok farklı; Z kuşağı yaşlı insanlardan farklı düşünüyor. Ve segment düzeyinde bu pazar anlayışına sahip olabilmek çok fazla paraya mal oluyor, çok fazla zaman ve operasyonel kaynak gerektiriyor. Ve acı noktasının burada olduğunu fark ettim. Sentetik verilerin bu konuda oynayacağı bir rol olduğunu biliyorduk.”
Şirketin de mücadele ettiğini kabul ettiği bariz bir eleştiri, tüm bunların sahaya çıkıp gerçek insanlarla röportaj yapmak ve gerçek görüşler toplamak zorunda kalmanın devasa bir kısayolu gibi görünmesidir.
Elbette az temsil edilen herhangi bir grup, gerçek seslerinin yerini sahte seslerin aldığından endişelenmeli mi?
Fairgen’in büyüme sorumlusu Fernando Zatz, TechCrunch’a şunları söyledi: “Araştırma alanında konuştuğumuz her müşterinin çok büyük kör noktaları var; yani ulaşılması zor hedef kitleler.” “Aslında proje satmıyorlar çünkü yeterli sayıda insan mevcut değil, özellikle de çok fazla pazar segmentasyonunun olduğu, giderek çeşitlenen bir dünyada. Bazen belirli ülkelere gidemiyorlar; belirli demografik özelliklere giremiyorlar, dolayısıyla kotalarına ulaşamadıkları için aslında projelerde kaybediyorlar. Minimum sayıları var [of respondents]ve bu sayıya ulaşmazlarsa analizleri satmazlar.”
Fairgen, üretken yapay zekayı pazar araştırması alanına uygulayan tek şirket değil. Qualtrics geçen yıl, üretken yapay zekayı platformuna getirmek için dört yılda 500 milyon dolar yatırım yaptığını ancak esas olarak niteliksel araştırmaya odaklandığını açıklamıştı. Ancak bu, sentetik verilerin burada ve burada kalacağının bir başka kanıtıdır.
Ancak sonuçların doğrulanması, insanları bunun gerçek anlaşma olduğuna ve optimal olmayan sonuçlar üretecek maliyet düşürücü bir önlem olmadığına ikna etmede önemli bir rol oynayacaktır. Fairgen bunu “gerçek” örnek güçlendirmeyi “sentetik” örnek güçlendirmeyle karşılaştırarak yapar; veri kümesinden küçük bir örnek alır, bunu tahmin eder ve onu gerçek şeyle yan yana koyar.
Cohen, “Kaydolduğumuz her müşteriyle aynı tür testi yapıyoruz” dedi.
İstatistiksel olarak konuşursak
Cohen’in Oxford Üniversitesi’nden istatistik bilimi alanında yüksek lisansı ve Londra’daki UCL’den makine öğrenimi alanında doktorası var; bunun bir kısmı Meta’da araştırma bilimcisi olarak dokuz aylık bir çalışmayı da içeriyor.
Şirketin kurucu ortaklarından biri, daha önce kurumsal yazılım alanında çalışan ve kendi adına dört çıkışa sahip olan başkan Benny Schnaider’dir: 2016’da 500 milyon dolar karşılığında Ravello’dan Oracle’a; Qumranet, 2008’de 107 milyon dolara Red Hat’e; P-Cube, 2004’te 200 milyon dolara Cisco’ya; ve Pentacom 2000 yılında 118 dolara Cisco’ya verildi.
Ve bir de Fairgen’in baş bilimsel danışmanı olarak görev yapan Stanford Üniversitesi’nde istatistik ve elektrik mühendisliği profesörü Emmanuel Candès var.
Bu iş ve matematik omurgası, dünyayı sahte verilerin, eğer doğru uygulanırsa, gerçek veriler kadar iyi olabileceğine ikna etmeye çalışan bir şirket için önemli bir satış noktasıdır. Bu aynı zamanda teknolojisinin eşiklerini ve sınırlamalarını da bu şekilde açık bir şekilde açıklayabiliyorlar; optimum artışları elde etmek için numunelerin ne kadar büyük olması gerekiyor.
Cohen’e göre, bir anket için ideal olarak en az 300 gerçek yanıtlayıcıya ihtiyaç duyuyorlar ve bundan yola çıkarak Fairboost, daha geniş anketin %15’inden fazlasını oluşturmayacak bir segment boyutunu artırabilir.
Cohen, “Yüzde 15’in altında, yüzlerce paralel testle doğruladıktan sonra ortalama 3 kat artış garanti edebiliriz” dedi. “İstatistiksel olarak, kazançlar %15’in üzerinde daha az dramatik. Veriler hâlihazırda iyi bir güven düzeyi sunuyor ve sentetik yanıt verenlerimiz yalnızca potansiyel olarak bu değerlerle eşleşebilir veya marjinal bir artış sağlayabilir. İş açısından da %15’in üzerinde bir sıkıntı noktası yok; markalar zaten bu gruplardan bir şeyler öğrenebilir; yalnızca niş düzeyde sıkışıp kalmışlar.”
LLM olmaması faktörü
Fairgen’in büyük dil modelleri (LLM’ler) kullanmadığını ve platformunun ChatGPT tarzında “sade İngilizce” yanıtlar üretmediğini belirtmekte fayda var. Bunun nedeni, bir Yüksek Lisans eğitiminin, çalışmanın parametreleri dışında sayısız diğer veri kaynaklarından elde edilen öğrenmeleri kullanmasıdır; bu da nicel araştırmayla bağdaşmayan önyargının ortaya çıkma olasılığını artırır.
Fairgen tamamen istatistiksel modeller ve tablo halindeki verilerle ilgilidir ve eğitimi yalnızca yüklenen veri kümesinde yer alan verilere dayanır. Bu, pazar araştırmacılarının anketteki bitişik bölümlerden çıkarımlar yaparak yeni ve sentetik yanıtlayıcılar oluşturmasına etkili bir şekilde olanak tanır.
“Çok basit bir nedenden ötürü herhangi bir Yüksek Lisans eğitimi kullanmıyoruz; [other] Cohen, anketlerin yalnızca yanlış bilgi aktaracağını söyledi. “Çünkü başka bir ankette bir şeyler öğrenildiği durumlar olur ve biz bunu istemiyoruz. Her şey güvenilirlikle ilgili.”
İş modeli açısından Fairgen, şirketlerin anketlerini hangi yapılandırılmış formatta (.CSV veya .SAV) Fairgen’in bulut tabanlı platformuna yüklediği bir SaaS olarak satılmaktadır. Cohen’e göre, soru sayısına bağlı olarak modeli kendisine verilen anket verileriyle eğitmek 20 dakika kadar sürüyor. Kullanıcı daha sonra bir “segment” (belirli özellikleri paylaşan yanıt verenlerin bir alt kümesi) seçer – örneğin “X endüstrisinde çalışan Z Kuşağı” – ve ardından Fairgen, orijinal eğitim dosyasıyla aynı şekilde yapılandırılmış, tamamen aynı soruları içeren yeni bir dosya sunar. , yalnızca yeni satırlar.
Fairgen, başlangıçtaki teknolojiyi hizmetlerine entegre etmiş olan BVA ve Fransız anket ve pazar araştırma şirketi IFOP tarafından kullanılıyor. ABD’deki Gallup’a biraz benzeyen IFOP, Fairgen’i Avrupa seçimlerinde oylama amacıyla kullanıyor, ancak Cohen bunun bu yılın sonlarında ABD seçimleri için de kullanılabileceğini düşünüyor.
Cohen, “IFOP temelde bizim onay damgamızdır çünkü yaklaşık 100 yıldır ortalıktalar” dedi. “Teknolojiyi onayladılar ve orijinal tasarım ortağımız oldular. Ayrıca, henüz hakkında konuşmama izin verilmeyen, dünyanın en büyük pazar araştırma şirketlerinden bazılarını test ediyoruz veya halihazırda onlarla entegre oluyoruz.”
Kaynak: https://techcrunch.com/2024/05/09/fairgen-boosts-survey-results-using-synthetic-data-and-ai-generated-responses/