Kto kształtuje nowe koncepcje w sztucznej inteligencji — duże korporacje czy akademia?

Symboliczna grafika przedstawiająca sieć

fot. freepik

Interdyscyplinarny zespół informatyków, fizyków i politologów z Politechniki Warszawskiej i Uniwersytetu Warszawskiego opublikował w czasopiśmie Journal of Informetrics artykuł, w którym analizuje wpływ przynależności autorów publikacji do największych korporacji technologicznych i informatycznych (powszechnie zwanych Big Tech) na przenoszenie się idei w nauce.

Badacze opierając się na dwóch kompleksowych bazach publikacji naukowych — S2ORC oraz OpenAlex — wyekstrahowali 160 000 artykułów związanych z tematyką SI, dla których dostępne były pełne informacje dotyczące zarówno cytowań, jak i afiliacji autorów. Korzystając z tych danych, zbudowano sieć, której węzłami są publikacje, zaś połączenia są konsekwencją cytowań pomiędzy artykułami.

Wpływ afiliacji

Do tej pory standardową procedurą było oznaczanie całej publikacji jako Big Tech, jeśli choć jeden autor posiadał taką afiliację. Aby uzyskać dokładniejszy obraz sytuacji, w pracy rozpatrywano wprowadzenie ciągłego parametru w zakresie od 0 do 1, określającego udział afiliacji Big Tech w danej publikacji. Przeprowadzone analizy statystyczne wykazały, iż bez utraty ogólności można zastosować klasyfikację trójdzielną, w której oprócz kategorii czysto akademickiej i czysto Big Tech-owej mamy też mieszaną (publikacja musi mieć co najmniej jedną afiliację akademicką i co najmniej jedną Big Tech).

Choć w analizowanej sieci artykułów czysto akademickich jest około 50 razy więcej niż pozostałych, to właśnie te, które należą do kategorii mieszanej, charakteryzują się najlepszymi statystykami, zarówno po względem liczby cytowań, jak i istotności w sieci, mierzonej za pomocą algorytmu Page Rank, używanego do ustalania rankingu stron w wyszukiwarce Google. Co ciekawe, w przypadku pominięcia publikacji bez cytowań, różnica pomiędzy kategoriami Big Tech i mieszaną zanika.

Analiza memetyczna niezbędna do zrozumienia rozwoju nauki

Jak jednak pokazują autorzy publikacji, obraz zmienia się, gdy zamiast rozpatrywać proste miary sieciowe, skupimy się propagacji konkretnych koncepcji naukowych, czyli memów, które mogą być zarówno pojedynczymi wyrazami, skrótami,  jak również całymi wyrażeniami (np. „malware”, „cnn”, „facial expression recognition”). W tym celu wykorzystany został tzw. sticking factor (w wolnym tłumaczeniu „czynnik przenoszenia”), rozumiany jako prawdopodobieństwo transmisji memu z jednego artykułu do drugiego. W takim ujęciu, gdy analizowane są czynniki przenoszenia wszystkich memów, jedyna istotna różnica jest widoczna dla pary kategorii Big Tech – mieszane, dokładnie odwrotnie niż w przypadku miar sieciowych. Jeśli jednak ograniczymy się jedynie do konkretnych memów, występujących w co najmniej dwóch kategoriach, wtedy afiliacja związana z samym Big Techem okaże się najbardziej „zaraźliwa”.

Chmury słów przedstawiające najczęściej występujące memy w badanym zbiorze

Chmury słów przedstawiające najczęściej występujące memy w badanym zbiorze. Kolory odnoszą się do wyodrębnionych kategorii SI a wielkości czcionki jest proporcjonalna do częstości występowania memu.

Otrzymane wyniki sugerują, że stosowanie podziału akademia – Big Tech jest zbytnim uproszczeniem, a artykuły charakteryzujące się mieszaną afiliacją autorów mogą odgrywać istotną rolę. W ten sposób praca wpisuje się w trwającą gorącą dyskusję dotyczącą roli i zagrożeń związanych ze spółkami Big Tech, sugerując, że z punktu widzenia rozwoju dziedziny utrzymanie współpracy pomiędzy szeroko rozumianą akademią i Big Techem może być obustronnie korzystne. 

***

Wyniki badań są efektem projektu „DARLING — Głęboka analiza regulacji dotyczących sztucznej inteligencji z wykorzystaniem modeli językowych, analizy sieciowej i gramatyki instytucjonalnej” kierowanego przez Juliana Sienkiewicza z naszego wydziału (konkurs CyberiADa-3 w ramach Priorytetowego Obszaru Badawczego Cyberbezpieczeństwo i analiza danych). W skład zespołu autorów weszli również studenci Wydziału MIM UW (Stanisław Giziński, Paulina Kaczyńska, Emilia Wiśnios) i Wydziału MINI PW (Hubert Ruczyński), a także Przemysław Biecek z Wydziału MINI PW oraz Bartosz Pieliński z Wydziału Nauk Politycznych i Studiów Międzynarodowych UW.

Z artykułem Big Tech influence over AI research revisited: Memetic analysis of attribution of ideas to affiliation można się zapoznać na stronie https://www.sciencedirect.com/science/article/pii/S1751157724000841.

Tekst opracowali: Julian Sienkiewicz, Przemysław Biecek

Informacja o dofinansowaniu z programu Inicjatywa Doskonałości – Uczelnia Badawcza