Jaki cel postawiono przed projektem AI Sweden? Kto stworzył zasady, na których rozpoczęliście swoją pracę?
Cała historia stojąca za AI Sweden jest dość długa i nie jestem odpowiednią osobą, aby odpowiedzieć na to pytanie. Mogę mówić tylko w imieniu grupy badawczej NLU w AI Sweden, którą utworzyliśmy w 2021 roku z wyraźnym celem opracowania pierwszego LLM w Szwecji i dla Szwecji.
Pierwszy zestaw modeli był gotowy już w 2022 r., a w 2023 r. zostały one udostępnione publicznie, najpierw w ograniczonej wersji wstępnej do badań i walidacji, a następnie (w listopadzie 2023 r.) jako całkowicie „open source” (lub raczej „open weight”, co może być bardziej odpowiednim terminem).
AI Sweden to projekt rządowy skupiający podmioty prywatne i państwowe, a także uniwersytety. Dlaczego nie stworzyliście tego projektu poza rządem?
Opracowanie LLM wymaga znacznych zasobów w zakresie kompetencji, obliczeń i danych. W czasie, gdy zaczęliśmy opracowywać plan dla GPT-SW3 (w 2021 r.), w Szwecji nie było jednej organizacji, która dysponowałaby zasobami i zachętami do tego rodzaju rozwoju w Szwecji. Dlatego chcieliśmy znaleźć neutralne środowisko, na bazie którego moglibyśmy nawiązać współpracę między organizacjami, które wspierałyby ideę opracowania pierwszego LLM dla Szwecji (więcej szczegółów na ten temat tutaj i tutaj)
W jaki sposób wybraliście osoby zaangażowane w projekt? Czy szukaliście konkretnych specjalistów z różnych dziedzin nauki, czy może skupiliście się na osobach z branży IT?
Podstawowym zespołem programistów GPT-SW3 była grupa badawcza NLU, która pracowała razem przez wiele lat zarówno w instytucjach badawczych w Szwecji, jak i w startupach w szwedzkim sektorze deep-tech. Połowa badaczy miała tytuł doktora, pozostałe osoby były w tym czasie doktorantami. Akademickie wykształcenie zespołu to głównie informatyka, sztuczna inteligencja, fizyka i lingwistyka obliczeniowa.
Z jakich zasobów korzystaliście w projekcie AI Sweden? Czy były podmioty, które nie zdecydowały się dołączyć i wnieść swojej wiedzy?
Dzięki współpracy z programem WASP uzyskaliśmy dostęp do Berzelius – pierwszego i jak dotąd jedynego superkomputera dla sztucznej inteligencji w Szwecji. Jest to SuperPod, składający się z 94 węzłów DGX A100. Mieliśmy szczęście być jedną z pierwszych grup, które uzyskały dostęp do tego komputera na dużą skalę i wykorzystaliśmy 20 węzłów do trenowania modeli GPT-SW3.
Trening własnego modelu to ogromny koszt. Czy możesz podzielić się budżetem projektu i na co zostały wydane fundusze?
Środki na pokrycie kosztów personelu zespołu NLU w AI Sweden pochodziły ze Szwedzkiej Agencji Innowacji (vinnova.se) i zostały przyznane za pośrednictwem Krajowej Infrastruktury Akademickiej dla Superkomputerów w Szwecji (było to możliwe dzięki naszej współpracy z WASP WARA w zakresie mediów i języka).
Całkowity koszt GPT-SW3 nie był zatem tak duży; w szczególności nie w porównaniu z kosztami opracowania wiodących modeli, takich jak GPT-3/4 itp.
Jakie problemy napotkaliście podczas realizacji projektu? Na co chciałbyś zwrócić uwagę innym krajom, które chciałyby stworzyć podobne projekty klasowe związane ze szkoleniem ich modelu językowego?
Dwa główne wyzwania w procesie rozwoju GPT-SW3 to:
1. Jak uzyskać wystarczającą ilość danych wysokiej jakości?
2. Jak rozpowszechniać model po jego sfinalizowaniu?
Kiedy rozpoczęliśmy nasz projekt, nie było łatwo dostępnych dużych zbiorów tekstów w języku szwedzkim do trenowania modeli językowych, dlatego musieliśmy zebrać i skompilować własne dane. Spędziliśmy około 6 miesięcy tylko na gromadzeniu i przetwarzaniu danych, a ostatecznie nie możemy udostępniać naszych danych treningowych ze względu na europejskie ograniczenia prawne dotyczące danych.
Z naszego doświadczenia płynie zatem wniosek, aby przed rozpoczęciem projektu mieć dokładnie opracowane kwestie związane z danymi. Jakie dane zostaną uwzględnione w modelu, w jaki sposób dane będą przetwarzane i czy dane zostaną opublikowane po szkoleniu?
Wskazane jest też opracowanie jasnego planu, w jaki sposób model będzie dystrybuowany i udostępniany, gdy będzie już gotowy. Spędziliśmy prawie rok próbując dowiedzieć się, jak najlepiej zorganizować proces udostępniania naszych modeli. Czy zostaną przekazane jako open source, czy też zostaną udostępnione za pośrednictwem API, a jeśli tak, to kto będzie hostował modele i dbał o API?
Ludwig Wittgenstein powiedział, że „granice języka są granicami mojego świata”. – To zdanie jest szczególnie istotne w czasach, gdy amerykańskie firmy tworzą modele językowe, które mają służyć wszystkim ludziom. Dzięki AI Sweden osoby posługujące się językami skandynawskimi mają teraz łatwiej. Czy powinniśmy inwestować i wspierać mniejsze i biedniejsze kraje, aby zachować ich kulturę, język i historię w danych szkoleniowych?
Wierzymy, że tak. Jednym z głównych czynników napędzających projekt GPT-SW3 było zapewnienie, aby dane szkoleniowe były jak najbardziej przejrzyste i zgodne z przepisami, ale także aby były jak najbardziej reprezentatywne dla rzeczywistego użycia języka szwedzkiego i szwedzkiej kultury.
Świeżo przegłosowany AI Act jest bardzo ważnym aktem prawnym nie tylko dla Europy. Jak twoim zdaniem wpłynie on na dalszy rozwój sztucznej inteligencji nie tylko w Europie, ale i na świecie?
Istnieje wyraźne ryzyko, że raczej skomplikuje niż wesprze rozwój AI w Europie. Poczekajmy jednak i zobaczmy, jak faktycznie zostanie wdrożona, zanim wyciągniemy jakiekolwiek wnioski.
W jednym ze swoich postów na Medium napisałeś o „suwerenności językowej i demokracji cyfrowej”. Czy uważasz, że modele językowe mogą być narzędziem dominacji i kontroli?
Zdecydowanie tak. Myślę, że potencjał LLM do wpływania na to, jak używamy języka, jest poważnie niedocenianym ryzykiem.
Koszt stworzenia modelu klasy ChatGPT-4 jest ogromny i tylko nieliczne podmioty komercyjne mogą sobie na to pozwolić. Open-source może być bardzo pomocny w rozwoju i demokratyzacji sztucznej inteligencji, ale jednocześnie każdy może uzyskać dostęp do takich modeli i wykorzystać je do niecnych celów. Przyszłość: model open-source czy OpenAI?
Jednym z dominujących obecnie trendów są modele typu open source. Widzieliśmy drastyczny wzrost zarówno liczby, jak i możliwości modeli, które są dystrybuowane jako otwarte i myślę, że jest prawdopodobne, że będziemy nadal obserwować taki trend. Otwarte modele będą prawdopodobnie wystarczająco wydajne w niedalekiej przyszłości, aby być w stanie rozwiązać większość praktycznych zadań niskiego poziomu, a także będą stawały się coraz bardziej multimodalne (i wielojęzyczne) w miarę upływu czasu.
Jednak modele „closed” również będą ulepszane pod względem wydajności, więc myślę, że w przyszłości znajdzie się miejsce zarówno dla modeli otwartych, jak i zamkniętych.
Czy nie uważasz, że Twoje doświadczenie może być pomocne dla innych krajów? Może warto byłoby stworzyć europejskie centrum szkolenia krajowych modeli językowych?
Tak, myślę, że większość wyzwań, przed którymi stanęliśmy, jest dość ogólna i prawdopodobnie będzie miała zastosowanie również do innych inicjatyw. Zdecydowanie uważam, że wszyscy w Europie skorzystaliby na szerszej współpracy, w szczególności w odniesieniu do AI, danych z tym związanych i obliczeń.
Istnieje kilka trwających i nadchodzących inicjatyw europejskich, które zmierzają w tym kierunku; np. projekty HPLT i TrustLLM, inicjatywy ALT-EDIC i Language Data Space, a także inne nadchodzące projekty.
Idealnie byłoby móc zbudować coś w rodzaju CERN dla modeli fundamentalnych, ale myślę, że przed nami jeszcze długa droga zarówno pod względem politycznym, jak i finansowym, aby dojść do takiej konstrukcji.
English version below:
Artur Kurasiński – What goal did you set for AI Sweden? Who created the principles on which you started the work?
Magnus Sahlgren (Head of Research, NLU at AI Sweden) – The whole story behind AI Sweden is quite long and I am not the right person to answer this. I can only speak for the NLU research group at AI Sweden, which we formed in 2021 with the explicit goal to develop the first LLM in and for Sweden. The first set of models were ready already in 2022, and in 2023 they were made available to the public, first in a restricted pre-release for research and validation, and then (in November 2023) as completely open source (or open weight, which may be a more appropriate term).
AI Sweden is a government project bringing together private and state entities as well as universities. Why didn’t you create this project outside the government?
Developing an LLM requires significant resources in terms of competence, compute and data. At the time we started drafting the plan for GPT-SW3 (in 2021), there was no single organization in Sweden that had the resources and the incentives to do this type of development in Sweden. We therefore wanted to find a neutral environment where we could form collaborations between organisations that supported the idea of developing a first LLM for Sweden. More details here: https://www.ai.se/en/project/gpt-sw3 and here: https://medium.com/ai-sweden/what-is-gpt-sw3-5ca45e65c10
How did you select the people included in the project? Did you look for any specific specialists from different scientific fields or did you focus on people from the IT industry?
The core development team for GPT-SW3 was basically the NLU research group that have worked together for many years at both research institutions in Sweden, and in startups in the Swedish deep-tech sector. About half the researchers had a PhD and about half were PhD students at the time. The academic background of the team is computer science/artificial intelligence, physics, and computational linguistics.
What kind of resources did you use in the AI Sweden project? Were there entities that chose not to join and contribute their knowledge?
Through the collaboration with the WASP program (https://wasp-sweden.org/) we got access to the first and so far only supercomputer for AI in Sweden, Berzelius. This is a SuperPod, consisting of 94 DGX A100 nodes. We were lucky to be one of the first groups to get large-scale access to this computer, and we used 20 nodes for training the GPT-SW3 models.
Training your own model is a huge cost. Can you share the project budget and what the funds were spent on?
The funding for personnel cost for the NLU team at AI Sweden came from the Swedish Innovation Agency (vinnova.se). Compute at Berzelius was granted via allocation through the National Academic Infrastructure for Supercomputing in Sweden, and was made possible through our collaboration with the WASP WARA for media and language. The total cost for GPT-SW3 was consequently not that large; in particular not in comparison with the cost of developing leading models such as GPT-3/4 etc.
What problems did you encounter while implementing the project? What would you like to point out to other countries that want to set up similar class projects related to training their language model?
The two main challenges in the GPT-SW3 development process were:
1. how to get sufficient amounts of high quality data,
2. hot to distribute the model once it was finalized.
When we started our development process there were no readily available large-scale text collections in Swedish for training language models, and we therefore had to collect and compile our own data. We spent approximately 6 months on only the data collection and processing, and in the end we cannot share our training data due to the European legal restrictions around data. It is advisable to have a clear process around data in place before starting the development project. What data will be included in the model, how will the data be processed, and will the data be published after the training?
In the same way, it is advisable to have a clear plan for how the model will be distributed and shared once it is ready. We spent almost a year trying to figure out how to best structure the release process of our models. Will the models be released as open source or will they be made available via an API, and if so who will host the models and the API?
Ludwig Wittgenstein said „the limits of language are the limits of my world.” – this phrase is particularly relevant at a time when American companies are creating language models to serve all people. Thanks to AI Sweden, speakers of Nordic languages now have it easier. Should we invest in and support smaller and poorer countries to preserve their culture, language and history in training data?
We believe so. One of the main driving factors for the GPT-SW3 project was to ensure that the training data was both as transparent and compliant as possible, but also that it was as representative as possible of actual Swedish language use and of Swedish culture.
The AI Act is a very important piece of legislation not only for Europe. How do you think it will affect the further development of AI?
There is an apparent risk that it will further complicate rather than to support AI development in Europe. But let’s wait and see how it will actually be implemented before drawing any conclusions.
In one of your posts on Medium you wrote about „linguistic sovereignty and digital democracy.” – do you think linguistic models can be a tool of domination and control?
Definitely. I think the potential for LLMs to influence how we use language is a severely underestimated risk.
The cost of creating a ChatGPT-4 class model is huge and only few commercial entities can afford it. Open-source can be very helpful in the development and democratization of AI, but at the same time anyone can access such models and use them for evil purposes. So is the future: open-source model or OpenAI?
One of the more dominating trends at the moment is open source models. We have seen a drastic increase in both the number and capacity of models that are released as open, and I think that it is likely that we will continue to see such a development. Open models will probably be sufficiently capable within a not so distant future to be able to solve most practical low-level tasks, and they will also become more and more multimodal (and multilingual) as time progresses. However, proprietary models will also continue to improve with respect to capacity, so I think there is a place for both open and closed models in the future.
Don’t you think your experience can be helpful to other countries? Maybe it would be worth creating a European center for training national language models?
Yes, I think that most of the challenges we faced are quite generic and will likely apply to other initiatives as well. I definitely think that European development in general would benefit from more extensive collaboration, in particular with respect to data and compute. There are several ongoing and upcoming European initiatives that aim in this direction; e.g. the HPLT and TrustLLM projects, the ALT-EDIC and the Language Data Space initiatives, as well as other upcoming projects. In the best of worlds, we would be able to build something like a CERN for foundation models, but I think there is still a long way to go both politically and funding-wise in order to arrive at such a construction.