EU investiert in europäische KI
06.02.2025

EU stellt Mittel für europäische KI bereit

Die EU-Kommission fördert die Entwicklung einer europäischen KI mit bis zu 54 Millionen Euro. Was angesichts der Summen, die international im Bereich KI investiert werden, nur wie ein Tropfen auf dem heißen Stein wirkt, ist Teil einer größeren, EU-weiten Anstrengung.

 

Teuken-7B, das Ende November 2024 als Open Source bereitgestellte KI-Sprachmodell, welches unter maßgeblicher Mitwirkung der Fraunhofer-Institute IAIS und IIS 24 europäische Amtssprachen unterstützt, könnte der Anfang für eine eigene europäische künstliche Intelligenz sein.

 

Einen ähnlichen Plan verfolgt nun ein weiteres Konsortium aus Unternehmen, Forschungs- und Bildungseinrichtungen sowie Supercomputing-Zentren. „Wir werden von Grund auf neue Sprachmodelle der nächsten Generation bauen und sie allen Bürgern, Unternehmen und öffentlichen Verwaltungen zur Verfügung stellen“, zitiert das Handelsblatt den Co-Projektleiter Peter Sarlin.

 

Dieser hat mit seiner finnischen Firma Silo AI schon an offenen, mehrsprachigen KI-Modellen gearbeitet und sieht das jetzige Vorhaben als Fortsetzung dessen.

 

Was sind 54 Millionen gegen 500 Milliarden?

Die großangelegte Initiative, die unter dem Namen „OpenEuroLLM“ läuft, soll vor allem verhindern, dass Europa in Sachen KI international weiter den Anschluss verliert. Allerdings scheinen die von der EU-Kommission dafür in Aussicht gestellten Mittel von bis zu 54 Millionen Euro über drei Jahre eher dürftig zu sein, wenn man im Vergleich die 500 Milliarden Dollar aus dem amerikanischen Stargate-Projekt dagegen rechnet.

 

In Europa kommt es aber zunächst einmal darauf an, die Abhängigkeit von Englisch als verlässlichste Ein- und Ausgabesprache zu überwinden. Die meist in den USA sitzenden Entwickler wie OpenAI, Anthropic und Google sind rein aus wirtschaftlichen Interessen auf Englisch fixiert, weil es mit über 1,5 Milliarden Menschen samt Zweisprache die meistgesprochene Sprache ist.

 

Im Vergleich lohnt sich eine Investition in Estnisch mit etwa 1,2 Millionen Mutter- und Zweitsprachler:innen kaum. Selbst Türkisch ist in der EU mehr verbreitet als viele der 24 Amtssprachen.

 

Viele Sprachen, viele Herausforderungen

Für Peter Sarlin ist das Projekt „OpenEuroLLM“ wie ein „Moonshot“. Die darauf basierenden großen Sprachmodelle sollen direkt in 35 Sprachen trainiert werden und so auch die Sprachen von EU-Beitrittskandidaten und einige Regionalsprachen wie etwa Baskisch abdecken. Der Anspruch ist dabei, dass die europäischen Sprachmodelle mit Estnisch und Litauisch genauso gut laufen wie mit Englisch, Deutsch oder Französisch.

 

Die große Herausforderung dabei ist aber nicht nur, dass die multilingualen europäischen Sprachmodelle eine große Menge an Vokabeln und Grammatikregeln lernen müssen. Die größere Schwierigkeit besteht darin, dass für die weniger gesprochenen und geschrieben Sprachen auch weniger Textquellen und andere Ressourcen verfügbar sind.

 

Das Handelsblatt weist aber auf andere multilinguale KI-Projekte wie die Viking-Modelle von Peter Sarlins Firma Silo AI hin. Diese können abgesehen von Englisch und Programmiersprachen auch nordische Sprachen wie Finnisch und Isländisch verarbeiten. Das mittlerweile zu AMD gehörende Entwicklerteam hat auch schon ein KI-Modell für alle europäischen Sprachen angekündigt.

 

Ein anderes Projekt nennt sich Eurolingua und will in Zusammenarbeit mit dem eingangs genannten Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) und dem AI Sweden ebenfalls KI-Modelle für alle europäischen Amtssprachen trainieren. Teuken-7B geht auch in diese Richtung.

 

Wie Sarlin sagt, übertrifft das Projekt „OpenEuroLLM“ aber alle bisherigen Initiativen. An dem Vorhaben arbeiten fünf Unternehmen sowie zehn Universitäten und Forschungseinrichtungen aus ganz Europa mit. Dabei sind auch einige aus Deutschland wie die Fraunhofer-Gesellschaften, das Ellis-Institut, die Universität Tübingen, das Heidelberger KI-Startup Aleph Alpha und der Bremer KI-Spezialist Ellamind.

 

Geringe Mittel? Deepseek lässt Hoffen

Die Supercomputing-Power soll vom Gemeinschaftsunternehmen EuroHPC in Barcelona und im nordrein-westfälischen Jülich kommen. Ob die von der EU-Kommission bereitgestellten Fördermittel von bis zu 54 Millionen Euro reichen, bleibt allerdings fraglich. Das auf ChatGPT basierende Modell GPT-4 soll bei der Entwicklung umgerechnet rund 75 Millionen Euro gekostet haben, Anthropic-Chef Dario Amodei sprach bei der Entwicklung von Claude Sonnet 3.5 ebenfalls von mehreren zig Millionen Dollar.

 

Hoffen lässt das chinesische Startup Deepseek, das für die Entwicklung eines in Teilen überlegenen KI-Modells nur knapp 5,6 Millionen Dollar oder 5,45 Millionen Euro ausgegeben haben soll. Wie Jan Hajic von der Prager Karls-Universität sagt, reichten die in Europa verfügbaren Kapazitäten an Rechenleistung aus, um mit den größten kommerziellen Sprachmodellen mitzuhalten.

 

„Wenn es stimmt, dass wir KI mit deutlich weniger Rechenleistung trainieren können, ist das gut für Europa“, so der Computerlinguist. Das Konsortium, dem er angehört, will die Ergebnisse der gemeinsamen Entwicklung einschließlich Code und begleitendes Forschungsmaterial künftig als Open Source veröffentlichen, womit sie auch davor geschützt wären, dass einzelne Unternehmen sie für sich okkupieren.

 

 

Quelle Titelbild: Unsplash / Mika Baumeister