Souveräne KI-Technologie

Made in Germany

Das Produkt: Der KI-Dialog

Die Anwender von DeutschlandGPT nutzen unseren KI-Dialog, eine Softwareanwendung, die wie ein normaler Chat mit einem Menschen funktioniert. Jedoch wird nicht ein natürlicher Mensch die Antworten auf die Anfragen des Nutzers erstellen, sondern unser dezentrales Intelligenzcluster. Dieses kann sich zudem in externe Systeme, wie Wissensdatenbanken oder Suchmaschinen, integrieren, um sicher auf domänenspezifische Anfragen zu antworten. Hierbei kommt das sogenannte RAG-Verfahren (Retrieval-Augmented Generation) zum Einsatz, welches die Validität der generierten Ausgabe sicherstellt.

Sichere Produktentwicklung

Datensicherheit und Datensouveränität sind wichtige Werte bei DeutschlandGPT. Deshalb werden die Nutzungsdaten und Informationen, die in DeutschlandGPT eingegeben werden, niemals zum Training eines GPT-Modells verwendet. Das Training erfolgt ausschließlich mit öffentlich zugänglichen Datensätzen sowie synthetisch erstellten und kuratierten Daten. Aufgrund dieser Philosophie können selbst hochsensible Daten von DeutschlandGPT verarbeitet werden, da diese nur vom Kunden selbst eingesehen werden können.

Das ISMS (Managementsystem für Informationssicherheit), nach dem DeutschlandGPT entwickelt wurde, ist nach der ISO/IEC 27001-Norm zertifiziert und folgt den Grundsätzen der sicheren Produktentwicklung.

Ein wichtiger Bestandteil dieser Grundsätze ist die regelmäßige Durchführung von Risikobewertungen und Analysen zur Identifizierung von Schwachstellen. Zur Automatisierung dieser Analysen werden moderne Scans eingesetzt, um die Sicherheit der Software und deren Betrieb zu gewährleisten. Zeitgemäße Authentifizierungsmechanismen verhindern zu jeder Zeit unbefugten Zugriff.

Zur Sicherung der digitalen IT-Infrastruktur werden standardmäßige Verschlüsselungsalgorithmen verwendet. Strikte Zugriffskontrollmechanismen gewährleisten, dass nur autorisierte Personen Zugang zu sensiblen Systemen haben und Änderungen an der Software freigeben dürfen.

Zusätzlich befolgt das Unternehmen intern strikte IT-Richtlinien, um die Angreifbarkeit von außen zu minimieren. Hierzu gehören Maßnahmen wie Benutzerauthentifizierung, Passwortrichtlinien und die zentrale Verwaltung aller Endgeräte und der darauf installierten Softwareapplikationen.

Für den Fall, dass das etablierte und auditierte System versagt, gibt es einen Prozess zur Handhabung von Sicherheitsvorfällen. Dieser Prozess definiert, wie ein Sicherheitsvorfall gemeldet, untersucht und eingestuft wird, welche Zeitrahmen für die Behebung gelten und wie betroffene Organisationen benachrichtigt werden. Nach einem solchen Vorfall werden standardmäßig Nachvorfallanalysen durchgeführt, um weitere mögliche Schwachstellen zu identifizieren.

Das dezentrale Intelligenzcluster

Alle Anfragen, die über die Programmierschnittstelle oder den KI-Dialog an DeutschlandGPT gestellt werden, werden vom dezentralen Intelligenzcluster verarbeitet. Dieser besteht aus einem Intelligenzkoordinator und einzelnen Intelligenzkernen. Beim Verarbeiten einer Anfrage entscheidet der Intelligenzkoordinator, welcher der Intelligenzkerne die Anfrage bearbeiten soll. Ein Intelligenzkern kann dabei unterschiedliche Funktionen ausführen, wie Textgenerierung, Audiogenerierung, Sprachübersetzung und andere. Da diese in verschiedenen Rechenzentren gehostet werden, wird eine hohe Verfügbarkeit und Belastbarkeit des dezentralen Intelligenzclusters gewährleistet. Zudem wurde jeder Intelligenzkern vor seiner Eingliederung in das Intelligenzcluster explizit auf die deutsche Sprache optimiert.

Optimierung auf die deutsche Sprache

GPTs (Abkürzung für das englische „Generative Pretrained Transformer“) sind leistungsstarke künstliche Intelligenzen, die auf die Verarbeitung natürlicher Sprache spezialisiert sind. Sie werden mit enormen Mengen an Textdaten trainiert und sind in der Lage, Muster und Zusammenhänge in der Sprache zu erkennen und zu reproduzieren. Durch die Imitation menschlicher Sprache suggerieren sie Intelligenz – mathematisch betrachtet sind sie jedoch nur in der Lage, aufgrund von antrainierten Wahrscheinlichkeitsverteilungen einen bestehenden Text zu vervollständigen bzw. weiterzuführen. GPTs können für verschiedene Aufgaben eingesetzt werden, wie beispielsweise Textgenerierung in Konversationen, Übersetzungen, Zusammenfassungen und die Beantwortung von Fragen.

Grundsätzlich sind die meisten frei verfügbaren GPTs auf die englische Sprache optimiert, wobei die deutsche Sprache oft vernachlässigt wird. Dies kann zu minderwertigen Ausgaben in deutscher Sprache führen. Um die Ausgabequalität für die deutsche Sprache zu verbessern, muss ein GPT gezielt auf diese Sprache feinjustiert werden. Hierzu wird ein vortrainierter GPT mit einem speziellen deutschen Trainingsdatensatz weiter optimiert, sodass er die in der deutschen Sprache vorkommenden Muster besser reproduzieren kann.

In diesem Prozess spielt die Qualität des Datensatzes, mit dem die Feinjustierung vorgenommen wird, eine entscheidende Rolle. Bei der Erstellung des repräsentativen Datensatzes für DeutschlandGPT werden sorgfältig ausgewählte, nicht urheberrechtlich geschützte deutsche Texte verwendet, die eine breite Palette an Themen und Sprachstilen abdecken.

Zur Messung des Erfolgs und für den Feinjustierungsprozess werden eigene Maßstäbe für die Qualität der deutschen Ausgabe definiert. Diese Maßstäbe basieren auf langjähriger Erfahrung aus der Zusammenarbeit mit dem Langenscheidt Verlag. Durch diese Definition können einzelne Intelligenzkerne kontinuierlich weiterentwickelt und verbessert werden.

Es ist wichtig zu beachten, dass die Feinjustierung nur den letzten Schritt des Trainingsprozesses darstellt. Ein Intelligenzkern profitiert daher nicht nur von den Informationen aus dem deutschen Trainingsdatensatz, sondern auch von dem Wissen, das er während des vorherigen Trainings mit umfangreichen Textdaten erworben hat. Eine vollständige Richtigkeit der Ausgabe kann zwar nicht garantiert werden, wird jedoch während der Weiterentwicklung der Intelligenzkerne stets angestrebt.

Zur Optimierung der Verarbeitung der deutschen Sprache kann neben der Feinjustierung des GPTs ein speziell angepasster Textzerleger (Englisch: „Tokenizer“) verwendet werden. Ein Textzerleger zerlegt Texteingaben basierend auf programmierter Logik in einzelne Wortteile. Viele öffentlich verfügbare GPTs verwenden standardmäßig Textzerleger, die für die englische Sprache ausgelegt sind und daher deutsches Vokabular nicht optimal verarbeiten. Durch die Entwicklung eigener Regelwerke, die speziell auf die deutsche Sprache abgestimmt sind, können genauere Vorhersagen der nächsten Wortteile getroffen und der Ressourcenverbrauch für die Berechnungen signifikant reduziert werden.

Bei der Entwicklung dieser Regelwerke und der darauf basierenden Textzerleger wird auf das Fachwissen aus der langjährigen Zusammenarbeit mit Langenscheidt zurückgegriffen. Der Langenscheidt Verlag ist ein renommierter Verlag für Wörterbücher und Sprachlernmaterialien und investiert seit mehreren Jahren signifikante Ressourcen im Bereich der künstlichen Intelligenz. Gemeinsam wurden grammatikalische, syntaktische und semantische Besonderheiten der deutschen Sprache identifiziert und in die Regelwerke integriert, um einen optimalen Textzerleger zu entwickeln.

Einige Intelligenzkerne wurden basierend auf Open-Source-Technologien für die deutsche Sprache optimiert. Hierbei handelt es sich unter anderem um Derivate vortrainierter Modelle oder eigene Modelle, die mithilfe externer GPTs (unter anderem Llama-3-70b-Instruct, Mixtral-8x22b-Instruct, Qwen1.5-110B-Chat, Starling-LM-7B-beta und mehrtrainiert wurden.


Durch die Nutzung dieser Open-Source-Modelle konnte die Entwicklung der Intelligenzkerne auf bereits vorhandenes Wissen und Technologien zurückgreifen und diese für spezifische Anforderungen weiterentwickeln.