In der aktuellen Episode von Time4Work, dem von T4M initiierten Podcast zur Gestaltung moderner Arbeitsumgebungen, dreht sich alles um die Frage, wie Daten aufbereitet sein müssen, um eine optimale Performance und Sicherheit beim KI-Einsatz zum Beispiel für Copilot für Microsoft 365 zu gewährleisten.

Zu Gast ist Stephanus Schulte, Solution Architekt Security & Compliance bei Microsoft. Unser Co-Moderator, der IT-Analyst Dr. Andreas Stiehler, fasst nachfolgend seine wichtigsten Erkenntnisse aus der Diskussion mit Stephanus für Euch zusammen.

KI ohne geeignete Daten ist nutzlos

Es bedarf keiner tiefgründigen Expertise, um zu erahnen, dass eine KI nur so gut sein kann wie die Daten, mit denen sie gespeist wird. Die unter Informatikern beliebte Redewendung „Grab in, Grab out“ gilt eben auch für den Einsatz der künstlichen Intelligenz.

„Je besser die Daten sind, die ich der KI zur Verfügung stelle, desto besser kann sie mich unterstützen. Das heißt: wir müssen der KI helfen, uns zu helfen.“

– Stephanus Schulte

Denn ganz so intelligent – wie KI als Bezeichnung suggeriert – sind die Algorithmen nicht. Eine generative KI, so betont Stephanus, basiert im Kern auf ein Wahrscheinlichkeitsmodell, das nach bestem Wissen und Gewissen – besser: nach der größtmöglichen Wahrscheinlichkeit – Wörter aneinanderreiht. Punkt. Wer sich von ihr Wunderdinge erwartet, dürfte schnell enttäuscht werden.

Für die Praxis folgt daraus: Wenn die KI keinen allumfassenden Zugang zu Informationen hat, dann können deren Antworten auch nicht umfassend ausfallen. Und wenn die Daten und Dokumente nicht ausreichend gekennzeichnet sind, dann kann auch die eloquenteste virtuelle Helferin nicht wissen, wer im Unternehmen für welchen Zweck auf ein Dokument zugreifen darf und welche Informationen ggf. schon nicht mehr aktuell sind.

Halluzinationen, Oversharing & Co.: Mangelnde Datenhygiene birgt immense Risiken

In der weiteren Diskussion erläutert Stephanus anhand praktischer Beispiele, welche Risiken ein unvollständiger, veralteter und nicht ausreichend gekennzeichneter Datenbestand birgt. Mangelnde Datenhygiene, so wird deutlich, begünstigt Halluzinationen – also Texte mit Falschaussagen bzw. falschen Schlussfolgerungen, die von der KI mit großem Selbstbewusstsein vorgetragen werden. Die Kontrolle und Korrektur solch fehlerhaften Texte ist zeitaufwendig und drückt auf die Produktivität. Schlimmer noch: Werden die Halluzinationen nicht erkannt bzw. ausgemerzt, so kann dies beträchtliche Risiken für das Unternehmen nach sich ziehen.

Mit dem KI-Einsatz steigt zudem auch das Risiko eines unberechtigten Zugriffs auf vertrauliche Daten. Schließlich lassen sich vertrauliche Informationen nun wesentlich leichter aufspüren. Anstatt umständlich in den Dateiablagen zu suchen, muss man einfach nur den Copilot fragen. Zum Beispiel, wieviel der Vorstand im letzten Monat verdiente. Klar: Über Rollen- und Berechtigungskonzepte, die auch in M365 hinterlegt sind, lässt sich ein unberechtigter Datenzugriff (auch über KI) verhindern. Problem ist nur, dass das Zugriffsmanagement in vielen Unternehmen bislang immer noch sehr lax gehandhabt wird. In der Folge kommt es zum „Oversharing“, also zur übermäßigen Freigabe von sensiblen Informationen, was in der sich manifestierenden KI-Welt mit großen Risiken verbunden ist.

Stephanus nennt noch ein weiteres gravierendes Sicherheitsproblem, das durch mangelnde Datenhygiene entsteht. Im Fokus steht der Umgang der KI mit Daten, die nur für den internen Gebrauch bestimmt sind. Beispiele hierfür sind Marketing- und Vertriebsunterlagen, an denen noch gearbeitet wird oder Protokolle von internen Meetings. Für die Mitarbeitenden ist der vertrauensvolle Umgang mit solchen Dokumenten meist eine Selbstverständlichkeit, für die KI jedoch nicht. Wenn diese Daten nicht explizit als „vertraulich“ oder „nur für den internen Gebrauch“ gekennzeichnet sind, werden diese von der KI als eine Quelle und vielen genutzt. Auf diese Weise ist es leicht möglich, dass vertrauliche, für den internen Gebrauch bestimmte Informationen als Bestandteil von KI-generierten Texte in die Außenwelt.

Datenmanagement war schon immer Pflicht, die aber vielfach vernachlässigt wurde

Was also tun, wie lassen sich die skizzierten Risiken minimieren? Im Wesentlichen verweist Stephanus auf vier Handlungsfelder bzw. Disziplinen im Zusammenhang mit dem Datenmanagement:

  1. Cloud-Migration und -Konsolidierung mit dem Ziel, der KI alle relevanten Daten zugänglich zu machen. So sollten zur Unterstützung von Copilot für M365 alle Datenverarbeitungs- und Austauschaktivitäten idealerweise über M365-Anwendungen wie SharePoint, Teams, Exchange etc. abgebildet werden. Weitere Datenquellen sollten über Plugins oder Connectoren an das Copilot-System angebunden werden.
  2. Data Life Cycle Management etablieren, um mehr Transparenz im Hinblick auf die Aktualität der Dokumente zu schaffen und veraltete Dokumente rechtzeitig zu archivieren.
  3. Benutzer- und Berechtigungskonzepte überprüfen und ggf. anpassen, um „Oversharing“ einzudämmen und so das Risiko eines unberechtigten Zugriffs auf vertrauliche Informationen klein zu halten.
  4. Kennzeichnung bzw. Klassifizierung (Labling) der Dokumente, um deren Schutz im Rahmen der KI-Einsatzes zu gewährleisten.

All diese Punkte, so betont Stephanus, waren auch schon vor dem KI-Einsatz notwendig, wurden aber zumeist nicht ausreichend adressiert. Datenhaltung kostete schließlich nichts, die Risiken waren überschaubar, das Daten Management dagegen aufwendig. In der sich manifestierenden KI-Welt werden die Unternehmen aber nicht (mehr) umhinkommen, diese Themen anzupacken.

Copilot: Pragmatischer Einstieg ist möglich

Das Problem ist nur: Die meisten Unternehmen verfügen heute schlicht nicht über die Zeit und über die Ressourcen, um den über Jahre hinweg angehäuften Datenbestand neu zu ordnen und zu klassifizieren. Umgekehrt können es sich die Unternehmen auch nicht leisten, beim KI-Einsatz ins Hintertreffen zu gelangen.

Stephanus betont vor diesem Hintergrund, dass ein KI-Einsatz in jedem Fall erwogen werden sollte, auch wenn noch Nachholbedarf beim Datenmanagement besteht. Wichtig an dieser Stelle sei es, zunächst die Belegschaft ausreichend für die Risiken des KI-Einsatzes zu sensibilisieren. So ließen sich Halluzinationen relativ einfach anhand, der von Copilot für M365 mitgelieferten Quellenangaben identifizieren.  Darüber hinaus empfiehlt er, klein zu beginnen, mit wenigen Nutzern und sich zunächst auf die Unterstützung der für das Unternehmen relevanten KI-Anwendungsszenarien zu fokussieren.

Parallel dazu sollten die Unternehmen – besser heute als morgen – damit beginnen, ein funktionierendes Data Lifecycle-Management sowie eine stringente Klassifizierung der Dokumente zu etablieren. Im ersten Schritt wäre der KI auch schon geholfen, wenn die neuen Dokumente mit einem aussagekräftigen Namen, einschließlich Zeitangabe, abgespeichert würden – ähnlich den herkömmlichen Aktenordnern.

Datenhygiene ist Vorstandssache!

Bei so viel „hätte“, „sollte“, „müsste“, stellt sich schließlich auch die Frage, wer bei der Etablierung des Datenmanagements in der Verantwortung steht. An dieser Stelle ist Stephanus sehr klar:

„Die Initiative muss von oben kommen. Der Vorstand muss Lust darauf haben, verstehen, dass das Thema für Fortführung der Unternehmung essenziell ist und sich damit auseinanderzusetzen.“

– Stephanus Schulte

Aber hört gerne selbst und lasst Euch von Stephanus Leidenschaft für Datenhygiene, die auch im Podcast spürbar wird, anstecken. Wir freuen uns auf Euer Feedback!

Und noch ein abschließender Tipp: Wenn Ihr das Thema Data Governance oder Datenhygiene im Zusammenspiel mit KI noch weiter vertiefen wollt, dann werft auch einen Blick auf Stephanus Blogbeiträge zu Thema – zum Beispiel hier.

Mehr zum Thema Copilot für Microsoft 365:

Ihr findet den Podcast auf unserer internen Plattform oder auf Spotify, Apple Podcasts , Google Podcasts und anderen Plattformen.

Zum Thema Copliot für Microsoft 365 haben wir bereits einen Podcast veröffentlicht:

Interessiert an einem Experten Gespräch mit einem KI- Spezialisten von Trans4mation:

Visits: 97