Gender im Design von Personalisierungsalgorithmen

Ulrike Irmler

(Microsoft News)

Eröffnungsvortrag 9:45 – 10:45 Uhr

Ulrike Irmler ist als Director of Program Management für das Portfolio von Microsoft News in 16 europäischen Ländern zuständig. Sie hat seit 1997 verschiedene Managementaufgaben bei Microsoft übernommen und hat unter anderem die Veröffentlichung der internationalen Version von Windows begleitet. In den letzten Jahren hat sie sich vermehrt dem Thema Gender und Bias in Technologieprodukten gewidmet. Stets an der Schnittstelle zwischen Technik und Kommunikation, hat sie vor vier Jahren den Hackathon „Hack for her“ mitorganisiert, der im Rahmen einer Initiative zum Thema „Inclusive Design“ durchgeführt wurde. Dadurch wurde ihr bewusst, welche Mängel viele Produkte hinsichtlich Inklusivität aufweisen. Zudem war das Verhältnis von Frauen und Männern bei Microsoft zu dem Zeitpunkt alles andere als ausbalanciert. Heute arbeiten 81 % Männer und 19 % Frauen bei Microsoft, womit der Frauenanteil ein wenig gestiegen, ein Verhältnis 50 zu 50 aber immer noch in weiter Ferne ist.

Microsoft News agiert unter dem Motto „trusted news from the world’s best journalists“ und hat sich über viele Jahre immer weiterentwickelt. Heute ist es ein reines Medienprodukt, das News von großen, weltweiten Medienbrands lizensiert, kuratiert und zur Verfügung stellt. Ulrike Irmler führte zu Beginn ihres Vortrags ein kleines Quiz mit den Teilnehmerinnen und Teilnehmern durch, da sie vermutete, dass den meisten die Dimensionen von Microsoft News nicht bewusst sind. So konnten die Teilnehmerinnen und Teilnehmer lernen, dass mehr als 200 Medienbrands allein in Deutschland, Österreich und der Schweiz von Microsoft News kuratiert werden. Daraus entsteht eine große Bandbreite an Medienbrands und Ressorts, die essentiell für Personalisierungsalgorithmen sind. Es kann nichts personalisiert werden, das nicht ein gewisses Spektrum aufweist. Mehr als 120 menschliche Redakteurinnen und Redakteure arbeiten in den Newsrooms in Europa. Mit den Inhalten werden 20 % der Europäerinnen und Europäer erreicht. 21 europäische Länder sind bei Microsoft News vertreten.

Besonders stolz ist Ulrike Irmler auf den Newsroom in Berlin, an dem sie mitgewirkt hat. Früher gab es Redaktionen in den einzelnen Ländern und kaum Austausch – bis die Idee entstand, in Berlin als internationale Medienstadt die Redaktionen von 16 Ländern zusammenzulegen. Diese Redaktion war dadurch von Anfang an multikulturell, mit einem großen Altersspektrum und einem vergleichsweise hohen Frauenanteil.

Das Businessmodell von Microsoft News lässt sich folgendermaßen zusammenfassen: Inhalte werden lizensiert, von menschlicher Hand in Kooperation mit Künstlicher Intelligenz kuratiert und dann monetarisiert. Microsoft News hat einen Vertrag mit seinen Medienbrands und bezahlt für die Inhalte. Seit 2015 sind 750 Mio. Dollar zurückgeflossen, 2018 waren es 200 Mio. Dollar – die Tendenz ist steigend. Je mehr Brands aufgenommen werden, desto mehr Inhalte gibt es, desto mehr Nutzer/innenengagement ist möglich und desto mehr kann letztendlich an die Medienunternehmen gezahlt werden. Diese sind dankbar für die faire Zusammenarbeit.

Von 4.500 Medienbrands fließen 170.000 Feeds pro Tag in das System von Microsoft News. Ein komplettes Team ist damit beschäftigt, die Integrität dieser Inhalte zu gewährleisten. Wenn die Inhalte ins System gelangen, werden die zunächst technisch validiert, kategorisiert und verschlagwortet, bevor sie ins Content Management System Eingang finden, wo die Redakteurinnen und Redakteure eine Qualitätskontrolle durchführen. Diese Signale wertet ein Algorithmus zusammen mit den Signalen der Nutzerinnen und Nutzern aus und so entsteht ein Ranking, das pro Profil unterschiedlich ausgespielt wird.

Weltweit arbeiten 800 Redakteurinnen und Redakteure bei Microsoft News. Es besteht nicht die Absicht, diese abzuschaffen – die algorithmische Programmierung ist nicht als Ersatz, sondern als Ergänzung gedacht. Der Prozess lebt von der Kombination aus Mensch und Maschine. Dennoch gibt es Dinge, die ein Algorithmus nicht kann und wo sich die Stärken einer menschlichen Redaktion zeigen: Das Wissen, was die wichtigsten News des Tages sind und das Gespür, diese angemessen zu kuratieren, haben derzeit nur die Redakteurinnen und Redakteure. Da Microsoft News keine bestimmte politische Haltung vertritt, sorgt die Redaktion für ein ausbalanciertes Rechts-Links-Spektrum. Auch hier würde ein Algorithmus (noch) versagen. Ein weiteres Beispiel ist zeitgebundene Berichterstattung wie bei einem Fußballspiel: Dafür sind Sportredakteurinnen und -redakteure die Expertinnen und Experten.

Im Laufe des Prozesses kommen mehrere Algorithmen zum Einsatz: Ein semantischer Algorithmus sowie ein Ranking-Algorithmus, die beide sehr komplex sind und nach unterschiedlichen Mechanismen funktionieren. Teile der Seite wie Live-Ticker werden per Hand programmiert. Außerdem haben einzelne Länder die Möglichkeit, bei aktuellen Katastrophen die algorithmische Programmierung und die Werbung abzuschalten, sodass die Seite zur reinen Übermittlung von Neuigkeiten zur Verfügung steht.

Qualitätsmanagement ist eine wichtige Aufgabe der Redaktion: Durch die Auswahl und die Gewichtung der Redakteurinnen und Redakteure lernt wiederum der Algorithmus. Bei der Personalisierung dagegen ist der Algorithmus im Vorteil – das könnte keine Redaktion leisten. Jede Nutzerin und jeder Nutzer hat ein individuelles Profil, von dem anonymisierte Signale ausgehen, die verwertet werden. Daraus entsteht ein Ranking von Inhalten, sodass in der Folge Inhalte ausgespielt werden, bei denen die Wahrscheinlichkeit groß ist, dass sie von der Person angeklickt werden. Es gibt explizite Signale wie Likes, Shares, An- und Abschalten von Themen oder bestimmten Medienbrands. Diese Signale der Nutzerinnen und Nutzer werden in der Regel berücksichtigt, wobei es dennoch vorkommen kann, dass eine Sportmeldung auf der Seite einer Nutzerin oder eines Nutzers zu sehen ist, die/der das Thema „Sport“ abgewählt hat. Dabei handelt es sich z. B. um eine News von ressortübergreifender Wichtigkeit. Implizite Signale sind das Klick- und Scrollverhalten, die Verweildauer bei einem Artikel und Präferenzen von Beitragsarten wie Video-, Text- oder Bildbeiträge.

Viele Features, die zur Auswertung dieser Signale nötig sind, entstehen gerade erst. In den USA sind diese schon länger im Einsatz, und dort wurden einige Fehler gemacht. Daraus konnten andere Unternehmen, die mit algorithmischer Programmierung noch nicht so weit sind, lernen. Das Wichtigste ist Vertrauen. Viele Firmen haben gelernt, wie schwierig es ist, das Vertrauen wiederherzustellen, wenn es einmal verloren gegangen ist.

Bias in Medien ist ein verbreitetes Thema, das in vielen Studien belegt wurde. Wenn ein Prozess maschinellen Lernens genutzt wird ohne zu prüfen, wie der Korpus zusammengesetzt ist und wie dieser verschlagwortet ist, besteht die Gefahr, einen Bias zu verstärken. Ein Produktmanagement beschäftigt sich viel damit, wie das Publikum ein Produkt empfindet, bei Data-Science-Teams hingegen ist der Enthusiasmus für die Technik sehr groß, sodass das Thema Fairness auf wenig Verständnis stößt und viele Diskussionen nötig sind.

Für die Kommunikation mit Data-Scientists ist es zu empfehlen, mit Statistik zu argumentieren und Empfindungen beiseite zu lassen. Ulrike Irmler verwies auf eine Studie, die mehr als 2 Mio. Artikel mithilfe einer KI auf das Thema Gender überprüft hat. Es wurde festgestellt, dass Männer mit einer Wahrscheinlichkeit von 77 % in News unabhängig von Ressorts zuerst genannt werden. Der einzige Bereich, der von Frauen dominiert ist, ist Mode. Statistiken wie diese vereinfachen die Argumentation, aber auch konkrete, emotionale Beispiele bekommen Aufmerksamkeit.

Bei Microsoft News wurde innerhalb der Teams immer wieder die Frage besprochen: Wo kommt der Bias her und wo können wir ansetzen? Auch die Redakteurinnen und Redakteure sind nicht frei von Biases und müssen gezielt geschult werden. Schnell wurde klar, dass es Richtlinien braucht. Was ist der Anspruch, was bedeutet Balance? Was kann eine gute „objective function“ sein, um das System zu optimieren? Die Click-Through-Rate ist ein einfaches Signal, doch besteht die Gefahr, dass der Bias verstärkt wird, wenn nur das Klickverhalten in den Blick genommen wird. Es gibt viele Ansätze, eine komplexere „objective function“ zu entwickeln. Es ist außerdem wichtig, zu berücksichtigen, dass die Daten, die Microsoft News erhält, nicht vollständig sind: Nutzerinnen und Nutzer müssen eingeloggt sein und freiwillig ihr Geschlecht angeben, was nur eine kleine Prozentzahl abbildet.

Im Rahmen der Diskussion mit den Teilnehmerinnen und Teilnehmern kam die Frage auf, ob die Medienbrands, die Partner von Microsoft News sind, gespiegelt bekommen, wo in ihren Inhalte Bias-Probleme liegen. Ulrike Irmler erläuterte, dass die Medienpartner von dem Bias-Score wissen und auf die Daten zugreifen. Kommunikation ist in diesem Prozess entscheidend.

Bei Microsoft-Research gibt es ein Komitee vom Thema „Ethik in KI“, auf deren Arbeit zugegriffen werden kann. Das Komitee betreibt Recherche zu Fairnessproblemen, klassifiziert die Bedrohungen („harms“) und erstellt daraus eine Qualitätsmatrix. So entstehen beispielsweise strenge Richtlinien. „Harm of allocation“ ist die Gefahr, dass Gelegenheiten (z. B. Jobs, aber auch Konsequenzen wie Inhaftierung) ungleich verteilt werden. Bei einem Medienprodukt betrifft das vor allem die Autorenschaft. Die Medienbrands werden gebeten, repräsentative Inhalte zu liefern. Das gehört auch zu einer Servicequalität, denn Frauen unter 30 Jahren sind wenig interessiert an Inhalten, die sie nicht betreffen. Weitere „harms“ sind Über- und Unterrepräsentierung sowie Herabwürdigung. Bezüglich Fairness gibt es also strenge Richtlinien für die Redakteurinnen und Redakteure – doch wie wird dafür gesorgt, dass ein Algorithmus sich an solche Richtlinien hält?

Früher kam es vor, dass ein Chefredakteur angerufen hat, weil er einen bestimmten Artikel nicht auf der Seite sehen wollte. Heutzutage ist das schwierig: Wenn jede Nutzerin und jeder Nutzer eine andere Seite sieht, weil diese personalisiert ist, wie kann da getestet und die Qualität gewährleistet werden? Durch die Personalisierung der Inhalte und das Ranking entsteht außerdem das Risiko von Filterblasen, das auch für das Thema Gender relevant ist. Außerdem wird der demografische Bias verstärkt, und es droht eine zunehmende Abnahme der Qualität durch das Auswerten des Klickverhaltens. Anders gesagt: ZEIT ONLINE klickt nicht so gut wie BILD. Während ein Algorithmus nur auf der Basis von Klicks optimiert, kann eine menschliche Redaktion dennoch entscheiden, dass ein gewisser Artikel an einer bestimmten Stelle veröffentlicht werden muss und damit gegensteuern.

Bei Betrachtung des Datensatzes ist es außerdem interessant zu analysieren, wie die verschiedenen Signale miteinander korrespondieren. Bei einer algorithmisch zusammengestellten Liste von Rezepten besteht beispielsweise die Gefahr, dass eine stärkere Verbindung von „Frau“ und „Kochen“ im Code festgeschrieben wird als die zwischen „Mann“ und „Kochen“, wenn die Bilder im Bereich Küche/ Lifestyle häufiger Frauen zeigen. Es gilt also, den Datensatz zu überwachen und Testszenarien zu entwerfen, die am Anfang der Kette ansetzen: Wie werden die Inhalte im System gespeichert, welche semantischen Verbindungen werden geschaffen? Die Redakteurinnen und Redakteurinnen müssen geschult werden, wie sie mit der KI umgehen können und an welchen Stellen sie intervenieren sollten. Es ist nicht realistisch, dass auf jeder Seite bei jedem Profil zu jeder Zeit ein ausbalanciertes Genderverhältnis herrscht. Stattdessen braucht die Redaktion Tools an die Hand, um den Bias nachhaltig zu korrigieren.

Eine Teilnehmerin wies an dieser Stelle auf die Icons in der Präsentation hin und stellte die Frage, ob Icons mit Männern und Hosen und Frauen in Röcken nicht problematisch seien, weil sie Stereotype abbilden und keine weiteren Geschlechter berücksichtigen. Kritisch-konstruktiv wurde außerdem die Bildauswahl diskutiert: Die meisten Menschen haben bei dem Wort „Manager“ sofort einen Mann im Kopf.

Zum Abschluss ihres Vortrags fasste Ulrike Irmler zusammen: Es ist nicht möglich, den Bias aus den Medienprodukten komplett auszumerzen – aber es gilt, ihn zu reduzieren, indem bewusst mit dem Thema umgegangen und somit gegengesteuert wird. Alle Lösungen sollten sowohl auf der menschlichen Seite als auch beim Machine-Learning-Prozess ansetzen, da es hier eine kontinuierliche Interaktion gibt. Die beschriebene Situation ist ein komplexes Problem und Lösungsansätze sind erst in der Entstehung.

Im Laufe der Diskussion wurde daran erinnert, dass Technologie immer politisch ist, sobald sie mit Daten und Menschen zu tun hat. Was von Menschen kreiert ist, enthält zwangsläufig einen Bias. Außerdem wurde gesagt, dass besonders aus der unternehmerischen Perspektive häufig suggeriert würde, dass es einfache technische Lösungen gäbe – es sei aber essentiell, vor allem die Menschen, die mit diesen Produkten arbeiten, zum Umdenken anzuregen. Ulrike Irmler bestätigte dies: In den Redaktionen von Microsoft News hat Qualität einen hohen Stellenwert. Die Problematik eines Bias ist nicht einfach zu kommunizieren. Der Bias-Score kann nicht die einzige Lösung sein, sondern nur ein Mittel, um eine Tendenz festzustellen und diese – ganz frei von persönlichen Meinungen – kommunizieren zu können. Es ist ein Versuch, ein komplexes Phänomen zu abstrahieren, um eine Handhabe zu bekommen. Tools wie der Bias-Score sind hilfreich, aber sie müssen auch mit Inhalt gefüllt werden und so zusammenwirken, dass sie die Situation verbessern.

Eine weitere Frage aus dem Publikum bezog sich auf das Spannungsfeld der Wirtschaftlichkeit. Alle Parteien in dem System wollen Geld verdienen. Da sind z. B. vorwiegend männliche und ältere Nutzer, die bestimmte Themen sehen möchten. Wenn die Filterblase aufgebrochen wird, sind diese Nutzer dann noch zufrieden oder wandern sie zu anderen News-Anbietern ab? Wenn Nutzergruppen verloren gehen, springen in der Folge ggf. Medienpartner ab, weil sie nicht genügend Geld verdienen? Wie kann dieser Kreislauf unterbrochen werden? Wie können Dinge, die einem Unternehmen wichtig sind, transportiert werden, ohne Nutzergruppen zu enttäuschen, die eigentlich etwas anderes sehen wollen? Und wie kann sich dieses Geschäft finanziell lohnen?

Ulrike Irmler bestätigte dieses Dilemma, vor dem jedes Change-Management steht: Wenn der Status Quo Geld bringt, aber bekannt ist, dass damit in fünf Jahren kein Geld mehr zu verdienen ist – wie kommt ein Unternehmen dahin, wo jetzt noch kein Gewinn möglich ist, aber in der Zukunft schon? Ein Vorschlag setzt bei den Nutzerinnen und Nutzern an: Wenn eine bestimmte Zielgruppe verloren geht, gilt es, eine andere zu gewinnen.

Ob der Bias-Score auch an die Zielgruppe kommuniziert wird, war die Frage einer anderen Teilnehmerin. Das könnte eine Chance sein, um Veränderung anzustoßen. Ulrike Irmler bestätigte, dass ein vernünftig funktionierendes System auch über die Presse an die Öffentlichkeit kommuniziert werden sollte. Nicht zu unterschätzen sind allerdings die Bedenken der Rechtsabteilung, denn ein Unternehmen, dass offen kommuniziert, welche Risiken sich in denen von ihm bereitgestellten Inhalten verstecken, kann leicht genau deswegen von der Konkurrenz z. B. verklagt werden. Fakt ist, dass alle Unternehmen vor denselben Herausforderungen stehen und durch Öffentlichkeitsarbeit zu diesem Thema das Bewusstsein dafür gesteigert werden kann.

Am Ende des Gesprächs mit den Teilnehmerinnen und Teilnehmern stand die Frage, wer bei dem sehr komplexen, durch wirtschaftliche und politische Interessen geprägten Thema „Gender-Bias in Technologieprodukten“ die Initiative für einen Veränderungsprozess ergreift. Bei Microsoft News ist Ulrike Irmler in dieser Rolle – sie hat sich mit anderen Frauen, die sich dafür interessierten, verbündet, und in erster Linie den Austausch mit den Data-Scientists im Unternehmen gesucht, aber natürlich auch mit der Geschäftsleitung. Oft gibt es andere Prioritäten, sodass es jahrelange, harte Arbeit – oft neben der Haupttätigkeit – braucht, um etwas zu erreichen. Es ist hilfreich, wenn das Thema „Diversity“ gerade in der Presse ist. Das Bewusstsein und die Bereitschaft sind jedoch insgesamt gewachsen.

Gender im Design von Personalisierungsalgorithmen

Ulrike Irmler

GENDER//WISSEN//INFORMATIK" in den soziale Netzwerken