NLP | The Next Big Thing in Artificial Intelligence
Today we have a significant number of software packages and coding libraries, which enables developing effective NLP algorithms. Although NLP is older than a few
Grundsätzlich lag die Aufgabe darin, der Furche ein neues Konzept für digitales Lesen zu erarbeiten. Im Zuge der Konzeptions-Arbeit haben wir nach Möglichkeiten gesucht, eine digitale Transformation des Mediums zu erreichen. Und digitale Transformation bedeutet für uns etwas anderes, als Dinge einfach mit einem Computer zu erledigen. Digitale Transformation steht dafür, neue Möglichkeiten zu entdecken, die erst durch digitale Arbeitsweisen ermöglicht werden.
Dass eines der wichtigsten Assets der Furche ihr Archiv ist, lag auf der Hand. Wir haben uns also in vielen Gesprächen mit Redaktion und Geschäftsführung überlegt, was man damit machen kann. Um eine Einschätzung des Wertes spüren zu können, hat sich unser STRG-Management tatsächlich und persönlich in die Wiener Nationalbibliothek gesetzt, um alte Ausgaben der Furche zu lesen. Es sind wunderbare Artikel, die hier bereits in den 40er und 50er Jahren des letzten Jahrhunderts veröffentlicht wurden. Und all diese Inhalte verstaubten in ihren gedruckten Ausgaben an zwei Orten: Es gibt eine vollständige Sammlung aller Ausgaben bei der Furche selbst und eine in der Nationalbibliothek. Es gibt sicher auch einige private Sammlungen, aber dazu hatten wir natürlich keinen Zugriff.
Der Navigator im Überblick
Für das Projekt wurden sämtliche Ausgaben der Furche digitalisiert und mittels einer OCR Software maschinenlesbar gemacht. STRG.AT hat diese Artikel dann semantisch verortet. Wir haben dafür den 2018 sehr aktuellen BIRD Algorithmus verwendet und diesen für unsere Zwecke in einer Opensource Library angepasst. Wir wollten keine reine Ähnlichkeit von Inhalten finden, wie es die semantische Vorgabe wäre. Wir wollten die Veränderung im gesellschaftlichen Diskurs abbilden und diese Veränderung visualisieren.
Daraus entstand die Idee einer Timeline. Unter jedem Artikel der Furche ist sie heute auf www.furche.at zu finden. Von der Redaktion liebevoll “Navigator” genannt, erlaubt uns die Semantik in dieser Anwendung, bei jedem Thema in die Vergangenheit zu reisen und dabei zu beobachten, wie sich die Diskussion entwickelt hat. Das ist ein sehr spannendes Leseexperiment, auf das in der Furche heute niemand mehr verzichten möchte.
Alle Inhalte (über 150000 Zeitungsartikel) wurden digitalisiert.
Beschleunigt die Entwicklung, senkt die Kosten und fördert Innovation.
Die OCR-Verarbeitung ermöglichte die Weiterverarbeitung der Artikel.
Die Themen-Vielfalt durch Digitalstrategie hervorheben.
Dadurch wurden die Texte, bzw. deren Bedeutungen verknüpft.
Die einzigartige Diskurs-Visualisierung.
Analyse von komplexer Nachfragen & Prognosen.
Der offizielle Beginn der Furche-Navigator-Zeitreise.
Technologisch wurde das Projekt mit den Forschungseregbnissen aus unserem Projekt STRG.behave umgesetzt und damit wird es auch bis heute betrieben. STRG.behave vermisst (und vektorisiert?) dazu jeden neuen Artikel und erstellt eine dynamische Timeline aus Archiv-Artikeln, die zu diesem Inhalt passen. Die Redaktion hat dazu ein Interface, in dem sie Artikel auch manuell hinzufügen oder exkludieren kann. Wir raten von einem Eingreifen in die semantische Logik jedoch ab, da menschliche Eingriffe im selbstlernenden System von STRG.behave sehr hoch priorisiert werden und daher die Ergebnisse massiv verändern. Die Timeline wird durch die Verarbeitung in einem neuronalen Netz erstellt. Das gesamte System wird in einem Cloud-System (Google Cloud) betrieben.
STRG.behave ist aus einem Forschungsprojekt entstanden, in dem wir überlegten welche Möglichkeiten Medien haben, um reale Interessens ihrer User erheben zu können, ohne auf 3rd Party Anbieter zurückgreifen zu müssen. Dahinter liegt die Idee, dass die meisten dieser Daten von extrem schlechter Qualität sind und daher in der Regel überhaupt keinen Sinn ergeben. Kein noch so gutes neuronales Netz kann etwas schön rechnen. Um dies zu ermöglichen, mussten wir semantische Analysen implementieren, was weit über das Finden von Keywords hinausgehen. Wir mussten Sentimente analysieren und die wirkliche Bedeutung von langen Stories errechnen.
2018, als wir das Projekt entwickelten, haben wir dafür BERT als Algorithmus eingesetzt. Die Nähe zwischen Inhalten wurde über Kosinus-Ähnlichkeiten (cosine similarity) errechnet, bei der Inhalte als Vektoren in mehrdimensionalen mathematischen Räumen dargestellt werden. Wir setzen diese Technologie auch für Recommandations ein. Hier ist jedoch die Herausforderung, dass wir eine Mischung von semantischer Ähnlichkeit und einer Anpassung an die Interessen der User:innen brauchen. Diese Überlegungen führten dazu, dass wir uns intensiv mit den Prinzipien der Verhaltensökonomie beschäftigten. Letztlich haben wir eine Reihe dieser Prinzipien in evolutionären Algorithmen abgebildet, um STRG.behave möglich zu machen.
Als Basis-Technologie dient für die Furche unser semantisches System STRG.CMS. Hier werden die Inhalte erstellt und gepflegt. Durch die semantische Verortung und durch den Einsatz von STRG.behave ist die Redaktion auch in der Lage, automatisiert Dossiers zu erstellen und so zu bestimmten Themenbereichen eine historisch fundierte Berichterstattung sicherzustellen.
Als Ergebnis erhalten wir zu jedem Artikel eine Timeline, in der man bis zur Gründung der Furche 1945 zurückreisen kann. Das macht sichtbar, wie sich Begriffe wie “Terror”, “Bildung” oder “künstliche Intelligenz” im Laufe der Zeit in ihrer Bedeutung verändert haben und wie sie sich entwickeln. Liest man z.B. einen Beitrag über die Herausforderungen in der Bildung durch die Existenz von generativer KI und scrolled in der Timeline zurück in die 60er und 70er Jahre, dann landet man bei den Diskussionen um die aufkommenden Taschenrechner in der Bildung. Man findet aber auch Inhalt über die berühmte Dartmouth Summer of Artificial Intelligence Konferenz von 1956.
Artikel aus der Gründungszeit der Zeitung digitalisiert und semantisch analysiert.
Es ist ein völlig neuer Zugang zu Archiven entstanden, der weit weg davon ist, Menschen dazu zu bewegen, dass sie in langweiligen Sucheingaben nach Begriffen suchen zu müssen. Ein Archiv wird damit von einem Pull- zu einem Push-System, die Historie des Mediums lebt und die Leser:innen der Furche erleben einen Besuch bei der Furche sehr positiv.
Today we have a significant number of software packages and coding libraries, which enables developing effective NLP algorithms. Although NLP is older than a few
In Elon Musk’s true words of wisdom, technology doesn’t just happen. It develops because a lot of people work very hard on it.
Get in touch via email,
or give us a quick call at +43 1 526 56 29
Join thousands of STRG.at subscribers and get our best articles! Sign up for our quarterly newsletter.
© 2024 STRG. All rights reserved. Imprint.
Get notified about new articles