Lassen Sie nur, das kann doch die Maschine schreiben

Als in den vergangenen Wochen unter dem Label „Roboterjournalismus“ die Meldung durch die Medien ging, dass sich die einfachen Texte nun von selber schreiben, war die Aufregung groß. „Mein Chef ist ein Computer“, titelte etwa das Handelsblatt und berichtete, dass noch diesen Sommer die Stuttgarter Kommunikationsagentur Aexea ein Sportportal starten will, das ganz ohne Journalisten auskommt: Statt Menschen lieferten hier automatische Computerprogramme die Texte. Wer sich daraufhin aber über die Arbeitsplatzvernichtung echauffierte, war bei Saim Rolf Alkan, dem Geschäftsführer der Aexea GmbH an der falschen Adresse. „Wir haben bislang noch keinen Textautomaten an eine Zeitung geliefert“, für die Schieflage von Zeitungen seien immer noch verlegerische Fehlleistungen verantwortlich.

Mai 2014

Der gebürtige Remstäler Saim Rolf Alkan, 45, war früher selber Journalist bei der Motorpresse Stuttgart, dann machte er sich mit einem Redaktionsbüro selbstständig und erlebte den Preisverfall journalistischer Leistungen nach der Jahrtausendwende am eigenen Leib: Als die gedruckten Medien ihren letzten Aufschwung erlebten, sei ein Text mit 400 Wörtern noch mit 400 DM honoriert worden. Dann kam der Absturz mit Dienstleistern wie content.de oder textbroker.de. Rapide seien die Preise gefallen, heute könne man einen solchen Text schon für vier bis acht Euro haben. Als die Billigtexte den Markt überfluteten, wusste Alkan nicht mehr, wie er unter diesen Umständen weiter die Gehälter seiner Angestellten zahlen sollte. Im Lehrbuch des Kapitalismus fand er den Ausweg „Automatisierung“. Die Idee zur automatischen Textgenerierung in Deutschland war geboren. Was in den USA das Unternehmen „Narrative Science“, gegründet von drei Professoren für Informatik und Journalismus, Stuart Frankel, Kris Hammond und Larry Birnbaum, anbot, sollte nun auch in Deutschland verfügbar sein. Was aber ist dran an diesem Medien-Science-Fiction? Zunächst mal: schon ganz schön viel Realität und Wissenschaft, zur Fiktion kommen wir später. Narrative Science liefert dem US-amerikanischen Wirtschaftsmagazin „Forbes“ Texte zu Unternehmensentwicklungen, die dieses in einem eigenen Blog publiziert.

Die deutsche Grammatik stellt hohe Anforderungen an die Textautomaten. Ausgerechnet in der Hauptstadt des Bundeslandes, das für sich reklamiert, alles außer Hochdeutsch zu können, sitzt mit der Firma Aexea einer der aktuell erfolgreichsten Player auf diesem Gebiet in Deutschland. Zum einen können sie Texte in sieben verschiedenen Sprachen generieren, zum anderen haben sie ein eigenes regelbasiertes System entwickelt, mit dem sie auch ungewöhnliche Daten zu einer Meldung verarbeiten können. Andere Anbieter, so Alkans Aussage, könnten Daten und Fakten nur innerhalb eines bekannten Systems einordnen, die Software von Aexea dagegen wüsste auch mit der Tatsache etwas anzufangen, wenn in Stuttgart zur größten allgemeinen Verwunderung im Sommer 45°C herrschten. „In Baden-Württembergs Landeshauptstadt außergewöhnlich große Hitze. Ist der Klimawandel schuld?“ könnte dann ihre Maschine schreiben. Erfahrungen hat Aexea bislang vor allem mit Produkttexten im Bereich E-Commerce gesammelt. „Roboterjournalismus“, so möchte Alkan sein Angebot gar nicht nennen, er bevorzugt den Begriff „semantische Technologie“.

Auch das Unternehmen text-on bietet an, abstrakte Daten zu verständlichen Texten zu verarbeiten und einfach lesbare Zusammenfassungen zu liefern. „Heute sind zu fast jeder gesellschaftlichen und wirtschaftlichen Entwicklung umfangreiche Datensammlungen verfügbar, aber nur mit erheblichen zeitlichen und personellen Ressourcen lassen sich daraus schnell nachvollziehbare, gewichtete Zusammenfassungen und Entscheidungshilfen machen“, schreiben die Macher auf ihrer website. Deren Geschäftsführer und Gesellschafter Cord Dreyer startete seine berufliche Karriere bei der Deutschen Presse-Agentur (dpa), und leitete nach einigen weiteren Stationen die dapd Nachrichtenagentur GmbH in Berlin, bis er sich schließlich 2012 als Berater selbstständig machte.

Reportagen, Features, Portraits und Interviews werden sicher nicht in absehbarer Zeit von Algorithmen erstellt werden. Johannes Sommer, Geschäftsführer des Berliner Technologiedienstleisters Retresco erläutert in einem Interview, dass die natürlichen Grenzen in Stilmitteln wie Sarkasmus, Ironie oder Sprachspielen lägen, diese besonderen Feinheiten und Brüche in der Sprache könne die Maschine weder erkennen noch produzieren. Dass ein Verlag in naher Zukunft fünf Redakteure durch eine Software ersetzen könnte, hält er für Unfug. Doch er fordert: „Journalisten müssen sich mit den neuen Technologien auseinandersetzen, um sie zu verstehen. Erst dann können sie Grenzen ziehen, sich positionieren und sie gezielt zu ihrem Vorteil einsetzen“. Das versteht man besser, wenn man weiß, dass Retresco schon heute die Grenzen mit Hilfe semantischer Lösungen verwischt. Einige davon nutzt der Online-Auftritt swp.de der Südwestpresse, etwa das Geotagging (Leser erhalten gezielt Nachrichten aus ihrem Ort) oder die mit Hilfe semantischer Technologien automatisch erstellten Dossierseiten.

Spezialität: Der individualisierte Text

Was die Computer also jetzt schon können, ist das Übernehmen von Routinen. Auf diese Idee sind natürlich die Informatiker gekommen. Es ist ihr Job, Lösungen für wiederkehrende Probleme zu schaffen. Und da sie nun auch öfter in den Redaktionen anzutreffen sind, entwickeln sie auch Lösungen, wie man jeden Tag einen neuen Wetterbericht bekommt. Statt täglich einen Wetterbericht selber zu schreiben, programmiert der Softwareentwickler einen Algorithmus, der jeden Tag diesen Wetterbericht für ihn schreibt. Die Daten werden sowieso schon vom Computer ausgewertet, da ist es nur ein kleiner Schritt, sie auch von einem Computer zusammenfassen zu lassen. Und wenn wir schon mal beim Wetterbericht sind, können wir da noch einen Schritt weiter gehen und die Vorhersage auf individuelle Bedürfnisse zuspitzen.

Alkan erläutert: „Ein Leser einer Zeitung oder eines Onlineportals kann mit seinem Profil seinen Wohnort hinterlegen, vielleicht auch ein paar Eckdaten: er hat ein Auto, einen Hund, zwei Kinder und lebt im Gebirge. Aufgrund dieser Informationen können wir ihm einen hyperlokalen Wetterbericht zusammenstellen, in dem wir ihn darauf hinweisen, wenn es ratsam wäre, die Winterreifen aufzuziehen.“

Also Texte für die individuelle Lebenssituation des Lesers und hyperlokale Nachrichten. Die Unternehmen sehen aber auch große Chancen darin, mit ihren Angeboten so genannte Nachrichtenlücken zu schließen, etwa mit Sportergebnissen der Kreisliga wie dem Spielergebnis SV Bonlanden gegen den 1. FC Frickenhausen. Ein weiteres Anwendungsgebiet wäre die Finanzkommunikation über Außenseiter-Papiere – so bekommt ein Anleger einer südafrikanischen Silbermine einen lesbaren Text in ganzen Sätzen über seine Werte. Bislang stehen für solche Leser-Bedürfnisse keine journalistischen Kapazitäten zur Verfügung. Die Journalisten brauche man dennoch weiterhin, wird beteuert. Denn sie besuchen die Bürgerversammlung, nehmen politische Bewertungen vor, beschreiben, was sie gesehen haben. Die Maschine ist zu einem subjektiven Eindruck nicht in der Lage. Tatsächlich sei sie eine Ergänzung in der Redaktion, aber kein Ersatz für einen Redakteur.

Eine Ergänzung, die aber einen ganzen Strauß von Phantasien beflügelt. Der Aexea Geschäftsführer Saim Alkan schwärmt von der Verknüpfung großer Mengen individueller Daten zu einer kollektiven Emotion. Etwa wenn die Smartphones der Zukunft sowieso Daten über den Gesundheitszustand an den Arzt senden, so könnte diese Information zu Blutdruck oder Herzfrequenz noch ganz anders genutzt werden. Gekoppelt an die Aufzeichnung eines Fußballspiels würde der Herzschlag vieler Fans signalisieren, wenn die Spannung steigt. Der Reporterautomat wäre gewarnt. Ein trainierter Algorithmus für die Radioberichterstattung würde sofort seine Sätze verkürzen, seine Stimmlage erhöhen und Atemlosigkeit simulieren, bis zum Toooooooor! Toooooooor! Toooooooor!.

Wie das funktioniert

Es handelt sich noch nicht mal um einen niedlichen kleinen Roboter mit großen Augen, geschickten Fingern und einem anrührenden Wackelgang. In Wirklichkeit sind es nur Algorithmen, die aus Daten in Sekundenschnelle Artikel generieren. Das ist heute schon Realität, bei einfachen Meldungen kann man nicht herausfinden, ob der Text von einem Menschen oder von einer Maschine geschrieben wurde (s. unten). Schließlich geht es hier nicht um Literatur aus einer Edelfeder, sondern um austauschbare Allerweltstexte. Machen wir uns nichts vor, auch Journalisten verwenden für diese Art von Text oft die immer gleichen Textbausteine.

Zentral ist die Geschwindigkeit: Die vom Computer verfassten Texte stehen ruckzuck im Netz, da muss kein Journalist geweckt werden, kein Kaffee gekocht, kein Verb gesucht und keine Überschrift von Hand formatiert werden. Und wer als Erster meldet, kriegt viele Klicks. In diesem Sinne muss „Verständlichkeit“ neu definiert werden, denn in erster Linie geht es ja darum, dass diese von Computern verfassten Texte von anderen Computern schnell gefunden werden.

Die Grundlage für jede Textmaschine sind strukturierte Daten. Wenn keine Daten vorliegen ist es unmöglich, etwas zu automatisieren. Wenn es sich um eine semantische Automatisierung handelt, dann ist die Maschine hier auch in der Lage, diese Daten zu bewerten. Algorithmen sind beispielsweise bereits in der Lage, selbständig zu erkennen, ob eine Firma im vergangenen Jahr Gewinn gemacht hat, ob dies dem Trend der letzten Jahre entspricht und wie sich das Unternehmen im Vergleich zur Konkurrenz entwickelt hat. Einen Computer muss man allerdings auch auf einfache Texte thematisch vorbereiten. Die Fachbegriffe lauten hier „Semantik“ und „Ontologie“. Wissen kann nur mithilfe von Semantik vermittelt werden. Semantik nennt man die Bedeutung einer Informationsfolge – der Computer muss also „gelernt“ haben, dass die Buchstabenfolge K-I-E-F-E-R den einzigen beweglichen Knochen am Kopf bezeichnet – und einen Nadelbaum benennt. Welcher von beiden Bereichen zutrifft – Skelett oder Nadelbaum – definiert die gewählte Ontologie, sie gibt die Bedeutungen und den passenden Wortschatz vor. Ein großer Teil der Arbeit besteht also darin, Wissen explizit für die Maschinen verständlich zu machen. Daraus kann dann der Computer blitzschnell Texte in großen Mengen herstellen. Seine Server, sagt Alkan, könnten theoretisch über 3,5 Millionen Texte pro Tag verfassen. Aexea und eine Konkurrenzfirma seien derzeit daran, ihre Algorithmen so zu verfeinern, dass – wie sie hoffen – auch deutschsprachige Nachrichtenportale ihre Dienste in Anspruch nehmen wollen.

Die Maschine trainieren

„Die größte Schwierigkeit bestand tatsächlich darin, die grammatischen Regeln zu hinterlegen“, beschreibt Alkan. „Denn wir machen ja keine Synonymmaschine, wo wir Adjektiv gegen Adjektiv oder Verb gegen Verb ersetzen, sondern wir fügen Daten über eine Grammatikmaschine so aneinander, dass sich ein tatsächlicher Text entwickelt, der einen Mehrwert beinhaltet, und den ein Leser auch tatsächlich nicht von von einem von Menschen geschriebenen Text unterscheiden kann.“

Ein Satz sagt mehr als eine Grafik

Cord Dreyer, der ehemalige Chef von dapd, und Gründer des Startup-Unternehmens „Text-On“ will „Texte anbieten, die den Menschen helfen, die Welt besser zu verstehen“. Dabei geht es seiner Ansicht nach darum, dass man Datenmaterial, welches ja sehr häufig die Basis für Erkenntnisse ist, mit einem Computerprogramm auswertet und in einem zweiten Schritt das versprachlicht, also vertextet. Sein erklärtes Ziel lautet, den Menschen mehr an die Hand zu geben, als diese Datenwüsten wie sie von Excel oder ähnlichen Programmen bereitgestellt werden, ermöglichen. Ganze Sätze erläutern komplexe Sachverhalte besser als eine Grafik.

Ursprünglich sind Zeitungen aus dem Bedarf nach genau dieser schnellen und nüchternen Information entstanden, nämlich weil die Wirtschaft Nachrichten über Schiffsuntergänge, politische Krisen oder den Ausbruch von Kriegen brauchte. Im Mittelalter übernahmen von Hand abgeschriebene Kaufmannsbriefe diese Aufgabe. Die ersten gedruckten Zeitungen erschienen dann zu Beginn des 17. Jahrhunderts, wie es hieß: „Zur befürderung unnd gewinnung der Zeit“, die sonst mit „Abschreiben“ verbracht worden war. Sukzessive kamen dann zur Nachrichtenproduktion neue Formate wie Leitartikel, Reportagen, Kommentare, Portraits, Glossen und Interviews hinzu.

Mit Hilfe der schreibenden Algorithmen sollen Journalisten genau dafür wieder mehr Zeit gewinnen: vielschichtige Zusammenhänge recherchieren und beschreiben, statt schnöde Nachrichten produzieren. Das wäre schön. Theoretisch. Wahrscheinlich kriegen wir aber in Zukunft noch mehr austauschbare Nullachtfünfzehntexte serviert, weil sie in Sekundenbruchteilen produziert werden können und viele Verleger und Content-Manager diese Algorithmen nutzen, die weder Gehalt noch Krankenversicherung brauchen und trotzdem viele irgendwie verständliche Sätze auf die Seiten bringen.

Beispiel für einen personalisierten Wetterbericht von Axea

Das Wetter in Stuttgart am 21.5.2014

Personalisiert für alleinstehenden Berufstätigen, der gerne Sport macht, Freunde trifft, sein Auto liebt und einen Garten hat.

T-Shirt und Sonnenbrille

Der Mittwoch ist ein guter Tag für alle Stuttgarter und Stuttgart-Besucher. Die Sonne hat sich angekündigt und wird ohne Ausnahmen von morgens bis abends ein wärmender Begleiter sein. Die Temperaturen klettern erstmals in diesem Jahr auf über 25 Grad Celsius.
Schon am Morgen dürfte bei rund 20 Grad die Kleiderwahl leichtfallen: T-Shirt, kurze Hosen, Kleid, Sonnenbrille. Der Wind spielt heute keine Rolle, umso wärmer fühlt sich dieser Mittwoch an. Auch Wolken werden Sie keine am Himmel finden. Das heißt für alle, die sich heute viel im Freien aufhalten: Sonnencreme nicht vergessen!
Nur mäßiger Pollenflug Allergiker können das schöne Wetter ebenfalls genießen. Allenfalls Gräserpollen fliegen in diesen Tagen durch Stuttgart. Der nahezu nicht vorhandene Wind hilft jedoch, so bleibt die Belastung für Betroffene auf leichtem Niveau.

Perfekte Bedingungen für aktive Stuttgarter

Die Temperaturen kühlen auch nach 18 Uhr nicht schlagartig ab. Gute Voraussetzungen also für einen Besuch im Biergarten zum Feierabend. Erst ab 22 Uhr fällt das Thermometer unter 15 Grad Celsius. Wer lange aushält, darf den Pullover also nicht vergessen.

Wer es gerne sportlicher möchte, der kann sich in den Abendstunden auf perfekte Bedingungen freuen: Fußball, Tennis, Laufen, Radfahren Schwitzen im Freien hat unter klimatischen Gesichtspunkten heute keinerlei negative Nebenwirkungen. Die Ozonbelastung bleibt unter den gefährlichen Grenzwerten. Auf künstliche Beleuchtung können Sie inzwischen bis 20.30 Uhr verzichten. Die Sonne verabschiedet sich heute erst um 21.26 Uhr.

Denken Sie an Ihre Pflanzen

Auch in den kommenden Tagen wird sich die Sonne gegen Wolken, Wind und Regen durchsetzen. Denken Sie aus diesem Grund an Ihre Pflanzen, die im Gegensatz zu uns nicht immer auf Niederschlag verzichten können. Auch Ihr Auto freut sich über Pflege. Da die kommenden Tage trocken bleiben, können sie sich am Ergebnis auch länger erfreuen.