Blog
Insbesondere für Nachrichten-Webseiten gehört eine „Lesen Sie auch“-Funktion mit ähnlichen Artikeln oder aktuellen weiteren Nachrichten (auch Relateds genannt) mittlerweile zum guten Ton. Und das nicht zu Unrecht, erhöht die Bereitstellung dieser Funktion doch unserer Erfahrung nach die PIs und Verweildauer eines Webauftritts erheblich.
Problematisch insbesondere bei ähnlichen Artikeln ist der Zeitaufwand, den ihre manuelle Einstellung erfordert. Zudem kann kaum ein Redakteur den gesamten Artikelbestand überblicken und so feststellen, ob es nicht irgendwo interessante Kandidaten für ähnliche Artikel gibt. Die Lösung für dieses Problem ist eine automatische Lösung, die ähnliche Artikel auffindet und entweder direkt in die Webseite integriert oder als Vorschläge den Redakteuren anbietet.
Apache Solr bietet genau diese Möglichkeit: Die Komponente „MoreLikeThis“ (MLT) berechnet die relevantesten Bestandteile eines Textes und generiert dadurch eine Suchanfrage. Diese wiederum führt zu Artikeln, die auf die Suchanfrage passen und somit als ähnlich angesehen werden. Ein Relevanz-Algorithmus sorgt dafür, dass die am besten passenden Artikel zuerst erscheinen.
Ergänzend zu dem Angebot von Apache Solr setzen wir auf linguistische Methoden wie Natural Language Processing (NLP), die eine tiefer gehende Analyse der Texte und damit eine Optimierung der Ergebnisqualität möglich machen.
Unsere Implementierungen für die Märkische Oderzeitung, die Neue Osnabrücker Zeitung und das Bundesministerium für Gesundheit zeigen, dass es mit Einsatz der richtigen Technologie durchaus möglich ist, ähnliche Artikel in guter Qualität zu berechnen – und das auch noch richtig schnell.
Die Vorteile liegen auf der Hand: Redakteure können sich auf ihre anderen Arbeiten konzentrieren und müssen keine „Lesen Sie auch“-Funktion pflegen. Der gesamte Artikelbestand spielt in die Berechnung ähnlicher Artikel hinein, so dass auch bei älteren Artikeln die jeweils ähnlichsten Artikel ausgespielt werden können. Zudem kann die Berechnung je nach Anwendungsbereich auf individuelle Art und Weise erfolgen, um dem jeweiligen Fall Rechnung zu tragen und optimierte Lösungen zu liefern, die auch ohne Eingreifen eines Redakteurs funktionieren. Nicht zuletzt ist die Funktion über eine API zugänglich und somit einfach in alle gängigen Redaktionssysteme integrierbar.