Strukturierte Daten vs. Unstrukturierte Daten

Die Erklärung, was strukturierte Daten sind und welche Bedeutung sie haben, führt schnell zu ihrem Gegenteil, den unstrukturierten Daten. Beispiele für unstrukturierte Daten sind etwa analoge oder digitale Text-Dokumente, Audiodateien, Videos und Bilder. Solche Inhalte enthalten eine Reihe von relevanten Daten wie Personennamen, Ortsangaben oder Mengenbezeichnungen – nur eben in „freier“, unspezifischer Form.

Die Herausforderung bei solchen Daten ist, dass die enthaltenen Informationen kaum organisiert bzw. weiterverarbeitet werden können. Nur strukturierte Daten lassen sich effizient verwalten und nutzen, das gilt vor allem für EDV-Lösungen und Internet-Anwendungen. Online-Shops, aber auch News-Portale, Wetterdienste oder Sportseiten verarbeiten große Mengen an Informationen. Die Applikationen können Daten nur handhaben, wenn diese in Tabellenform, also in Spalten und Zeilen, aufbereitet sind.

SQL (structured query language)

Während für überschaubare Bestände eine Excel-Tabelle noch ausreicht, organisieren Datenbanken große Mengen an Informationen. Zur Verwaltung von Verzeichnissen strukturierter Daten hat sich die Datenbanksprache SQL etabliert. SQL ermöglicht es, Datenmengen von beliebiger Größe zu speichern, zu durchsuchen, neue Informationen hinzuzufügen, zu aktualisieren und zu löschen.

Die Syntax der Datenbanksprache ist vergleichsweise intuitiv und mit Abfragebefehlen wie „SELECT“, „FROM“, „ORDER BY2 an die englische Sprache angelehnt. SQL bietet eine Programmierschnittstelle zu anderen Sprachen wie C, C++, COBOL, Ada aber auch Java und C#.

Umwandlung Unstrukturierter Daten

Schätzungen gehen davon aus, dass 85 – 90 % aller online verfügbaren Daten unstrukturiert sind. Daten aus im Internet anzutreffenden Formaten wie .pdf, mp4, .jpeg aber auch .docx und HTML-Dokumenten können nicht ohne Weiteres in einer Datenbanken abgelegt werden.

Sollen Daten aus solchen unstrukturierten Formaten genutzt werden, müssen die Informationen zunächst aus dem Inhalt extrahiert und in einer Tabelle abgelegt werden. Das geschieht zum Beispiel mit Verfahren der semantischen Analyse, einem Teilgebiet des Feldes Natural Language Understanding. Dabei scannen Algorithmen Inhalte, etwa Artikel aus einem Online-Newsportal, erkennen darin die relevanten Phänomene und Inhalte und fassen die Daten in maschinenlesbaren Tabellen zusammen.

Strukturierte Daten in der Natural Language Generation

Natural Language Generation (NLG) ist die Erstellung von Texten aus strukturierten Daten. Informationen in strukturierter Form sind eine Voraussetzung für eine NLG-Software, eine andere vorformulierte Textbausteine und Bedingungen, die definieren, wie sich ein Text aufbaut. Im Zusammenspiel aus Vorlagen und strukturierten Daten entstehen automatisiert natürlichsprachliche Texte wie Fondsreports, Spielberichte von Fußballbegegnungen, Produkttexte oder Wetterberichte.

Am Beispiel Wetterberichte sind strukturierte Daten etwa die Informationen zu Temperatur, Luftdruck oder Niederschlagswahrscheinlichkeit an einem Ort. Auf Börsen-News bezogen können das die Werte wie Zu- bzw. Abnahme eines Indexes oder Kursschwankungen sein, beim Betexten von Produktbeschreibungen Artikelmerkmale wie Farbe, Größe oder Gewicht. NLG-Anwendungen ermöglichen es, große Datenmengen per direktem Upload oder über eine API in ein NLG-System einzuspielen und so Texte in skalierbarer Menge effizient zu erstellen.

Strukturierte Daten im SEO

Der Begriff strukturierte Daten spielt auch in der Suchmaschinenoptimierung eine wichtige Rolle. Bezogen auf SEO sind strukturierte Daten Auszeichnungen, die Suchmaschinen bei der besseren Einordnung von Websites und deren Themen helfen. So lassen sich mit strukturierten Daten etwa zusätzliche Informationen bereitstellen, etwa zu Preisen, Orten, zeitlichen Rahmendaten, Veranstaltungen oder Kundenmeinungen. Der Standard zu strukturierten Daten für Webpages ist auf schema.org festgelegt. Google honoriert die zusätzlichen Informationen und reichert das Snippet in den Suchergebnissen entsprechend an. Für Website-Betreiber ergeben sich durch die Verwendung der „structured data“ mit gesteigerter Sichtbarkeit und daraus resultierender höherer Klickrate durchweg positive Effekte.

Quellen:

Structured Data vs. Unstructured Data; What’s the Difference?

Introduction to SQL