Im zweiten Teil unserer Blog-Artikel-Serie „Neues aus IX Research & Development“ berichten wir heute darüber, wie man Künstliche Intelligenz nutzen kann, um Unternehmen und deren Webseiten automatisiert bestimmten Klassen zuzuweisen.
Die Herausforderung
Innoplexia sammelt täglich automatisiert hunderttausende Informationseinheiten zu den Aktivitäten von Unternehmen im digitalen Marktumfeld. Um diese Informationen auf gewinnbringende Art und Weise an unsere Kunden weiterzugeben, ist eine Kategorisierung der gefundenen Informationseinheiten – wie beispielsweise URLs – unerlässlich. Eine Kategorisierung ist vor allem dann notwendig, wenn ein Kundenunternehmen Vergleiche innerhalb der eigenen Branche anstellen möchte. Hierunter fallen unter anderem Fragestellungen wie:
- Wie schneidet meine Web-Präsenz gegenüber meinen Marktbegleitern ab?
- Sind im Laufe der vergangenen Wochen oder Monate neue Wettbewerber in den Markt eingedrungen?
- Wie lassen sich Wettbewerber innerhalb meiner Branche kategorisieren?
- Welche Trends zeigen sich momentan innerhalb meiner Branche?
Die Herangehensweise und Lösung
Bisher erfolgte die Zuordnung und Pflege der URLs bzw. Unternehmen zu den einzelnen Unternehmensklassen in regelmäßigen Abständen auf händische Art und Weise. Dieses manuelle Vorgehen wurde im Rahmen eines Forschungsprojektes des Innoplexia-Kompetenzbereichs ‘Künstliche Intelligenz’ durch eine automatisierte Vorgehensweise ersetzt.
Erster Schritt: Extraktion und Reduktion der relevanten Inhalte: Im ersten Schritt wurde der textuelle Inhalt der gescannten Webseiten geparst und auf bedeutungstragende Bausteine reduziert. Hierfür wurden unter anderem sog. „stop words” sowie Eigennamen aus den Texten durch Platzhalter ersetzt. Stop words (zum Beispiel der, die, das, und, oder, weil) haben generell nur einen geringen Informationsgehalt. Eigennamen (oder auch Uhrzeiten, Email-Adressen, Anschriften etc.) sind Informationen die im Kontext der einzelnen Webseite relevant sind aber kein Merkmal für eine generalisierte Klasse von Webseiten darstellen. Ebenso wurden Worte auf den bedeutungstragenden Wortstamm (sog. Stemming) reduziert.
Zweiter Schritt: Trainieren des Neuronalen Netzes: Im zweiten Schritt folgte das Training des Neuronalen Netzes zur Lösung des Klassifikationsproblems ‚Welche URL gehört zu welcher Branche?‘. Hierfür wurde das Neuronale Netzwerk mit einem Word2vec-Modell kombiniert. Im Vergleich zum bag-of-words Ansatz, welcher die Vorkommnisse jedes Wortes pro Dokument zählt, können mit dem Word2vec-Modell Zusammenhänge von Wörtern (Kontext) erlernt und somit Synonyme erkannt werden. Hierdurch entsteht ein zweistufiger Prozess:
- Ein Autoencoder wird eingesetzt, um jedes Wort im Textkorpus als numerischer Vektor darzustellen. Wörter, welche im ähnlichen Kontext benutzt werden, werden dabei durch ähnliche Vektoren abgebildet und somit als Synonyme erkannt. Man spricht von einem unüberwachten (“Unsupervised”) Verfahren, da kein manuell erstelltes Trainingsdatensatz benötigt wird.
- Im zweiten Schritt wird ein Deep Neural Network anhand der manuell klassifizierten Webseiten trainiert. Dieses nimmt die zuvor erlernten Wortvektoren als Input entgegen und gibt eine Wahrscheinlichkeit pro Klasse für jedes Dokument aus.

Abbildung 1: Cluster von gefundenen Unternehmensklassen im dreidimensionalen Raum. Jeder Punkt stellt hierbei eine URL dar. Die gelbe und graue Punktwolke zeigen hierbei besonders homogene Unternehmensklassen.
Dritter Schritt: Anwendung der automatisierten Kategorisierung: Nach erfolgreichem Training des Neuronalen Netzes erfolgte eine durch das Netz durchgeführte, automatisierte Kategorisierung von neuen URLs bzw. Webseiten zu bestehenden Unternehmensklassen. Die Überschneidung zwischen Zuordnung durch Machine-Learning-Methoden und der menschlichen Kategorisierung lag bei erster Anwendung bei rund 88%. Im Rahmen von weiteren Trainings-Iterationen kann diese Treffergenauigkeit noch substanziell erhöht werden, sodass im Mittel eine Überschneidung von über 90% zwischen der menschlichen sowie maschinellen Zuordnung attestiert werden kann.

Abbildung 2: Darstellung des Grades der Überschneidung zwischen automatisierter und menschlicher Zuordnung von URLs zu Unternehmensklassen in der ersten Iteration nach Training des Neuronalen Netzes. Es liegt eine initiale Überschneidung von 88% vor.
Der Vorteil für Kunden
Durch Automatisierung in der Zuordnung von Unternehmens-Websites zu Branchen ergeben sich für Innoplexia Kunden vor allem folgende, konkrete Vorteile:
- Schnellere Identifikation von neuen Marktbegleitern im eigenen Wettbewerbsumfeld
- Objektivierung der Zuordnung
- Tägliche Überprüfung der Korrektheit und Optimierung der Zuordnung
Im Rahmen einer Erweiterung dieses Forschungsprojektes werden außerdem die folgenden Vorteile für Innoplexia-Kunden adressiert:
- Stetige Überprüfung von neuen URL-Clustern (potentielle neue ‚Branchen‘ oder Unternehmensklassen)
- Zuordnung mehrerer Unternehmensklassen (in absteigender Reihenfolge) zu Unternehmen, welche in mehreren Branchen aktiv sind