UNSER BLOG

Neues aus R&D – Teil 2: Wie man Künstliche Intelligenz nutzen kann, um Webseiten automatisiert anhand deren Inhalt zu klassifizieren

Im zweiten Teil unserer Blog-Artikel-Serie „Neues aus IX Research & Development“ berichten wir heute darüber, wie man Künstliche Intelligenz nutzen kann, um Unternehmen und deren Webseiten automatisiert bestimmten Klassen zuzuweisen.

Die Herausforderung

Innoplexia sammelt täglich automatisiert hunderttausende Informationseinheiten zu den Aktivitäten von Unternehmen im digitalen Marktumfeld. Um diese Informationen auf gewinnbringende Art und Weise an unsere Kunden weiterzugeben, ist eine Kategorisierung der gefundenen Informationseinheiten – wie beispielsweise URLs – unerlässlich. Eine Kategorisierung ist vor allem dann notwendig, wenn ein Kundenunternehmen Vergleiche innerhalb der eigenen Branche anstellen möchte. Hierunter fallen unter anderem Fragestellungen wie:

  • Wie schneidet meine Web-Präsenz gegenüber meinen Marktbegleitern ab?
  • Sind im Laufe der vergangenen Wochen oder Monate neue Wettbewerber in den Markt eingedrungen?
  • Wie lassen sich Wettbewerber innerhalb meiner Branche kategorisieren?
  • Welche Trends zeigen sich momentan innerhalb meiner Branche?

Die Herangehensweise und Lösung

Bisher erfolgte die Zuordnung und Pflege der URLs bzw. Unternehmen zu den einzelnen Unternehmensklassen in regelmäßigen Abständen auf händische Art und Weise. Dieses manuelle Vorgehen wurde im Rahmen eines Forschungsprojektes des Innoplexia-Kompetenzbereichs ‘Künstliche Intelligenz’ durch eine automatisierte Vorgehensweise ersetzt.

Erster Schritt: Extraktion und Reduktion der relevanten Inhalte: Im ersten Schritt wurde der textuelle Inhalt der gescannten Webseiten geparst und auf bedeutungstragende Bausteine reduziert. Hierfür wurden unter anderem sog. „stop words” sowie Eigennamen aus den Texten durch Platzhalter ersetzt. Stop words (zum Beispiel der, die, das, und, oder, weil) haben generell nur einen geringen Informationsgehalt. Eigennamen (oder auch Uhrzeiten, Email-Adressen, Anschriften etc.) sind Informationen die im Kontext der einzelnen Webseite relevant sind aber kein Merkmal für eine generalisierte Klasse von Webseiten darstellen.  Ebenso wurden Worte auf den bedeutungstragenden Wortstamm (sog. Stemming) reduziert.

Zweiter Schritt: Trainieren des Neuronalen Netzes: Im zweiten Schritt folgte das Training des Neuronalen Netzes zur Lösung des Klassifikationsproblems ‚Welche URL gehört zu welcher Branche?‘. Hierfür wurde das Neuronale Netzwerk mit einem  Word2vec-Modell kombiniert. Im Vergleich zum bag-of-words Ansatz, welcher die Vorkommnisse jedes Wortes pro Dokument zählt, können mit dem  Word2vec-Modell Zusammenhänge von Wörtern (Kontext) erlernt und somit Synonyme erkannt werden. Hierdurch entsteht ein zweistufiger Prozess:

  1. Ein Autoencoder wird eingesetzt, um jedes Wort im Textkorpus als numerischer Vektor darzustellen. Wörter, welche im ähnlichen Kontext benutzt werden, werden dabei durch ähnliche Vektoren abgebildet und somit als Synonyme erkannt. Man spricht von einem unüberwachten (“Unsupervised”) Verfahren, da kein manuell erstelltes Trainingsdatensatz benötigt wird.
  2. Im zweiten Schritt wird ein Deep Neural Network anhand der manuell klassifizierten Webseiten trainiert. Dieses nimmt die zuvor erlernten Wortvektoren als Input entgegen und gibt eine Wahrscheinlichkeit pro Klasse für jedes Dokument aus.

Abbildung 1: Cluster von gefundenen Unternehmensklassen im dreidimensionalen Raum. Jeder Punkt stellt hierbei eine URL dar. Die gelbe und graue Punktwolke zeigen hierbei besonders homogene Unternehmensklassen.

Dritter Schritt: Anwendung der automatisierten Kategorisierung: Nach erfolgreichem Training des Neuronalen Netzes erfolgte eine durch das Netz durchgeführte, automatisierte Kategorisierung von neuen URLs bzw. Webseiten zu bestehenden Unternehmensklassen. Die Überschneidung zwischen Zuordnung durch Machine-Learning-Methoden und der menschlichen Kategorisierung lag bei erster Anwendung bei rund 88%. Im Rahmen von weiteren Trainings-Iterationen kann diese Treffergenauigkeit noch substanziell erhöht werden, sodass im Mittel eine Überschneidung von über 90% zwischen der menschlichen sowie maschinellen Zuordnung attestiert werden kann.

Abbildung 2: Darstellung des Grades der Überschneidung zwischen automatisierter und menschlicher Zuordnung von URLs zu Unternehmensklassen in der ersten Iteration nach Training des Neuronalen Netzes. Es liegt eine initiale Überschneidung von 88% vor.

Der Vorteil für Kunden

Durch Automatisierung in der Zuordnung von Unternehmens-Websites zu Branchen ergeben sich für Innoplexia Kunden vor allem folgende, konkrete Vorteile:

  • Schnellere Identifikation von neuen Marktbegleitern im eigenen Wettbewerbsumfeld
  • Objektivierung der Zuordnung
  • Tägliche Überprüfung der Korrektheit und Optimierung der Zuordnung

Im Rahmen einer Erweiterung dieses Forschungsprojektes werden außerdem die folgenden Vorteile für Innoplexia-Kunden adressiert:

  • Stetige Überprüfung von neuen URL-Clustern (potentielle neue ‚Branchen‘ oder Unternehmensklassen)
  • Zuordnung mehrerer Unternehmensklassen (in absteigender Reihenfolge) zu Unternehmen, welche in mehreren Branchen aktiv sind
SMX Munich 2019
SMX Munich 2019 Munich, Germany March 3, 2019 ©Rising Media/Kurt Krieger/Hubert Bösl

SMX 2019

Wir möchten uns bei Ihnen für den interessanten Austausch auf der SMX 2019 sowie für die zahlreichen und sehr interessanten Fachgespräche an unserem Stand bedanken.

Sie hatten nicht die Möglichkeit in München vor Ort zu sein und sich zu unseren neuesten Produkten und Services zu informieren? Dann kontaktieren Sie uns gerne einfach unter info@innoplexia.com oder rufen Sie unsere Zentrale unter der +49 (0) 6221 7198033 an.

Wir freuen uns auf Sie,

Ihre Innoplexia

Neues aus R&D – Teil 1: Wie man Künstliche Intelligenz nutzen kann, um die Sichtbarkeit von Unternehmen zu messen.

Im ersten Teil unserer neuen Blog-Artikel-Serie „Neues aus IX Research & Development“ berichten wir heute darüber, wie man Künstliche Intelligenz nutzen kann, um die Sichtbarkeit von Unternehmen im Internet zu messen.

Die Sichtbarkeit von Unternehmen im digitalen Marktumfeld ist eines der wichtigsten Kriterien für den Unternehmenserfolg. Sowohl im B2B- als auch im B2C-Bereich informieren sich heutzutage mehr als die Hälfte aller Konsumenten vor der Kaufentscheidung über Unternehmen und Produkte im Web. In der westlichen Welt wird hierfür in mehr als neun von zehn Fällen die Suchmaschine Google genutzt, weshalb Google als Vermittlungsplattform zwischen Angebot und Nachfrage eine zentrale Rolle im digitalen Marktumfeld einnimmt. Ist ein Unternehmen gut sichtbar und präsent auf Google, so steigt typischerweise auch der Umsatz und hiermit der Unternehmenserfolg. Wird ein Unternehmen von der ersten Ergebnisseite von Google verdrängt, so kann dies im Umkehrschluss fatale Folgen für die Geschäftsentwicklung des Unternehmens haben.

Da nun definiert ist, weshalb die Sichtbarkeit von Unternehmen auf Google ein wichtiges Kriterium für den Unternehmenserfolg ist, stellt sich nun die Frage, wie man diese am genauesten messen kann. Bereits 2014 entwickelte Innoplexia deshalb eine Formel zur Messung der Sichtbarkeit von Unternehmen und deren Webseiten auf Google. Mehrere Kriterien auf der Ergebnisseite von Google wurden hierfür herangezogen, unter anderem der Rang, optimale Länge von Titel und Texten, Vorhandensein von Sterne-Bewertungen und einige weitere. Diese Kriterien wurden gewichtet und ergaben in der Summe den Innoplexia-Sichtbarkeitsscore, der sich bis zum heutigen Tag – unter regelmäßigen Anpassungen – erfolgreich am Markt bewährt hat.

Doch warum ist es nun an der Zeit, eine neue Berechnungsgrundlage zu erproben und eine grundlegende Überarbeitung des Sichtbarkeitsscores anzustreben? Der hauptsächliche Beweggrund hierfür liegt vor allem in der immer dynamischer werdenden Ergebnisdarstellung von Google. Das Unternehmen spielt in immer kleiner werdenden Abständen Updates aus, welche zu einer veränderten Darstellung der Suchergebnisse führen. Eine Sichtbarkeitsberechnung mittels klassischer statistischer Methoden trägt dieser Tatsache also nur noch bedingt Rechnung, sodass Innoplexia nun auf Deep Learning Models setzt, welche den Einfluss verschiedenster Variablen auf die Sichtbarkeit genauer abbilden können.

Diese zwei Screenshots der Ergebnisseite von Google zeigen deutlich, dass organische Ergebnisse (SEO) teilweise gar nicht mehr auf den ersten Blick sichtbar sind (links) beziehungsweise zum Teil auch größer dargestellt werden, als es früher der Fall war (rechts). Aus diesem Grund gilt es, multiple Faktoren für die Sichtbarkeitsberechnung zu nutzen.

Dieses mehrwöchige Projekt wurde im Innoplexia Kompetenzbereich Künstliche Intelligenz im Rahmen der folgenden Etappen realisiert:

    1. Zunächst wurde eine möglichst repräsentative Stichprobe an Probanden herangezogen, welche jeweils Sichtbarkeiten von Unternehmen auf Google bewerten sollten. Alle Probanden erhielten hierfür dieselben Screenshots von Google Ergebnisseiten zur Bewertung vorgelegt und sollten ihre subjektive Wahrnehmung darüber abgeben, welcher Suchtreffer in den Ergebnissen wie sichtbar ist.
    2. Es folgte ein Feature Engineering zur Beantwortung der grundlegenden Frage: Welche unabhängigen Variablen (bspw. Rang oder y-Koordinate eines Unternehmens) haben welchen Einfluss auf die abhängige Variable, nämlich die wahrgenommenen Sichtbarkeit des jeweiligen Unternehmens. Der ursprüngliche Innoplexia Score bestand aus sieben Kriterien, die in unterschiedlicher Gewichtung die Sichtbarkeit bestimmten. Im neu erprobten Modell wurden nun viele neue Kriterien entdeckt, sodass sich die Anzahl der relevanten Kriterien nun mehr als verdoppelt hat. Darüber hinaus ergab sich eine optimierte Gewichtung der Kriterien. So ist beispielsweise der Rang eines Unternehmens nicht mehr so einflussreich wie die y-Koordinate. Dies ist dadurch bedingt, dass Google in der Zwischenzeit immer mehr dazu übergegangen ist, Kartendarstellungen oder einzelne Snippets aus Google Maps über das erste organische Suchergebnis zu stellen. Ziel und Ergebnis dieses Feature Engineerings auf Basis der im ersten Schritt gewonnenen empirischen Datengrundlage war es, die genauen Einflussfaktoren auf die Sichtbarkeit sowie deren Gewichtung neu zu definieren und somit weiter zu optimieren.
    3. Im nächsten Schritt folgte das Trainieren eines Deep Neural Models, ebenfalls auf Basis der im ersten Schritt gewonnenen Datengrundlage. Hierfür wurde das Framework TensorFlow des Google Brain Teams herangezogen. Zum Trainieren des Models wurde die Google Machine Learning Engine eingesetzt, um von der Skalierbarkeit der Google Cloud zu profitieren.
    4. Die nun folgende Phase bezieht sich auf Test und Deployment des neuen Berechnungsmodells. Aktuell werden die Ergebnisse auf neue und produktive Daten angewandt und mit weiteren Testpersonen validiert. Erste Ergebnisse lassen darauf schließen, dass die neue Berechnungsgrundlage noch stärker der menschlichen Wahrnehmung entspricht, als es beim aktuellen Score der Fall ist. Demgemäß kann im Folgeschritt ein Deployment und eine programmatische Umsetzung des neuen Berechnungsmodells für Innoplexia-Kunden erfolgen.
    5. Darüber hinaus wurde eine neue Anwendung entwickelt, welche mehrfach täglich die Ergebnisseite von Google auf geänderte Layouts prüft. Sobald neue Einheiten hinzukommen oder die Anordnung bekannter Einheiten auf eine neuartige Weise geändert wird, werden Analysten von Innoplexia informiert. Sofern es sich hierbei tatsächlich um Änderungen in der Ergebnisdarstellung handelt, kann das Neuronale Netz mit neuen Trainingsdaten re-kalibriert werden. Das Modell ist somit sehr robust – auch für zukünftige Anpassungen durch Google.

Zusammenfassend lässt sich sagen, dass die Score-Berechnung durch den Einsatz Neuronaler Netze noch detailgenauer erfolgt als es bereits zuvor der Fall war. Anstelle der sieben bisher genutzten Kriterien kann die Sichtbarkeit nun durch mehr als doppelt so viele Kriterien konstituiert werden, deren Gewichtung nun direkt abhängig von der wahrgenommenen Sichtbarkeit bei Google sind. Ebenso ist es durch Einsatz der Neuronalen Netze möglich, sehr schnell auf neue Einheiten auf der Ergebnisseite von Google reagieren zu können, indem diese mit neuen Daten trainiert werden ohne den übrigen Prozess zu beeinflussen.

SNP Transformation Days 2019

Wie auch im vergangenen Jahr wird Innoplexia im Rahmen von mehreren Transformation Days seine Produkte und Dienstleistungen in der Schweiz vorstellen. In entspannter Atmosphäre können sich Entscheider und Experten aus dem IT-Umfeld unverbindlich zu den neuesten Lösungen des Heidelberger Software-Unternehmens informieren. Die Termine starten jeweils um 16 Uhr und klingen gegen 19 Uhr mit einem flying dinner aus.

Folgende Termine können wir Ihnen im ersten Halbjahr 2019 anbieten:

  • 28.03.2019 Basel, Bar Rouge
  • 23.05.2019 Zürich, Die Giesserei
  • 13.06.2019 Bern, Welle 7

Eine Anmeldung erfolgt kostenfrei über die jeweiligen Webseiten der Veranstaltungen. Da die Plätze der exklusiven Events beschränkt sind, bitten wir um eine rechtzeitige Reservierung.

Wir freuen uns auf Sie,
Ihre Innoplexia GmbH

E-world energy & water 2019

Wir von Innoplexia hoffen, dass Sie ein besinnliches Weihnachtsfest genießen konnten und mit viel positiver Energie in das neue Jahr 2019 gestartet sind.

Gleich im Februar diesen Jahres werden wir – wie auch in den Jahren zuvor – auf der E-world energy & water in Essen vertreten sein. Hier werden wir am 06.02.2019 neben unserer modularen Sofware-as-a-Service-Lösung Inno-Suite auch spezielle Branchenlösungen für Energieversorger im Gepäck haben.

Gerne können Sie vorab ein unabhängiges Gespräch mit uns vereinbaren, entweder per Mail oder über unser Terminvereinbarungsformular.

Wir freuen uns auf den Austausch mit Ihnen und eine ereignisreiche E-world energy & water 2019.

Ihre Innoplexia GmbH

Weihnachtsreport 2018

Schon wieder ist ein Jahr vorbei und Weihnachten steht – wie immer schneller als erwartet – vor der Tür. Auch in diesem Jahr wollen wir Ihnen wieder einige Fakten rund um Weihnachten präsentieren und Ihnen auf diesem Weg erholsame Feiertage wünschen. Viel Spaß beim Lesen!

Beginnen wir mit dem Start der Vorweihnachtszeit: Man könnte vermuten, dass der Black Friday bzw. der Cyber Monday diese einläuten. Bei der genauen Analyse des Suchverhaltens der Konsumenten auf Google ist jedoch bereits im Oktober ein signifikanter Anstieg der Google-Suchen zum Themenkomplex Weihnachten in Deutschland zu vermerken.

Betrachtet man nun das Thema Weihnachtsgeschenke etwas genauer, fällt auf, dass bei der Suche nach dem perfekten Geschenk digitale Kanäle eine substanzielle Rolle spielen: Denn immerhin 86% der Menschen lassen sich beim Weihnachtseinkauf durch die zuvor getätigte Online-Recherche beeinflussen.

Bei dieser erfreuen sich vor allem folgende Produkte besonders großer Beliebtheit (absteigende Reihenfolge): Parfum & Düfte, Tablets, Spielzeuge, Fernseher, Heimkinosysteme, Laptops, Sport- und Fitnessbekleidung, Alkoholische Getränke, Unterhaltungselektronik und Kleidung.

Neben den Geschenken ist für viele Menschen auch das Thema Essen an Weihnachten besonders wichtig. Das erklärt vermutlich, warum in der Woche vor Weihnachten die Nachfragen nach Rezepten auf Google immer das Jahreshoch erreichen.

Leider hat der Genuss auch seine Schattenseiten: Über 60% der Deutschen nehmen in der (Vor-)Weihnachtszeit zwischen 1kg und 2kg an Körpergewicht zu. Auf Basis dieser Entwicklung ist es kaum verwunderlich, dass die Themensuchen „Abnehmen“ und „Fitnessstudio“ gleich zu Beginn des neuen Jahres ihre größten Suchvolumina erzielen. Bei so vielen guten Vorsätzen sollten die paar zusätzlichen Pfunde aber kein Problem darstellen.

In diesem Sinne wünscht Innoplexia allen Kunden, Partnern und Freunden besinnliche Feiertage im Kreise der Familie und einen gelungenen Start in das Jahr 2019. Wir freuen uns auf ein ereignisreiches nächstes Jahr – gemeinsam mit Ihnen.

Produktvorstellung: Innoplexia Discovery Map

Nach einer intensiven und erfolgreichen Entwicklungsphase sind wir froh, Ihnen das neue Inno-Suite Modul Discovery Map vorstellen zu dürfen. Bei der Discovery Map handelt es sich um eine Kartendarstellung von regionalen Informationen zum Web-Markt und der Konsumenten-Nachfrage. Aus der Fülle der dargestellten Informationen lassen sich erfolgreiche, datenbasierte Entscheidungen treffen, welche unter anderem folgende Fragestellungen beantworten:

Filialeröffnungen: Welche Regionen eignen sich besonders für die Eröffnung einer neuen Filiale oder eines Vertriebsstandortes?

Churn-Analyse: Weshalb verliert mein Unternehmen in einer bestimmten Region Kunden und den damit verbundenen Umsatz?

Wettbewerber-Beobachtung: Welche meiner Wettbewerber werben in meinem Einzugsgebiet mit welcher Botschaft und mit welchem Erfolg?

Potenzialanalyse: An welchen Standorten kann mein Unternehmen mit Online-Marketing gezielt neue Kunden gewinnen?

Die Discovery Map ist ein Bestandteil der SaaS-Lösung Inno-Suite und erfordert somit keinen Eingriff in Ihre IT-Landschaft. Ebenso lässt sich der tägliche Datenscan auf genau diejenigen Regionen und Produkte eingrenzen, die für Ihren Geschäftserfolg besonders wichtig sind. Gerne erklären wir Ihnen mehr in einem persönlichen Austausch – wir freuen uns auf Ihre Anfrage!

Ihre Innoplexia GmbH

Innoplexia auf der SMX 2019: Sparen Sie 15% mit unserem Rabatt-Code

Am 2. Und 3. April 2019 wird die Innoplexia GmbH erstmals auf der SMX (Search Marketing Expo) in München vertreten sein. Als Leitkonferenz zum Thema SEO, SEA und Online-Marketing zieht die SMX Spezialisten und Entscheider aus verschiedensten Branchen an und ist aus der Messeplanung vieler Online-Profis nicht mehr wegzudenken. Neben hochklassigen Sessions, Workshops und Meetings findet auch im kommenden Jahr im Rahmen der SMX wieder die Verleihung des renommierten deutschen Suchmarketing-Preises SEMY statt. Im Anschluss an die Verleihung der SEMY-Awards wird auch 2019 wieder die legendäre After Dark Party im HEART Restaurant & Bar München stattfinden.

Da Innoplexia ein Blog-Partner der SMX ist, erhalten Interessenten zudem durch Buchung eines Tickets mit unserem Code 15% Rabatt auf den regulären Ausgabepreis. Sichern Sie sich am besten bis zum 09.11.2018 Ihr Frühbucher-Ticket für die wichtigste Veranstaltung zu den Themen Search und Online durch Angabe des Rabattcodes INNOPLEXIASMX auf der Website der SMX.

Wir freuen uns auf Sie!

Innoplexia auf der Research & Results 2018

Seit Jahren versteht sich die Research & Results als deutschsprachige Leitmesse zum Thema Marktforschung. Nach der Premiere im letzten Jahr sind wir auch 2018 – am 24. und 25. Oktober in München –  wieder als Aussteller vertreten und laden Sie herzlich zu uns an den Stand (Standnummer: 257) ein. Neben der Vorstellung der Portfolio-Neuerungen haben wir außerdem ein kleines Gewinnspiel vorbereitet, bei dem wir unter allen Teilnehmern eine kostenlose Test-Analyse verlosen.

Machen Sie deshalb am besten noch heute einen Termin mit uns aus oder kommen Sie einfach an unserem Stand vorbei.

Darüber hinaus sind wir auch in diesem Jahr wieder im Workshop-Programm vertreten und wollen Sie auch dazu recht herzlich einladen, um mit Ihnen über die aktuellen Trends aus dem Bereich der Online-Marktforschung zu diskutieren:

24, Oktober 2018, 12:30 Uhr (Raum 2)
Digitale Wege zum Konsumenten: mit Google und Social Media Bedürfnisse und Einstellungen erkennen und messen
Dr. Jörg Munkes, Corporate Director, Gesellschaft für Innovative Marktforschung mbH
René Herget, Director of Customer Solutions, Innoplexia GmbH

25. Oktober 2018, 13:30 Uhr (Raum 5)
Digitales Marketing auf dem nächsten Level: regionaler Fokus, live beobachten, automatisierte Kampagnen, Praxisberichte
Prof. Dr. Herbert Schuster, Founder, Innoplexia GmbH

Wir freuen uns auf Sie!

Google Infografik: Google als wichtigste Traffic-Quelle

Google ist das Einstiegstor in die digitale Welt. Die Suchmaschine wird nicht mehr nur dafür genutzt, alltägliche Fragen zu beantworten oder Webseiten zu erreichen. Nein, Google ist heutzutage vielmehr die entscheidende Informationsquelle für ein Großteil aller Meinungsbildungen und Kaufentscheidungen. In der folgenden Google Infografik erhalten Sie einen kleinen Auszug von Zahlen und Fakten, welche den Stellenwert Googles belegen.

Google Infografik 2018 – Google Suche als wichtigste Traffic-Quelle

contact-section

Diese Seite nutzt Cookies, um Ihnen die beste Nutzererfahrung zu bieten. Bitte akzeptieren Sie durch einen Klick auf den 'Cookies akzeptieren' Knopf.

Cookie settings

Below you can choose which kind of cookies you allow on this website. Click on the "Save cookie settings" button to apply your choice.

FunctionalOur website uses functional cookies. These cookies are necessary to let our website work.

AnalyticalOur website uses analytical cookies to make it possible to analyze our website and optimize for the purpose of a.o. the usability.

Social mediaOur website places social media cookies to show you 3rd party content like YouTube and FaceBook. These cookies may track your personal data.

AdvertisingOur website places advertising cookies to show you 3rd party advertisements based on your interests. These cookies may track your personal data.

OtherOur website places 3rd party cookies from other 3rd party services which aren't Analytical, Social media or Advertising.