Gewusst wie: Analyse von Online-Stellenanzeigen (2/11) – Erkennung von Dubletten

In dieser Blogreihe berichten Expert:innen über Lösungsansätze zu methodischen Herausforderungen, die bei der Analyse von Online-Stellenanzeigen (OJA – Online Job Advertisement) entstehen können. Die Vortragsvideos stammen vom OJV Forum, welches vom Bundesinstitut für Berufsbildung und der Bertelsmann Stiftung im November 2021 ausgerichtet wurde. Das Forum hat zum Ziel, Expert:innen für die Analyse von OJA miteinander zu vernetzen, über methodische Herausforderungen zu diskutieren und sich gegenseitig auf den aktuellen Forschungsstand zu bringen. Darüber hinaus soll es dazu beitragen, das Potential der OJA-Analyse weiter auszuschöpfen und den Weg für weitere Studienideen und Kooperationen zu bereiten.  

Video: Entwicklung eines Verfahrens zur Dublettenerkennung bei Stellenanzeigen. Ein Methodenvergleich. 

Üblicherweise wird eine Online-Stellenanzeige auf mehreren Jobportalen und an unterschiedlichen Tagen veröffentlicht. Als Folge der unterschiedlichen Struktur der Jobportale, verändert sich ihr Text. Das erschwert die Dublettenerkennung und -bereinigung. In Ihrem Vortrag befasst sich Anne Gerlach vom Institut für Digital Humanities der Universität zu Köln mit der Erkennung von Dubletten in OJA-Datensätzen und zieht Erkenntnisse aus dem Vergleich von verschiedenen Methoden. Dazu definiert sie zunächst, wann es sich bei den Online-Stellenanzeigen um eine Dublette handelt, und bereinigt die Daten (Pre-Processing). Um den Arbeitsaufwand zu minimieren, filtert sie die Online-Stellenanzeigen nach Metadaten, wie beispielsweise dem Ort, wo ein neuer Mitarbeiter gesucht wird, und vergleicht anschließend welche der folgenden fünf Methoden die Dubletten am besten erkennt: Levenshtein Distanz, Bag of Words + Kosinus , W-Shingling + Kosinus, TF-IDF + Kosinus, Dov2Vec + Kosinus. Darüber hinaus führt Frau Gerlach eine Fehleranalyse durch, die aufzeigt, dass die Internetseiten, auf denen die Online-Stellenanzeigen veröffentlicht werden, einen größeren Einfluss auf die Ähnlichkeiten von Online-Stellenanzeigen haben als gedacht.  

 

Weitere Beiträge aus der Reihe „Gewusst wie: Analyse von Online-Stellenanzeigen“:

Gewusst wie: Analyse von Online-Stellenanzeigen (1/11) – Aufbereitung eines Datenschatzes

Gewusst wie: Analyse von Online-Stellenanzeigen (2/11) – Erkennung von Dubletten

Gewusst wie: Analyse von Online-Stellenanzeigen (3/11) – Sicherung der Qualität

Gewusst wie: Analyse von Online-Stellenanzeigen (4/11) – Wie repräsentativ sind die Daten?

Gewusst wie: Analyse von Online-Stellenanzeigen (5/11) – Evaluation

Gewusst wie: Analyse von Online-Stellenanzeigen (6/11) – Aufdecken von versteckten Informationen

Gewusst wie: Analyse von Online-Stellenanzeigen (7/11) – Mit Machine Learning zur Antwort

Gewusst wie: Analyse von Online-Stellenanzeigen (8/11) – Zuordnung von Berufe

Gewusst wie: Analyse von Online-Stellenanzeigen (9/11) – Gewinnung von Taxonomien

Gewusst wie: Analyse von Online-Stellenanzeigen (10/11) – Genese und Anreicherung von Kompetenzwörterbüchern

Gewusst wie: Analyse von Online-Stellenanzeigen (11/11) – Werben mit Nachhaltigkeit in Azubistellen



Kommentar verfassen