#118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking ~ Engineering Kiosk Podcast

Explain my like i am five: Die Grundlagen moderner Suchen

Wir, als User, erwarten heutzutage ziemlich viel von einer
Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich
finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka
Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka
“Meinten Sie …?”).

Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und
Co. für sowas eingesetzt, denn eine einfache Volltext-Suche
mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht
mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren
all diese modernen Suchen eigentlich im Inneren? In dieser
Episode geht es um die Grundlagen moderner Suchmaschinen. Wir
schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords,
Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse
Document Frequency, Vector Space Model und Co um uns und erklären
das ganze im “Explain me Like I am five”-Stil.

Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern
erklärt werden.

Das schnelle Feedback zur Episode:

(top) (geht
so)

Feedback

EngKiosk Community:
https://engineeringkiosk.dev/join-discord

Email: stehtisch@engineeringkiosk.dev

LinkedIn: https://www.linkedin.com/company/engineering-kiosk/

Mastodon: https://podcasts.social/@engkiosk

Twitter: https://twitter.com/EngKiosk

Gerne behandeln wir auch euer Audio Feedback in einer der
nächsten Episoden, einfach die Audiodatei per Email
an stehtisch@engineeringkiosk.dev.

Links

r/explainlikeimfive:
https://www.reddit.com/r/explainlikeimfive/

Engineering Kiosk Episode #28 O(1), O(log n), O(n^2) - Ist
die Komplexität von Algorithmen im Entwickler-Alltag relevant?:
https://engineeringkiosk.dev/podcast/episode/28-o1-olog-n-on2-ist-die-komplexit%C3%A4t-von-algorithmen-im-entwickler-alltag-relevant/

ElasticSearch: https://www.elastic.co/de/elasticsearch

OpenSearch: https://opensearch.org/

Apache Lucene: https://lucene.apache.org/

Apache Solr: https://solr.apache.org/

meilisearch: https://www.meilisearch.com/

Alogolia: https://www.algolia.com/d

HackerNews indexiert von Algolia: https://hn.algolia.com/

Term Frequency-Inverse Document Frequency:
https://de.wikipedia.org/wiki/Tf-idf-Ma%C3%9F

Bidirectional Encoder Representations from Transformers
(BERT): https://en.wikipedia.org/wiki/BERT_(language_model)

Engineering Kiosk Episode #116 KI unterstützte Software
Entwicklung: Ein Reality Check mit Birgitta Böckeler von
Thoughtworks:
https://engineeringkiosk.dev/podcast/episode/116-ki-unterst%C3%BCtzte-software-entwicklung-ein-reality-check-mit-birgitta-b%C3%B6ckeler-von-thoughtworks/

Learning to Rank:
https://en.wikipedia.org/wiki/Learning_to_rank

Vector Space Model:
https://en.wikipedia.org/wiki/Vector_space_model

Inverted Index: https://en.wikipedia.org/wiki/Inverted_index

N-Gramm: https://de.wikipedia.org/wiki/N-Gramm

Suffixbaum: https://de.wikipedia.org/wiki/Suffixbaum

Trie (Präfixbaum): https://de.wikipedia.org/wiki/Trie

Sprungmarken

(00:00:00) Buzzword-Bingo bei modernen Suchen

(00:04:40) Die Komplexität moderner Such-Systeme

(00:05:55) Info/Werbung

(00:07:00) Die Komplexität moderner Such-Systeme

(00:09:58) Wie funktioniert High-Level eine Suchmaschine?

(00:11:04) Verarbeitung der Such-Daten durch Tokens: Sprache,
Stop-Words, Lemmatisierung, Stemming

(00:20:53) Zahlen als Such-Wörter, Embeddings und Bidirektionale
Encoder-Repräsentationen von Transformers (BERT)

(00:29:34) Speichern der Daten mit einem Index: Invertierter
Index und Suffixbäume

(00:43:07) Daten wirklich finden durchs Ranking: N-Grams,
TF/IDFrequency und Vector Space Model

(00:59:54) Wie wählt man ein gutes Such-System aus?

(01:04:20) Wie beeinflusst Generative AI die aktuellen
Suchsysteme und Sucht-Grundlagen?

Hosts

Wolfgang Gassler (https://mastodon.social/@woolf)

Andy Grunwald (https://twitter.com/andygrunwald)

Feedback

EngKiosk Community:
https://engineeringkiosk.dev/join-discord

Email: stehtisch@engineeringkiosk.dev

LinkedIn: https://www.linkedin.com/company/engineering-kiosk/

Mastodon: https://podcasts.social/@engkiosk

Twitter: https://twitter.com/EngKiosk

#118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking

Beschreibung

Weitere Episoden

#278 Smart Home auf Prod-Niveau: 6 Regeln mit Andrej Friesen

#277 Inklusive Sprache verändert Tech-Kultur. KI nicht. – mit Lukas Kahwe Smith

#276 Social Engineering: Nicht gehackt, nur nett gefragt

#275 Digitales Erbe: Was bleibt, wenn dein Homelab ohne dich bootet?

#274 Openwashing: Wenn Open Source nicht wirklich offen ist - mit Johannes Näder

Kommentare (0)

Abonnenten

Bleibe beim Podcasting auf dem Laufenden

Anmelden mit