#118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking

#118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking

1 Stunde 12 Minuten

Beschreibung

vor 1 Monat

Explain my like i am five: Die Grundlagen moderner Suchen


Wir, als User, erwarten heutzutage ziemlich viel von einer
Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich
finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka
Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka
“Meinten Sie …?”).


Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und
Co. für sowas eingesetzt, denn eine einfache Volltext-Suche
mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht
mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren
all diese modernen Suchen eigentlich im Inneren? In dieser
Episode geht es um die Grundlagen moderner Suchmaschinen. Wir
schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords,
Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse
Document Frequency, Vector Space Model und Co um uns und erklären
das ganze im “Explain me Like I am five”-Stil.


Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern
erklärt werden.





**** Diese Episode wird von der HANDELSBLATT MEDIA GROUP
gesponsert.


Wirtschaft ist nicht immer einfach. Deswegen lautet die Mission
der HANDELSBLATT MEDIA GROUP: „Wir möchten Menschen befähigen,
die Wirtschaft zu verstehen.“ Mit ihren Kernprodukten, dem
Handelsblatt und der WirtschaftsWoche, sowie 160.000 Abonnements,
15 Millionen Besuchern und 3 Milliarden Anfragen in einem Monat
leisten sie einen wichtigen Beitrag zur Orientierung und
Meinungsbildung in den Bereichen Wirtschaft und Politik und
machen damit einen ausgezeichneten Job.


Wenn du Teil dieser Mission sein möchtest, schau auf
https://engineeringkiosk.dev/handelsblatt vorbei und werde ein
Teil der HANDELSBLATT MEDIA GROUP.


********





Das schnelle Feedback zur Episode:


(top)  (geht
so)





Feedback


EngKiosk Community:
https://engineeringkiosk.dev/join-discord 

Email: stehtisch@engineeringkiosk.dev

LinkedIn: https://www.linkedin.com/company/engineering-kiosk/

Mastodon: https://podcasts.social/@engkiosk

Twitter: https://twitter.com/EngKiosk






Gerne behandeln wir auch euer Audio Feedback in einer der
nächsten Episoden, einfach die Audiodatei per Email
an stehtisch@engineeringkiosk.dev.



Links

r/explainlikeimfive:
https://www.reddit.com/r/explainlikeimfive/

Engineering Kiosk Episode #28 O(1), O(log n), O(n^2) - Ist
die Komplexität von Algorithmen im Entwickler-Alltag relevant?:
https://engineeringkiosk.dev/podcast/episode/28-o1-olog-n-on2-ist-die-komplexit%C3%A4t-von-algorithmen-im-entwickler-alltag-relevant/

ElasticSearch: https://www.elastic.co/de/elasticsearch

OpenSearch: https://opensearch.org/

Apache Lucene: https://lucene.apache.org/

Apache Solr: https://solr.apache.org/

meilisearch: https://www.meilisearch.com/

Alogolia: https://www.algolia.com/d

HackerNews indexiert von Algolia: https://hn.algolia.com/

Term Frequency-Inverse Document Frequency:
https://de.wikipedia.org/wiki/Tf-idf-Ma%C3%9F

Bidirectional Encoder Representations from Transformers
(BERT): https://en.wikipedia.org/wiki/BERT_(language_model)

Engineering Kiosk Episode #116 KI unterstützte Software
Entwicklung: Ein Reality Check mit Birgitta Böckeler von
Thoughtworks:
https://engineeringkiosk.dev/podcast/episode/116-ki-unterst%C3%BCtzte-software-entwicklung-ein-reality-check-mit-birgitta-b%C3%B6ckeler-von-thoughtworks/

Learning to Rank:
https://en.wikipedia.org/wiki/Learning_to_rank

Vector Space Model:
https://en.wikipedia.org/wiki/Vector_space_model

Inverted Index: https://en.wikipedia.org/wiki/Inverted_index

N-Gramm: https://de.wikipedia.org/wiki/N-Gramm

Suffixbaum: https://de.wikipedia.org/wiki/Suffixbaum

Trie (Präfixbaum): https://de.wikipedia.org/wiki/Trie




Sprungmarken

(00:00:00) Buzzword-Bingo bei modernen Suchen


(00:04:40) Die Komplexität moderner Such-Systeme


(00:05:55) Die Handelsblatt Media Group (Werbung)


(00:07:00) Die Komplexität moderner Such-Systeme


(00:09:58) Wie funktioniert High-Level eine Suchmaschine?


(00:11:04) Verarbeitung der Such-Daten durch Tokens: Sprache,
Stop-Words, Lemmatisierung, Stemming


(00:20:53) Zahlen als Such-Wörter, Embeddings und Bidirektionale
Encoder-Repräsentationen von Transformers (BERT)


(00:29:34) Speichern der Daten mit einem Index: Invertierter
Index und Suffixbäume


(00:43:07) Daten wirklich finden durchs Ranking: N-Grams,
TF/IDFrequency und Vector Space Model


(00:59:54) Wie wählt man ein gutes Such-System aus?


(01:04:20) Wie beeinflusst Generative AI die aktuellen
Suchsysteme und Sucht-Grundlagen?



Hosts

Wolfgang Gassler (https://mastodon.social/@woolf)

Andy Grunwald (https://twitter.com/andygrunwald)




Feedback

EngKiosk Community:
https://engineeringkiosk.dev/join-discord 

Email: stehtisch@engineeringkiosk.dev

LinkedIn: https://www.linkedin.com/company/engineering-kiosk/

Mastodon: https://podcasts.social/@engkiosk

Twitter: https://twitter.com/EngKiosk

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15
:
: