#201 Wie hart kann es sein, einen Link zu checken... mit Matthias Endler
1 Stunde 18 Minuten
Podcast
Podcaster
Beschreibung
vor 8 Monaten
Ein Klick – und nichts passiert. Statt der gewünschten Website
landet man im digitalen Nirwana: 404 Not Found. Jede:r kennt es,
niemand mag es. Doch was technisch im Hintergrund passiert, wenn
ein Link kaputt ist – und wie man das automatisch erkennen kann –
ist alles andere als simpel.
Denn Links sind weit mehr als nur HTTP-URLs. Sie können auf
Dateien, E-Mail-Adressen oder interne Dokumentfragmente zeigen.
Sie können sich über Weiterleitungen verändern, mit JavaScript
generiert werden oder nur unter bestimmten Bedingungen erreichbar
sein. Und genau das macht die automatische Überprüfung von Links
so komplex.
In dieser Episode sprechen wir mit Matthias Endler,
Rust-Consultant, Blogger und Core-Maintainer des
Open-Source-Linkcheckers Lychee. Was als Side Project begann, ist
heute im Einsatz bei Unternehmen wie Amazon und GitLab. Mit
Matthias diskutieren wir, wie Lychee aufgebaut ist, warum
Linkchecking so viele Edge Cases beinhaltet und warum es ohne
gutes Domain-Wissen oft unmöglich ist, die „richtige“ Antwort zu
erkennen.
Wir sprechen über die Rolle von HTTP-Statuscodes (inkl. selbst
erfundener Codes), Markdown vs. HTML Parsing, Redirect-Hölle, die
Tücken von GitHub APIs, wie Lychee Plattform-Spezialfälle wie
YouTube oder LinkedIn behandelt – und warum DOI-Links trotz
akademischer Standards gerne mal ins Leere laufen.
Bonus: Warum Matthias den Server einer Immobilienmaklerin am
Gewissen hat.
Unsere aktuellen Werbepartner findest du auf
https://engineeringkiosk.dev/partners
Das schnelle Feedback zur Episode:
(top) (geht
so)
Anregungen, Gedanken, Themen und Wünsche
Dein Feedback zählt! Erreiche uns über einen der folgenden Kanäle
…
EngKiosk Community:
https://engineeringkiosk.dev/join-discord
LinkedIn: https://www.linkedin.com/company/engineering-kiosk/
Email: stehtisch@engineeringkiosk.dev
Mastodon: https://podcasts.social/@engkiosk
Bluesky:
https://bsky.app/profile/engineeringkiosk.bsky.social
Instagram: https://www.instagram.com/engineeringkiosk/
Unterstütze den Engineering Kiosk
Wenn du uns etwas Gutes tun möchtest … Kaffee schmeckt uns
immer
Buy us a coffee: https://engineeringkiosk.dev/kaffee
Links
lychee: https://github.com/lycheeverse/lychee
Corrode Rust Consulting: https://corrode.dev/
Rust in Production Podcast: https://corrode.dev/podcast/
Matthias Endler Blog: https://endler.dev/
Engineering Kiosk Episode #172 Die kuriosesten
Versionsnummern bekannter Software:
https://engineeringkiosk.dev/podcast/episode/172-die-kuriosesten-versionsnummern-bekannter-software-mit-matthias-endler-von-rust-in-production/
Engineering Kiosk Episode #98 Der Hype um Rust:
https://engineeringkiosk.dev/podcast/episode/98-der-hype-um-rust-mit-matthias-endler/
Open Podcast: https://openpodcast.dev/
Static Analysis Tools:
https://github.com/analysis-tools-dev/static-analysis
Million Dollor Homepage:
http://www.milliondollarhomepage.com/
cURL: https://curl.se/
DOI: https://www.doi.org/
️.ws redirected nach https://www.budweiser.com/en
Sprungmarken
(00:00:00) Die Komplexität von Links und Link-Checking mit
Matthias Endler
(00:05:34) Was ist ein Link-Checker?
(00:05:58) Info/Werbung
(00:06:58) Was ist ein Link-Checker?
(00:23:57) Technische Architektur: Extraktoren, Streams &
Channels und Edge-Cases
(00:40:00) Request-Bodies, JavaScript und Weiterleitungen
(00:47:55) Warum eigentlich nicht cURL?
(00:52:37) DOI-Links, interne IP-Adressen und S3-Bucket-Kosten
(01:04:18) Verbreitung des Link-Checkers, Projekt Start und
Motivation
Hosts
Wolfgang Gassler (https://gassler.dev)
Andy Grunwald (https://andygrunwald.com/)
Community
Diskutiere mit uns und vielen anderen Tech-Spezialist⋅innen in
unserer Engineering Kiosk Community unter
https://engineeringkiosk.dev/join-discord
Weitere Episoden
1 Stunde 15 Minuten
vor 1 Woche
1 Stunde 16 Minuten
vor 2 Wochen
1 Stunde 6 Minuten
vor 3 Wochen
1 Stunde 14 Minuten
vor 1 Monat
In Podcasts werben
Kommentare (0)