Shannon Information

Shannon Information

Modellansatz 139
35 Minuten
Podcast
Podcaster

Beschreibung

vor 6 Jahren

Paul Darscheid gehört der KIT-Hochschulgruppe Engineers without
borders an und arbeitet dort konkret in einer Projektgruppe mit,
die im ländlichen Raum von Äthopien einen Brunnen bohrt. Um dafür
die Nachhaltigkeit des Grundwasserzuflusses zu klären, suchte er
den Kontakt zu Uwe Ehret vom Institut für Wasser und
Gewässerentwicklung, Bereich Hydrologie. Die spannenden Themen
dort fesselten ihn so sehr, dass schließlich auch seine
Masterarbeit in Zusammenarbeit mit der Hydrologie entstand.


Zum Spektrum der Fragen der Hydrologen gehören sehr viele
unterschiedliche Themen. Man kann summarisch sagen: alles zum
Thema Wasserkreislauf, was nicht die Meteorologen beantworten.
Konkret geht es z.B. um Niederschlagsabfluss oder
Hochwasservorhersage. Eine Frage, die dabei immer wieder
auftaucht ist: Wo steckt die meiste Information in den
Datensätzen oder den erstellten Modellen? Ein typischer
Anwendungsfall schließt beispielsweise aus den Flußpegelstände
von unterschiedlichen Flüssen im gleichen System, den
Niederschlagmessungen, der Lufttemperatur, Schneehöhen,
Bodenfeuchte und Bodenbeschaffenheit auf die Zielgröße - einen
konkreten Flusspegelstand. Ein Zusammenhang aller Daten mit der
Zielgröße ist klar, aber wie er konkret aussieht ist schwerer zu
fassen.


Informationsflüsse quantifizieren in diesem Kontext, welche
Messreihen die meisten Informationen über die Zielgröße liefern.
Daneben stellt sich auch die Frage: Kann ich einmal gewonnene
Konzepte auf andere System übertragen? Kann ich mir dort sparen
noch einmal sehr viel zu messen, also mit weniger Daten
auskommen?


Am Anfang steht dann die Frage: Was ist Information? Das Konzept
für das sich Paul Darscheid entschieden hat ist die Shannon
Entropie - ein Maß für Unsicherheit aufgrund der vorliegenden
Streuung in den Daten. Tatsächlich besteht ein Zusammenhang zum
physikalischen Begriff der Entropie.


Die unterstellte Verteilung eines Datensatzes wird zur Grundlage
auf der Größen wie Informationssicherheit und andere abgeleitet
werden.


Die Natur als Meßdaten führt auf eine diskrete Verteilung, die
evtl. noch vergröbert wird durch Wählen von Stufen (bins)
innerhalb derer der Unterschied als nicht relevant angesehen
wird. Für eine Beobachtung stellt sich die Frage: Wieviel
Information steckt in dieser zusätzlichen Messung? Für sehr
wahrscheinliche Ereignisse ist es kaum zusätzliches Wissen, weil
es mit vorherigen Vermutungen übereinstimmt. Für ein
unwahrscheinliches Ereignis ist die zusätzlich gewonnene
Information sehr groß.


Ein Problem ist auch, dass die diskrete Verteilung aus
beobachteten Daten gewonnen wird - d.h. man muss eine Schätzung
der Verteilung vornehmen. Darauf aufbauend ist es wichtig zu
wissen, wie mit Teilmengen des Datensatzes die geschätzte
Verteilung approximiert werden kann. Die Unsicherheit hierbei
kommt durch Streuung der Daten und durch den vorhandenen
Ausschnitt der Realität, der in den Daten eingefangen wird. Wie
sehr beeinflusst die Größe des Datensatzes die zutreffende
Schätzung der Verteilung?


Dies lässt sich mir der Kullberg-Leibler-Divergenz beschreiben,
die die Unsicherheit durch Unwissen über die Verteilung misst.
Die Kreuzenthropie addiert die Unsicherheiten der Shannon
Entropie und der Kullberg-Leibler Divergenz und ist damit ein Maß
für die Gesamtunsicherheit der Schätzung der Verteilung. Hierbei
erleichtern die logarithmischen Maße das Rechnen - Produkte
werden zu Summen.

Literatur und weiterführende Informationen

Brunnenprojekt Jello Adancho: Wir versorgen ein Dorf in
Äthiopien mit sauberem Trinkwasser

Claude Elwood Shannon: The Mathematical Theory of
Communication, The Bell System Technical Journal, Vol. 27, pp.
379–423, 623–656, July, October, 1948.

Grassberger: Entropy Estimates from Insufficient Samplings,
arXiv:physics/0307138, 2003.

Thomas M. Cover and Joy A. Thomas. Elements of Information
Theory, (Wiley Series in Telecommunications and Signal
Processing). Wiley-Interscience, 2006.

Vijay P. Singh. Entropy theory and its applications in
environmental and water engineering, Wiley-Blackwell, 2013.

Janusz Miskiewicz. Improving quality of sample entropy
estimation for continuous distribution probability functions,
Physica A: Statistical Mechanics and its Applications,
450(C):473–485, 2016.

Ilias G. Pechlivanidis, Bethanna Jackson, Hilary Mcmillan,
and Hoshin V. Gupta. Robust informational entropy-based
descriptors of flow in catchment hydrology, Hydrological Science
Journal, 61(1):1–18, 2016.


Podcasts

S. Hemri: Ensemblevorhersagen, Gespräch mit G. Thäter im
Modellansatz Podcast, Folge 96, Fakultät für Mathematik,
Karlsruher Institut für Technologie (KIT), 2016.

Weitere Episoden

Wahlmodelle
16 Minuten
vor 2 Monaten
Podcast Lehre
1 Stunde 42 Minuten
vor 7 Monaten
Instandhaltung
50 Minuten
vor 1 Jahr
CSE
42 Minuten
vor 1 Jahr
Mentoring
35 Minuten
vor 1 Jahr
15
15
:
: