AI 101
Was ist das Bayes-Theorem?
Wenn Sie etwas über Datenwissenschaft oder maschinelles Lernen gelernt haben, besteht eine gute Chance, dass Sie davon gehört haben Begriff „Bayes-Theorem“ oder ein „Bayes-Klassifikator“. Diese Konzepte können etwas verwirrend sein, insbesondere wenn man Wahrscheinlichkeit nicht aus der traditionellen, frequentistischen Statistikperspektive betrachtet. Dieser Artikel versucht, die Prinzipien des Bayes-Theorems und seine Anwendung im maschinellen Lernen zu erklären.
Was ist das Bayes-Theorem?
Das Bayes-Theorem ist eine Methode von Berechnung der bedingten Wahrscheinlichkeit. Die traditionelle Methode zur Berechnung der bedingten Wahrscheinlichkeit (der Wahrscheinlichkeit, dass ein Ereignis eintritt, wenn ein anderes Ereignis eintritt) besteht darin, die bedingte Wahrscheinlichkeitsformel zu verwenden, die gemeinsame Wahrscheinlichkeit des gleichzeitigen Eintretens von Ereignis eins und zwei zu berechnen und diese dann zu dividieren durch die Wahrscheinlichkeit, dass Ereignis zwei eintritt. Die bedingte Wahrscheinlichkeit kann jedoch auch auf etwas andere Weise mithilfe des Bayes-Theorems berechnet werden.
Bei der Berechnung der bedingten Wahrscheinlichkeit mit dem Bayes-Theorem verwenden Sie die folgenden Schritte:
- Bestimmen Sie die Wahrscheinlichkeit, dass Bedingung B wahr ist, unter der Annahme, dass Bedingung A wahr ist.
- Bestimmen Sie die Wahrscheinlichkeit, dass Ereignis A wahr ist.
- Multiplizieren Sie die beiden Wahrscheinlichkeiten miteinander.
- Teilen Sie durch die Wahrscheinlichkeit des Eintretens von Ereignis B.
Das bedeutet, dass die Formel für das Bayes-Theorem wie folgt ausgedrückt werden könnte:
P(A|B) = P(B|A)*P(A) / P(B)
Die Berechnung der bedingten Wahrscheinlichkeit auf diese Weise ist besonders nützlich, wenn die umgekehrte bedingte Wahrscheinlichkeit leicht berechnet werden kann oder wenn die Berechnung der gemeinsamen Wahrscheinlichkeit zu schwierig wäre.
Beispiel des Bayes-Theorems
Dies könnte einfacher zu interpretieren sein, wenn wir uns etwas Zeit nehmen, um einen zu betrachten Beispiel wie Sie das Bayessche Denken und das Bayes-Theorem anwenden würden. Nehmen wir an, Sie spielen ein einfaches Spiel, bei dem Ihnen mehrere Teilnehmer eine Geschichte erzählen und Sie herausfinden müssen, welcher der Teilnehmer Sie anlügt. Füllen wir die Gleichung für das Bayes-Theorem mit den Variablen in diesem hypothetischen Szenario aus.
Wir versuchen vorherzusagen, ob jede einzelne Person im Spiel lügt oder die Wahrheit sagt. Wenn es also neben Ihnen noch drei Spieler gibt, können die kategorialen Variablen als A1, A2 und A3 ausgedrückt werden. Der Beweis für ihre Lügen/Wahrheit ist ihr Verhalten. So wie beim Pokern würden Sie nach bestimmten Hinweisen darauf suchen, dass eine Person lügt, und diese als Informationshäppchen für Ihre Vermutung verwenden. Oder wenn Sie sie befragen dürften, wäre das ein Beweis dafür, dass ihre Geschichte nicht stimmt. Wir können den Beweis dafür, dass eine Person lügt, als B darstellen.
Um es klar auszudrücken: Unser Ziel ist es, die Wahrscheinlichkeit vorherzusagen (A lügt/sagt die Wahrheit, angesichts der Beweise für sein Verhalten). Dazu möchten wir die Wahrscheinlichkeit von B bei A ermitteln oder die Wahrscheinlichkeit, dass ihr Verhalten auftritt, wenn die Person wirklich lügt oder die Wahrheit sagt. Sie versuchen herauszufinden, unter welchen Bedingungen das beobachtete Verhalten am sinnvollsten wäre. Wenn Sie drei Verhaltensweisen beobachten, würden Sie die Berechnung für jedes Verhalten durchführen. Zum Beispiel P(B1, B2, B3 * A). Sie würden dies dann für jedes Vorkommen von A/für jede Person im Spiel außer Ihnen selbst tun. Das ist dieser Teil der obigen Gleichung:
P(B1, B2, B3,|A) * P|A
Zum Schluss dividieren wir das einfach durch die Wahrscheinlichkeit von B.
Wenn wir Beweise für die tatsächlichen Wahrscheinlichkeiten in dieser Gleichung erhalten würden, würden wir unser Wahrscheinlichkeitsmodell unter Berücksichtigung der neuen Beweise neu erstellen. Dies wird als Aktualisierung Ihrer Prior-Werte bezeichnet, da Sie Ihre Annahmen über die Prior-Wahrscheinlichkeit des Eintretens der beobachteten Ereignisse aktualisieren.
Anwendungen des maschinellen Lernens für das Bayes-Theorem
Die häufigste Anwendung des Bayes-Theorems beim maschinellen Lernen ist der Naive-Bayes-Algorithmus.
Naive Bayes wird für die Klassifizierung sowohl von binären als auch von Mehrklassen-Datensätzen verwendet. Naive Bayes hat seinen Namen, weil die den Beweisen/Attributen des Zeugen zugewiesenen Werte – Bs in P(B1, B2, B3 * A) – als unabhängig angenommen werden voneinander. Um das Modell zu vereinfachen und Berechnungen zu ermöglichen, wird davon ausgegangen, dass sich diese Attribute nicht gegenseitig beeinflussen, anstatt sich an der komplexen Aufgabe zu versuchen, die Beziehungen zwischen den einzelnen Attributen zu berechnen. Trotz dieses vereinfachten Modells schneidet Naive Bayes als Klassifizierungsalgorithmus recht gut ab, auch wenn diese Annahme wahrscheinlich nicht zutrifft (was meistens der Fall ist).
Es gibt auch häufig verwendete Varianten des Naive-Bayes-Klassifikators wie Multinomial Naive Bayes, Bernoulli Naive Bayes und Gaussian Naive Bayes.
Multinomiale Naive Bayes Algorithmen werden häufig zur Klassifizierung von Dokumenten verwendet, da sie die Häufigkeit von Wörtern in einem Dokument effektiv interpretieren können.
Bernoulli Naive Bayes funktioniert ähnlich wie Multinomial Naive Bayes, aber die vom Algorithmus gemachten Vorhersagen sind boolesche Werte. Das bedeutet, dass bei der Vorhersage einer Klasse die Werte binär, nein oder ja, sind. Im Bereich der Textklassifizierung würde ein Bernoulli-Naive-Bayes-Algorithmus den Parametern ein Ja oder Nein zuweisen, je nachdem, ob ein Wort im Textdokument gefunden wird oder nicht.
Wenn der Wert der Prädiktoren/Merkmale nicht diskret, sondern kontinuierlich ist, Gaußscher naiver Bayes kann verwendet werden. Es wird davon ausgegangen, dass die Werte der kontinuierlichen Merkmale einer Gaußschen Verteilung entnommen wurden.






