Warum Backtesting der beste Marketing-Trick der Finanzindustrie ist

"Unser Backtesting zeigt: Diese innovative Strategie hat den Markt über die letzten 10 Jahre um durchschnittlich 3 % pro Jahr geschlagen!"

Diese und ähnliche Versprechen klingen verlockend und werden durch scheinbar unumstößliche Fakten untermauert. Im Mittelpunkt steht: Der Backtest.

Backtesting ist eine theoretische Rückrechnung, wie eine Strategie funktioniert hätte (und der nicht formulierten, aber angedeuteten Schlussfolgerung, dass es vermutlich so weitergeht).

Dieser Backtest ist das wohl effektivste Marketing-Instrument der Finanzindustrie. Und leider oft nicht mehr als ein Trick, der Anleger in die Irre führt.

Warum? Dafür habe ich 10 Gründe. Und ich zeige dir, was uns ein Backtest verraten kann und was nicht und wie du sinnvolle Erkenntnisse aus Backtesting ziehen kannst.

More...

10 Gründe, warum du einem Backtest nicht trauen solltest

Fonds, Berater und Medien nutzen Backtests gern, um ihre Versprechen - und meistens auch ihre Produkte - mit Fakten zu untermauern.

Und während Backtests in einigen Fällen Mehrwert liefern können (am Ende dazu mehr), gibt es 10 Gründe, warum diese dich meistens täuschen. Einige dieser Gründe treffen nicht auf jeden Backtest zu, solltest du aber immer im Hinterkopf behalten.

#1 - Data Snooping

Mit genug Zeit, genug Versuchen und genug Kreativität kann alles in den Daten "bewiesen" werden - gerade im Zeitalter von Big Data und KI an den Finanzmärkten.

Nicht umsonst wurden bis heute - je nach Zählmethode - 97 bzw. über 330 verschiedene Faktoren entdeckt, die angeblich zu einer Überrendite führen sollen.

Wir haben heute eine Unmenge an Daten: Zahlreiche Aktienmärkte, die jeweils Daten von mehreren Jahrzehnten, teilweise sogar Jahrhunderten, bieten. Wer ein Muster darin entdecken will, schafft das auch - ganz egal, ob es sich um Zufall oder um einen wirklich nachhaltigen Faktor zur Überrendite handelt.

Und ein Backtest ist für die Marketing-Abteilung von Fonds oder Beratern immer noch gefundenes Fressen.

#2 - Der falsche Zeitraum

Die Wahl des Testzeitraums ist nicht einfach.

Wie lang ist der optimale Testzeitraum?

Ein Backtest über mehr als 100 Jahre kann Zeiten inkludieren, die überhaupt nicht mehr repräsentativ für die heutige Zeit sind.

Ein zu kurzer Zeitraum dagegen läuft in Gefahr nur auf einem Trend zu beruhen, der nicht dauerhaft in den Daten entdeckt werden kann. Es braucht mehrere unterschiedliche Wirtschaftszyklen, um unterschiedliche Faktoren zu erkennen und bewerten zu können. Dazu gehören Einflüsse wie Zinsniveaus, Einkommensentwicklungen, Inflationen, Kriege, Handelsembargos und mehr.

Ein Beispiel: Aktuell gibt es einige Backtests, die Strategien basierend auf Qualitäts- und Growthkriterien (bspw. das Gewinnwachstum, Umsatzwachstum, prognostiziertes Wachstum, Bruttomargen,...) über die letzten 15 Jahre testen. Das Ergebnis: Eine klare Überrendite.

Ist das verwunderlich? Nein.

Heute, im Nachhinein, wissen wir, dass diese Strategie funktioniert hat. Dadurch werden überwiegend Technologie-Aktien ausgewählt, die in diesem Zeitraum ihre stärkste Phase hatten. Außerdem konnten diese Aktien sich durch die - von niemandem vorhergesehene - Niedrigzinsphase günstig verschulden und länger Verluste aushalten, als man es für möglich gehalten hätte.

Aber nicht nur der Zeitraum, sondern auch der Zeitpunkt ist entscheidend.

Der Zeitpunkt hat enormen Einfluss

Hätte man die gleiche Strategie bis zur Dotcom-Blase ausgewertet, wäre das Ergebnis ein ganz anderes. Hätte jemand das Ergebnis und die Umstände der Niedrigzinsphase nach der Dotcom-Blase vorhergesagt, hätte ihm kaum jemand geglaubt.

Die Kunst ist es, diese Strategie zu erkennen, bevor diese funktioniert - was nach der Dotcom-Blase die wenigsten für möglich hielten.

Eine Strategie aufzusetzen, die man im Nachhinein mit einem Backtest über die letzten 10 bis 15 Jahre testet, ist keine Kunst, sondern ein Trick.

Aber auch bei einem längeren Zeitraum kann der Zeitpunkt starke Auswirkungen haben.

Pim van Vliet hat ein vielbeachtetes Buch mit dem Titel "High Returns from Low Risk" veröffentlicht. Primär stellt er die These auf, dass Aktien, die wenig schwanken, eine bessere Rendite liefern.

Umsetzen kannst du diese Strategie übrigens u.a. automatisiert mit Smart Beta ETFs.

Die folgende Grafik zeigt das Ergebnis:

High Returns from Low Risks - Backtest

Quelle: paradoxinvesting.com/deutsch/

Hier gibt es zwei Auffälligkeiten. Eine bezieht sich auf den Zeitraum, die andere auf den Vergleich und die Schlussfolgerungen daraus (worauf wir gleich in #9 zu sprechen kommen)

Zum Zeitraum: Es wird eine Strategie getestet, bei der Aktien mit möglichst geringer Schwankung herangezogen und gegen Aktien mit hoher Schwankung getestet werden. 

Wann beginnt der Test?

1929, kurz vor dem größten Aktiencrash, den wir bis heute kennen. Kein Wunder, dass wenig schwankende Aktien dort besser abschneiden.

Du siehst in der Grafik: Direkt nach Beginn des Zeitraums ist schon gewaltiger Unterschied zwischen beiden Strategien durch den Crash.

Im März 1933 hat die wenig-schwankende Variante, bei einem Startkapital von 100 USD, noch einen Wert 50,60 USD, das riskantere Portfolio nur noch 6,82 USD. Das bedeutet: Die konservative Strategie hat direkt zu Beginn des Backtests den 7-fachen Wert.

Ist es also methodisch korrekt, den Backtest direkt vor dem größten Crash der Geschichte starten zu lassen? Wie sähe das Ergebnis aus, wenn man nur 4 Jahre später begonnen hätte?

Vermutlich wäre die Tendenz die gleiche, jedoch deutlich schwächer.

#3 - Fehler in der Umsetzung

Ein Backtest klingt einfacher als er in der Praxis ist. Es gibt einige Backtests, vor allem die wissenschaftlichen, die diese Fehler nicht machen (wobei es auch dort Ausnahmen gibt). Diese Fehler zeigen aber, dass es mehr braucht als nur ein Tool und 15 Minuten, um einen validen Backtest aufzusetzen.

Fehler 1: Der Look-ahead bias.

Der Look-ahead bias ("vorausschauende Verzerrung") tritt dann auf, wenn eine Information bei der Aktienauswahl als gegeben angenommen wird, obwohl diese nicht verfügbar war.

Beispiel: Ein Backtest könnte auf dem Kurs-Gewinn-Verhältnis (KGV) beruhen und unter anderem das KGV einer Aktie für das Jahr 2018 heranziehen. Basierend auf dem 2018er KGV wird am 1.01.2019 eine Aktienauswahl durchgeführt.

Das Problem: Der Gewinn wird erst Wochen oder Monate später veröffentlicht und nachträglich eingetragen. Zum 1.01.2019 kannte man das KGV also noch gar nicht.

Fehler 2: Der Survivorship bias.

Jemand, der naiv einen Backtest innerhalb des DAX30-Universums aufsetzt, könnte schnell einen Fehler machen. Den Survivorshop Bias ("Überlebensillusion").

Er nimmt alle Aktien, die aktuell im DAX sind, und testet damit seine Strategie. Was könnte schiefgehen?

Es gibt Aktien, die vor ein paar Jahren im DAX waren, jetzt aber entweder insolvent oder in einen kleineren Index, bspw. den MDax, abgestiegen sind. In beiden Fällen geht das in der Regel mit fallenden Kursen einher.

Wenn der Backtest auf dem aktuellen Aktienuniversum beruht und die Aktien, die wegen schlechter Entwicklung nicht im Universum enthalten sind, rausfallen, wird der Test logischerweise enorm verzerrt.

Auch die meisten Leser von wissenschaftlichen Studien würden annehmen, dass die Datenbank der genutzten Fakten korrekt und vollständig wäre. Fangjian Fu zeigt in seinem Paper, dass der CRSP Datensatz in 90% der Fälle nicht die monatliche Rendite der Aktie, die in dem jeweiligen Monat gedelistet (= aus dem Index genommen) wurde, rausrechnet. Die Renditen dieser Aktien sind überwiegend negativ (-38% in dem Paper) und damit ein Beispiel für den Survivorship Bias.

#4 - Korrelation ≠ Kausalität

Im Beitrag "Investieren mit künstlicher Intelligenz" haben wir bereits drüber gesprochen: Korrelation ist nicht immer gleich Kausalität.

So sind die Arbeitslosenraten in den USA stetig gesunken, seit Britney Spears das Lied "Work Bitch" veröffentlicht hat. Korrelation oder Kausalität? 😉

Ein anderes Beispiel betrifft die Überrendite von Dividendenstrategien, bei denen Aktien mit hoher Dividendenrendite ausgewählt werden. Oft wird diesen eine überdurchschnittlich hohe Gesamtrendite zugesprochen (was sich auch in den Daten überwiegend erkennen lässt). Aber ist der Grund dafür wirklich die Dividendenrendite?

Vielleicht sind es die Gewinne generell und damit der Value-Faktor.

Die Dividendenrendite berechnet sich aus den ausgeschütteten Gewinnen im Verhältnis zum Aktienkurs. Aber ein ähnlicher Effekt ergibt sich, wenn man die gesamten Gewinne im Verhältnis zum Aktienkurs berechnet. Meint man mit Dividenden-Aktien also eigentlich Value-Aktien?

Oder ist es eigentlich die Payout Ratio, also die Ausschüttungsquote?

Die folgende Grafik wirft eine Frage auf: Stammt die Überrendite bei der Auswahl der Dividendenrendite nicht von der Dividendenrendite selbst, sondern von der Ausschüttungsquote?

Warum Backtesting der beste Marketing-Trick der Finanzindustrie ist

Gleichzeitig, je weiter man in der Grafik nach unten rechts geht, ist ein niedriges KGV vorhanden - womit wieder die Frage auftaucht, ob doch das KGV und nicht die Dividendenrendite hinter den höheren Renditen steckt.

Diese Beispiele zeigen: Korrelation ist nicht gleich Kausalität.

#5 - Kaufnebenkosten

Jedes Mal, wenn du ein Wertpapier kaufst und verkaufst und eine Aktie handeln willst, entstehen Kosten. Manchmal auch dann, wenn du ein Wertpapier nur hältst.

Dazu gehören Transaktionskosten, der Spread und auch Steuern, wenn du im Gewinn verkaufst.

Diese Kosten sind dazu noch oft individuell, da sie von deinem Volumen, einem schwankenden Spread und deinem individuellen Steuersatz (je nach Land, Freibetrag und anderen Investitionen) abhängen.

Einige Backtests berücksichtigen diese Kosten gar nicht, was gerade bei hohem Handelsvolumen zu gute Ergebnisse ausspuckt. Andere Backtests berücksichtigen diese mit einer Pauschale, die sich vermutlich von deiner Situation - positiv oder negativ - unterscheiden wird.

#6 - Die Rebalancing-Annahme

Alle Backtests beinhalten eine Form des Rebalancings, also ein Wiederherstellen der gewünschten Strategie nach einer bestimmten Periode. Wer beispielsweise eine Anlagestrategie verfolgt, nach der Aktien nach dem KGV ausgewählt werden sollen, muss sein Depot regelmäßig überprüfen und Aktien austauschen.

Oft wird dieses Rebalancing jährlich am 31. Dezember vorgenommen. Wenn der Backtest valide ist, sollten wir annehmen, dass der Zeitpunkt des Rebalancings keinen starken Einfluss haben sollte. Es sollte egal sein, ob das Rebalancing am 31.12., 3.04. oder 20.06. eines Jahres vorgenommen wird.

Der Indexlieferant MSCI hat in einem Paper verglichen, wie der hauseigene Value Weighted World Index, der gegenüber dem normalen MSCI World Index eine bessere Rendite liefern soll, über 14 Jahre (bis November 2010) abschneiden würde, wenn er an anderen Monatsenden als im Dezember neu zusammengestellt werden würde.


∅ jährliche Rendite

MSCI World Index

5,69 %

Rebalancing im Februar

7,05 %

Rebalancing im März

6,69 %

Rebalancing im Mai

6,00 %

Rebalancing im August

6,00 %

Rebalancing im November

6,21 %

Wir sehen: Die Überrendite gegenüber dem normalen Index bleibt, für die Monate Mai und August würde sie aber nur noch sehr gering ausfallen.

(MSCI schlussfolgert daraus übrigens, dass ein halbjährliches Rebalancing diese Schwankungen bei überschaubarem Mehraufwand reduziert.)

Das macht einen Backtest also nicht per se ungültig, es zeigt aber, dass die Wahl des Rebalancing-Zeitpunkts einen starken Einfluss haben kann.

#7 - Homo Oeconomicus

Der Homo Oeconomicus ist in den Wirtschaftswissenschaften eine Person, die immer vollständig rational handelt.

Kurz gesagt: Eine Fantasieperson. Mittlerweile wissen wir, dass wir zahlreichen kognitiven Verzerrungen und Denkfehlern unterliegen.

Ein Backtest simuliert ein absolut rationales Verhalten: Es wird in einen klar definierten Korb an Aktien zu einem bestimmten Zeitpunkt investiert, welcher in penibelster Regelmäßigkeit - egal, in welcher Börsenphase und Lebenssituation -  angepasst wird.

Die Praxis sieht anders aus.

Anleger handeln emotional. Lebenssituationen ändern sich. Mal wird Geld rausgezogen, mal wird zusätzliches Geld investiert. Mal passiert das Rebalancing früher, mal später oder gar nicht. Oft gibt es noch andere Investitionen, die nebenbei laufen.

Und vielleicht schlägt der Backtest Aktien vor, die tagtäglich in den Medien runtergemacht werden und kurz vor einer Insolvenz stehen. Eine von 10 Aktien schafft womöglich den Turnaround und entschädigt damit für die ausfallenden Renditen der anderen 9 Aktien. Du wirst in dieser Phase aber enorm unruhig schlafen.

Und genau das führt zu einem weiteren Problem:

#8 - Backtest nutzt das Netz, der Anleger die Angel

Backtests beruhen auf einem Korb an Aktien, der, basierend auf ausgewählten Faktoren, zusammengestellt wird. 

Dieser Korb kann aus einer beliebigen Anzahl, also bspw. aus  20, 50, 100 oder 1.000, verschiedener Aktien bestehen. Darauf beruht also auch die Berechnung.

Mit Smart Beta ETFs ist das kein Problem. Kaum ein Anleger, der in einzelne Aktien investiert, wird allerdings genau diesen Korb an Aktien kaufen, sondern in der Regel den Faktor auf die Auswahl einzelner Aktien übertragen.

Anders gesagt: Im Backtest wird das Netz ausgeworfen und viele Aktien gekauft. Der Anleger, der kein Homo Oeconomicus ist und nicht unendlich viel Kapital und Zeit besitzt, nutzt in der Regel aber die Angel und wählt selektiv, basierend auf dem entdeckten Faktor, aus.

Das ist ein sinnvoller Grundgedanke. Dabei gibt es aber zwei Probleme:

1. Der ursprüngliche Backtest wird nun deutlich mehr dem Zufall überlassen.

2. Einige Strategie, wie die eben in Punkt #7 vorgestellte, funktionieren nur im Durchschnitt. Das bedeutet: Wenn 9 Aktien ausfallen und nur 1 gewinnt, gehst du ein hohes Risiko ein, wenn du daraus nur 5 Aktien auswählst.

Ja, es ist besser, wenn eine Aktienauswahl auf fundierten Kriterien beruht. Es ist allerdings weit weg von einer garantierten Überrendite und kann - gerade bei extremeren und risikoreicheren Strategien - zu stark abweichenden Ergebnissen führen.

#9 - Die Leerverkauf-Annahme

Viele wissenschaftliche Studien benutzen bei der Renditeermittlung eines Faktors die Long-vs.-short-Methode. Das bedeutet:

Die Aktien werden nach einem Kriterium, bspw. der durchschnittlichen Schwankung (= Volatilität), in 10 Dezile (die je 10% der Aktien enthalten) eingeteilt.

Das erste Dezil beinhaltet die Aktien, die am wenigsten schwanken. Die Aktien im 10. Dezil schwanken am stärksten.

Am relevantesten ist für uns Privatanleger die Frage: "Erhalte ich eine höhere Rendite, wenn ich Aktien mit einem hohen Faktor XY auswähle?"

Die Frage, die viele Studien beantworten, ist aber: "Erhalte ich eine höhere Rendite, wenn ich Aktien mit einem hohen Faktor XY auswähle und gleichzeitig Aktien mit einem niedrigen Faktor XY (leer)verkaufe?"

(Bei einem Leerverkauf wird auf fallende Kurse gesetzt. Sprich: Bei fallenden Kursen profitiert der Anleger, der den Leerverkauf durchführt.)

Für die meisten Anleger ist nur das klassische "Long"-Investieren interessant, also das Setzen auf steigende Kurse. Die Wissenschaft berechnet aber gern die Renditedifferenz, die entsteht, wenn gleichzeitig die Aktien, die nach dem Faktor schlecht abschneiden, leerverkauft werden.

​Ein gutes Beispiel für das Investieren in Aktien nach ihrer Volatilität liefern Daten von Riley (2012) in seinem Paper "Dissecting the Low Volatility Anomaly":

Dezil

Portfolio-Renditen*

1 (niedrig)

1,58 %

2

2,32 %

3

1,24 %

4

-0,71 %

5

5,00 %

6

1,75 %

7

0,93 %

8

2,26 %

9

-6,31 %

10 (hoch)

-12,02 %

1 - 10

13,6 %

* sortiert nach der Volatilität der vergangenen Renditen

Die Strategie (1 - 10) liefert eine Überrendite von 13,6 % pro Jahr. Aber was beweist das?

Wir sehen: Aus Renditesicht ist es ziemlich egal, ob Aktien wenig oder mittel schwanken. Entscheidend ist, dass die am stärksten schwankenden Aktien (Dezil 9 und 10) im Durchschnitt schlechte Renditen liefern.

Die Erkenntnisse sind nicht weniger spannend und können wir nutzen. Es ist aber wichtig, die richtigen Schlussfolgerungen daraus zu ziehen. Das Erzielen einer jährlichen Überrendite von 13,6% durch diese Strategie gehört für die meisten Privatanleger nicht dazu.

#10 - Der Backtest zerstört sich selbst

Anhänger der Effizienzmarkthypothese, gehen davon aus, dass alle verfügbaren Informationen in den Aktienkursen eingepreist sind. Diese stellen gern eine Frage:

"Wenn alle davon wissen, dass ein Faktor eine Überrendite liefert und Aktien danach kaufen - warum sollte der Faktor dann nach Veröffentlichung noch funktionieren?"

Diese Frage ist sehr berechtigt.

Antworten darauf könnten sein, dass (a) mögliche Zusatzrenditen auf höherem Risiko beruhen und dadurch dauerhaft gerechtfertigt sind, (b) psychologische Verzerrungen im Spiel sind, die immer wieder auftreten und vom Markt nicht korrigiert werden oder (c) diese Strategien dann tatsächlich nicht mehr funktionieren.

Zhijian Huang (2009) hat die Renditen von unterschiedlichen Faktoren vor und nach der "Entdeckung" gemessen. Einige seiner Erkenntnisse:

Das 1981 entdeckte Size-Premium sank von 11,5 % p.a. auf 0,7 % p.a. Das Dividenden-Premium fiel von 2,7 % auf 0,9 %. Alle haben zumindest tendenziell ihre Vorteile beibehalten. Einige sind im Umfang gesunken, einige gleich groß geblieben. McLean & Pontiff (2012) kommen zur Erkenntnis, dass 50% der initial gemessenen Outperformance bestehen bleibt.

Warum nicht alles schlecht ist: So hilft dir Backtesting

Du siehst: Es gibt einige Probleme bei Backtests, die viele davon unbrauchbar machen. Viele, aber nicht alle. Und einige sind nicht zwangsweise unbrauchbar, sondern werden - wie das Volatilitätsbeispiel in #9 zeigt - nur falsch interpretiert.

Einige Backtests können dir wirklich Mehrwert liefern. Nicht zuletzt können sie, richtig aufgesetzt und ausgewertet, interessante Prinzipien und Wirkungsweisen der Aktienmärkte verdeutlichen.

So gibt es einige Faktoren, die sich als sehr robust erwiesen haben, die auch durch Smart Beta ETFs einfach für Privatanleger integrierbar sind. Einige Anlagestrategien haben erfolgreiche Anleger geprägt und konnten über unterschiedliche Regionen und Zeiträume nachgewiesen werden.

Stelle dir folgende Fragen, um zu beurteilen, ob ein Backtest dir wirklich weiterhilft.

Wird ein repräsentativer Zeitraum abgebildet?

Ein Faktor, der über alle möglichen Zeiträume, Zeitpunkte und Regionen bewiesen werden kann, hat gute Chancen tatsächlich ein guter Indikator zu sein. Deutlich besser als ein Faktor, zu dem selbst die Fondsindustrie kein Muster in den Daten findet. 😉

Ist er methodisch korrekt aufgesetzt?

Kein Survivorship Bias, Look-ahead Bias oder andere sollten den Test verfälschen.

Wird er möglichst ohne Interessenskonflikte veröffentlicht?

Ein Backtest, den ein Fonds zu seiner Strategie oder ein Berater zu seinem selbst ausgedachten Faktor veröffentlicht, unterliegt schnell einem Interessenskonflikt.

Das bedeutet nicht, dass der Backtest falsch ist. Du solltest dann nur genau auf die anderen Punkte daraus achten, wenn du keinem Marketing-Trick erliegen willst, und genau schauen, wie dir der Backtest verkauft wird.

Werden die richtigen Schlussfolgerungen daraus gezogen?

#1 - Korrelation ist nicht gleich Kausalität.

#2 - Es gibt mittlerweile unzählige Faktoren, die mehr Rendite versprechen. Nur die wenigsten sind wirklich robust.

#3 - Faktoren können nach Veröffentlichung in ihrer Intensität abnehmen. 

#4 - Das, was bei einem Korb an Aktien funktioniert, ist keine Garantie für einzelne Aktien, kann aber ein Indikator sein.

#5 - Die Renditeberechnung (long vs. short) kann von deiner Strategie (meistens nur long) abweichen und damit auch die Schlussfolgerungen daraus.

#6 - Jedes Handeln kostet Geld.

#7 - Hinter Backtests stecken Durchschnittsrenditen - es gibt immer Schwankungen und Phasen, in denen etwas nicht wie geplant funktioniert.

Sei also skeptisch, wenn dir bald wieder ein Backtest über den Weg läuft - und stelle ihm die richtigen Fragen. 😉

Klicke hier um einen Kommentar zu verfassen 0 Kommentare