THELIAN — Technische Architektur

01 — Kernprinzip

Mustererkennung durch Modell-Orchestrierung

Das Herzstück von THELIAN ist nicht ein einzelnes Modell — sondern die Orchestrierung mehrerer spezialisierter ML-Systeme, deren Ausgaben sich gegenseitig validieren, gewichten und verdichten. Erst das Zusammenspiel aller Schichten ermöglicht die Erkennung jener komplexen, transienten Muster, die für einzelne Modelle statistisch unsichtbar bleiben.

Jede Modellschicht betrachtet denselben Datenstrom aus einer anderen Perspektive: strukturell, temporal, kontextuell, statistisch. Die finale Signalqualität entsteht durch Konsensbildung — nicht durch Einzelentscheidung.

Orchestrierungs-Prinzip

Acht spezialisierte ML-Systeme analysieren parallel unterschiedliche Dimensionen desselben Ereignisses. Gradient-Boosting-Ensembles extrahieren nicht-lineare Feature-Interaktionen aus dem vollständigen Merkmalsraum. Ein Online-Lernmodell adaptiert sich inkrementell nach jeder abgeschlossenen Beobachtung. Statistische Validator-Schichten prüfen Parametrisierungen laufend gegen historische Datensätze. Erst wenn die Ausgaben aller Schichten konvergieren, entsteht ein belastbares Signal.

02 — Datenbasis

Hochdimensionale Zeitreihendaten

Die Eingangsdaten kommen aus einem 1ms-WebSocket-Echtzeit-Stream und werden in präzise Zeitreihen überführt. Pro Beobachtungseinheit entstehen bis zu 36.000 Zeitreihenpunkte über fünf parallele Kurven — Preis, Dynamik, Volumen, Order-Flow-Imbalance und Transaktionsrate.

Zeitreihen-Kurven

Hochauflösende Zeitreihen-Datenpunkte aus vorgelagertem Zeitraum (Data Lineage) = Tausende strukturierte Datenpunkte pro Beobachtungseinheit. Alle Kurven sind auf exakte Rasterindizes normiert für pixelgenaue Überlagerung und Ableitung.

Strukturierte Feature-Dimensionen

500+ strukturierte Merkmale aus Entry- und Close-Snapshot: fundamentale Marktdaten, Liquiditätskennzahlen, Händlerprofil, organischer Aktivitätsgrad, Volatilitätsmeilensteine, Geschwindigkeiten, Steigungswinkel, TP-Zeitstempel und volumetrische Milestones.

Daten-Validierung

Anomale Observations im Daten-Stream werden durch einen sequenziellen, zweistufigen Konsistenzfilter unterdrückt. Ein initial detektierter Extremwert wird nur dann in den Zustandsraum übernommen, wenn nachfolgend eine konvergente Bestätigung innerhalb desselben Werteintervalls entsteht. Das System operiert somit ausschließlich auf verifizierten Datenpunkten.

03 — ML-Architektur

Acht spezialisierte Systeme

01

GBM A

Gradient Boosting auf technischen Zeitreihen-Features · SHAP-Erklärbarkeit

02

GBM / XGB

Gradient Boosted Machine + eXtreme Gradient Boosting · vollständiger Feature-Raum inkl. OHLCV & Kontext

03

ARF Regressor

Adaptive Random Forest · Online Learning · inkrementell nach jedem Trade

04

Autotuning Engine

Kontinuierlicher Vergleich aller Modellkonfigurationen · automatisches Parameter-Autotuning

05

Walk-Forward Validator

Zeitserielle Kreuzvalidierung · verhindert Look-Ahead-Bias in historischer Evaluation

06

Parameter Autotuner

Automatisches Hyperparameter-Tuning · optimiert Modellkonfiguration auf historischen Daten

07

Forecast Engine

LLM-System für Echtzeit-Prognosen · Konfidenzintervalle pro Beobachtung

08

ML Pattern Watcher

Kontinuierliches ML-Monitoring · lernt aus jedem abgeschlossenen Zyklus inkrementell

04 — Feature Engineering

45 ML-Features aus drei Dimensionen

Aus rohen Zeitreihenkurven und strukturierten Snapshots werden 45 ML-Features in drei semantischen Gruppen extrahiert.

Dynamische Zeitreihen-Features (9)

Aus Kurven berechnete Ableitungen: Extremwerte, Amplituden, Wendepunkt-Zeitabstände, positionelle Höhen und Tiefen, Anzahl aktiver Zustände vor Wendepunkten, normierte Bewegungsamplitude.

Kontextuelle Entry-Features (25)

Fundamentaldaten zum Eintrittszeitpunkt: Dyn. Liquiditätskennzahlen, Händlerverteilung nach Adressen,berechneter organischer Aktivitätsgrad, Bot vs. Holder-Anteil, Dev-Verhaltensprofil aus Tracing, Volumendaten, Buy/Sell-Ratio, Quality Gate.

OHLCV Momentum-Features (11)

Aus vorgelagerten Candles: ATR, Trend-Beschleunigung (last vs first), Candle-Körper-Ratio, Close-Position-Bias (bullish/bearish), Volumen-Spike-Ratio uvm.

05 — Selbstlernen

Kontinuierliche Adaption ohne Unterbrechung

THELIAN implementiert zwei komplementäre Lernparadigmen, die parallel laufen und sich gegenseitig ergänzen.

I

Batch-Retraining (GBM) für Pattern

Ab einem definierten Akkumulationsvolumen trainieren beide GBM-Modelle vollständig neu auf allen historischen Daten. Cross-Validation mit Early Stopping verhindert Overfitting.

II

Online Learning (ARF)

Der Adaptive Random Forest aktualisiert sich nach jeder einzelnen abgeschlossenen Beobachtung — ohne Retraining, ohne Datenverlust. Er liefert sofort angepasste Wahrscheinlichkeitsschätzungen mit EWMA-kalibrierten Konfidenzintervallen.

III

Dynamische Modellselektion

Die Autotuning-Engine vergleicht nach jedem Retraining alle Modellvarianten auf historischen Daten und wählt automatisch die optimal parametrierte Muster-Konfiguration für den nächsten Lernzyklus.

Stream

→

Validierung

→

Features

→

8 Modelle

→

Konsens

→

Signal

→

Lernen

Jede Beobachtung verbessert alle Modellschichten

06 — Erklärbarkeit

Transparente Entscheidungsgrundlage

Trotz der Komplexität des Ensembles bleibt jede Modellentscheidung erklärbar. SHAP-Werte (SHapley Additive exPlanations) quantifizieren den Beitrag jedes einzelnen Features zur Modellentscheidung — pro Beobachtung, nicht nur als globale Statistik.

Das Dashboard zeigt Feature-Importance in Echtzeit, Cross-Validation Loss, Walk-Forward-Analyse und den automatisch gewählten Modellkonfiguration mit vollständiger Begründung.

Technologie-Stack

LightGBM · River ARF · SHAP · k-Fold CV · Node.js Streaming Engine · WebSocket 1ms · SQL Feature Store · Python ML Pipeline

07 — Systemarchitektur

Finale Pattern-Erzeugung & Training: Orchestrierung aller 8 ML-Systeme

Von der Rohdaten-Ingestion über parallele Modellverarbeitung bis zur finalen Signalentscheidung — jede Schicht kommuniziert mit jeder anderen. Querverbindungen, Rückkopplungen und drei parallele Feedback-Schleifen machen das System selbstlernend auf allen Ebenen. So konvergieren die validierten Modelloutputs zu einem modellübergreifend kalibrierten Master-Pattern-State, der die finale Entscheidungsrepräsentation bildet: Das finale Muster.