Technische Architektur
THELIAN
Multi-Layer Pattern Recognition Engine

Eine selbstlernende Signalverarbeitungsarchitektur zur Erkennung komplexer, nicht-linearer Muster in hochfrequenten Echtzeit-Datenströmen — realisiert durch die Orchestrierung mehrerer spezialisierter ML-Systeme.

8 ML-Systeme
500+ Feature-Dimensionen
36K Zeitreihenpunkte / Trade
1ms WebSocket-Auflösung
Online-Lernzyklen
01 — Kernprinzip

Mustererkennung durch Modell-Orchestrierung

Das Herzstück von THELIAN ist nicht ein einzelnes Modell — sondern die Orchestrierung mehrerer spezialisierter ML-Systeme, deren Ausgaben sich gegenseitig validieren, gewichten und verdichten. Erst das Zusammenspiel aller Schichten ermöglicht die Erkennung jener komplexen, transienten Muster, die für einzelne Modelle statistisch unsichtbar bleiben.

Jede Modellschicht betrachtet denselben Datenstrom aus einer anderen Perspektive: strukturell, temporal, kontextuell, statistisch. Die finale Signalqualität entsteht durch Konsensbildung — nicht durch Einzelentscheidung.

Orchestrierungs-Prinzip

Acht spezialisierte ML-Systeme analysieren parallel unterschiedliche Dimensionen desselben Ereignisses. Gradient-Boosting-Ensembles extrahieren nicht-lineare Feature-Interaktionen aus dem vollständigen Merkmalsraum. Ein Online-Lernmodell adaptiert sich inkrementell nach jeder abgeschlossenen Beobachtung. Statistische Validator-Schichten prüfen Parametrisierungen laufend gegen historische Datensätze. Erst wenn die Ausgaben aller Schichten konvergieren, entsteht ein belastbares Signal.

02 — Datenbasis

Hochdimensionale Zeitreihendaten

Die Eingangsdaten kommen aus einem 1ms-WebSocket-Echtzeit-Stream und werden in präzise Zeitreihen überführt. Pro Beobachtungseinheit entstehen bis zu 36.000 Zeitreihenpunkte über fünf parallele Kurven — Preis, Dynamik, Volumen, Order-Flow-Imbalance und Transaktionsrate.

Zeitreihen-Kurven

Hochauflösende Zeitreihen-Datenpunkte aus vorgelagertem Zeitraum (Data Lineage) = Tausende strukturierte Datenpunkte pro Beobachtungseinheit. Alle Kurven sind auf exakte Rasterindizes normiert für pixelgenaue Überlagerung und Ableitung.

Strukturierte Feature-Dimensionen

500+ strukturierte Merkmale aus Entry- und Close-Snapshot: fundamentale Marktdaten, Liquiditätskennzahlen, Händlerprofil, organischer Aktivitätsgrad, Volatilitätsmeilensteine, Geschwindigkeiten, Steigungswinkel, TP-Zeitstempel und volumetrische Milestones.

Daten-Validierung

Anomale Observations im Daten-Stream werden durch einen sequenziellen, zweistufigen Konsistenzfilter unterdrückt. Ein initial detektierter Extremwert wird nur dann in den Zustandsraum übernommen, wenn nachfolgend eine konvergente Bestätigung innerhalb desselben Werteintervalls entsteht. Das System operiert somit ausschließlich auf verifizierten Datenpunkten.

03 — ML-Architektur

Acht spezialisierte Systeme

01
GBM A
Gradient Boosting auf technischen Zeitreihen-Features · SHAP-Erklärbarkeit
02
GBM / XGB
Gradient Boosted Machine + eXtreme Gradient Boosting · vollständiger Feature-Raum inkl. OHLCV & Kontext
03
ARF Regressor
Adaptive Random Forest · Online Learning · inkrementell nach jedem Trade
04
Autotuning Engine
Kontinuierlicher Vergleich aller Modellkonfigurationen · automatisches Parameter-Autotuning
05
Walk-Forward Validator
Zeitserielle Kreuzvalidierung · verhindert Look-Ahead-Bias in historischer Evaluation
06
Parameter Autotuner
Automatisches Hyperparameter-Tuning · optimiert Modellkonfiguration auf historischen Daten
07
Forecast Engine
LLM-System für Echtzeit-Prognosen · Konfidenzintervalle pro Beobachtung
08
ML Pattern Watcher
Kontinuierliches ML-Monitoring · lernt aus jedem abgeschlossenen Zyklus inkrementell
04 — Feature Engineering

45 ML-Features aus drei Dimensionen

Aus rohen Zeitreihenkurven und strukturierten Snapshots werden 45 ML-Features in drei semantischen Gruppen extrahiert.

Dynamische Zeitreihen-Features (9)

Aus Kurven berechnete Ableitungen: Extremwerte, Amplituden, Wendepunkt-Zeitabstände, positionelle Höhen und Tiefen, Anzahl aktiver Zustände vor Wendepunkten, normierte Bewegungsamplitude.

Kontextuelle Entry-Features (25)

Fundamentaldaten zum Eintrittszeitpunkt: Dyn. Liquiditätskennzahlen, Händlerverteilung nach Adressen,berechneter organischer Aktivitätsgrad, Bot vs. Holder-Anteil, Dev-Verhaltensprofil aus Tracing, Volumendaten, Buy/Sell-Ratio, Quality Gate.

OHLCV Momentum-Features (11)

Aus vorgelagerten Candles: ATR, Trend-Beschleunigung (last vs first), Candle-Körper-Ratio, Close-Position-Bias (bullish/bearish), Volumen-Spike-Ratio uvm.

05 — Selbstlernen

Kontinuierliche Adaption ohne Unterbrechung

THELIAN implementiert zwei komplementäre Lernparadigmen, die parallel laufen und sich gegenseitig ergänzen.

I
Batch-Retraining (GBM) für Pattern

Ab einem definierten Akkumulationsvolumen trainieren beide GBM-Modelle vollständig neu auf allen historischen Daten. Cross-Validation mit Early Stopping verhindert Overfitting.

II
Online Learning (ARF)

Der Adaptive Random Forest aktualisiert sich nach jeder einzelnen abgeschlossenen Beobachtung — ohne Retraining, ohne Datenverlust. Er liefert sofort angepasste Wahrscheinlichkeitsschätzungen mit EWMA-kalibrierten Konfidenzintervallen.

III
Dynamische Modellselektion

Die Autotuning-Engine vergleicht nach jedem Retraining alle Modellvarianten auf historischen Daten und wählt automatisch die optimal parametrierte Muster-Konfiguration für den nächsten Lernzyklus.

Stream
Validierung
Features
8 Modelle
Konsens
Signal
Lernen
Jede Beobachtung verbessert alle Modellschichten
06 — Erklärbarkeit

Transparente Entscheidungsgrundlage

Trotz der Komplexität des Ensembles bleibt jede Modellentscheidung erklärbar. SHAP-Werte (SHapley Additive exPlanations) quantifizieren den Beitrag jedes einzelnen Features zur Modellentscheidung — pro Beobachtung, nicht nur als globale Statistik.

Das Dashboard zeigt Feature-Importance in Echtzeit, Cross-Validation Loss, Walk-Forward-Analyse und den automatisch gewählten Modellkonfiguration mit vollständiger Begründung.

Technologie-Stack

LightGBM · River ARF · SHAP · k-Fold CV · Node.js Streaming Engine · WebSocket 1ms · SQL Feature Store · Python ML Pipeline

07 — Systemarchitektur

Finale Pattern-Erzeugung & Training: Orchestrierung aller 8 ML-Systeme

Von der Rohdaten-Ingestion über parallele Modellverarbeitung bis zur finalen Signalentscheidung — jede Schicht kommuniziert mit jeder anderen. Querverbindungen, Rückkopplungen und drei parallele Feedback-Schleifen machen das System selbstlernend auf allen Ebenen. So konvergieren die validierten Modelloutputs zu einem modellübergreifend kalibrierten Master-Pattern-State, der die finale Entscheidungsrepräsentation bildet: Das finale Muster.

Echtzeit-Datenstrom WebSocket · Marktpreise · Transaktionen · Orderflow · Volumendaten · DEV Tracing · Bot Tracing Bestätigungs- mechanismus Anomalie- Detektion Sequenz- validierung Zeitreihen- Extraktion Ableitungen · Extrema · Amplituden Kontext-Feature- Konstruktion Fundamentaldaten · Marktstruktur OHLCV-Momentum- Analyse ATR · Trend · Kaufdruck 500+ dimensionaler Feature-Vektor Normiert · skaliert · auf Vollständigkeit geprüft GBM A Gradient Boosting Technische Kurven GBM / XGB Gradient Boosting Vollständiger Raum ARF Regressor Adaptive Random Forest · Online Forecast-Engine LLM-Echtzeit-Prognose Konfidenzintervalle ML Watcher Inkrementelles Pattern-Monitoring Autotuning Hyperparameter- Optimierung Walk-Forward Zeitserielle Kreuzvalidierung Trigger Tuner Automatisches Parameter-Tuning SHAP · Erklärbarkeits-Schicht Shapley-Werte · Feature-Beiträge · Entscheidungstransparenz pro Modell Multi-Modell Muster-Konsens-Aggregation Gewichtete Stimmgebung Konfidenz-Kalibrierung Divergenz-Detektion Konsistenz- prüfung Konvergenz & Konfidenz-Gate Historischer Kalibrierungscheck Retraining Finale Signal-Entscheidung Kalibrierte Ausgabe Konfidenz-Score Handlungsempfehlung Online-Lernen Autotuning-Feedback GBM / Ensemble Online / KI Monitoring / Tuning Validierung / Autotuning Querverbindung Feedback-Schleife