Eine selbstlernende Signalverarbeitungsarchitektur zur Erkennung komplexer, nicht-linearer Muster in hochfrequenten Echtzeit-Datenströmen — realisiert durch die Orchestrierung mehrerer spezialisierter ML-Systeme.
Das Herzstück von THELIAN ist nicht ein einzelnes Modell — sondern die Orchestrierung mehrerer spezialisierter ML-Systeme, deren Ausgaben sich gegenseitig validieren, gewichten und verdichten. Erst das Zusammenspiel aller Schichten ermöglicht die Erkennung jener komplexen, transienten Muster, die für einzelne Modelle statistisch unsichtbar bleiben.
Jede Modellschicht betrachtet denselben Datenstrom aus einer anderen Perspektive: strukturell, temporal, kontextuell, statistisch. Die finale Signalqualität entsteht durch Konsensbildung — nicht durch Einzelentscheidung.
Acht spezialisierte ML-Systeme analysieren parallel unterschiedliche Dimensionen desselben Ereignisses. Gradient-Boosting-Ensembles extrahieren nicht-lineare Feature-Interaktionen aus dem vollständigen Merkmalsraum. Ein Online-Lernmodell adaptiert sich inkrementell nach jeder abgeschlossenen Beobachtung. Statistische Validator-Schichten prüfen Parametrisierungen laufend gegen historische Datensätze. Erst wenn die Ausgaben aller Schichten konvergieren, entsteht ein belastbares Signal.
Die Eingangsdaten kommen aus einem 1ms-WebSocket-Echtzeit-Stream und werden in präzise Zeitreihen überführt. Pro Beobachtungseinheit entstehen bis zu 36.000 Zeitreihenpunkte über fünf parallele Kurven — Preis, Dynamik, Volumen, Order-Flow-Imbalance und Transaktionsrate.
Hochauflösende Zeitreihen-Datenpunkte aus vorgelagertem Zeitraum (Data Lineage) = Tausende strukturierte Datenpunkte pro Beobachtungseinheit. Alle Kurven sind auf exakte Rasterindizes normiert für pixelgenaue Überlagerung und Ableitung.
500+ strukturierte Merkmale aus Entry- und Close-Snapshot: fundamentale Marktdaten, Liquiditätskennzahlen, Händlerprofil, organischer Aktivitätsgrad, Volatilitätsmeilensteine, Geschwindigkeiten, Steigungswinkel, TP-Zeitstempel und volumetrische Milestones.
Anomale Observations im Daten-Stream werden durch einen sequenziellen, zweistufigen Konsistenzfilter unterdrückt. Ein initial detektierter Extremwert wird nur dann in den Zustandsraum übernommen, wenn nachfolgend eine konvergente Bestätigung innerhalb desselben Werteintervalls entsteht. Das System operiert somit ausschließlich auf verifizierten Datenpunkten.
Aus rohen Zeitreihenkurven und strukturierten Snapshots werden 45 ML-Features in drei semantischen Gruppen extrahiert.
Aus Kurven berechnete Ableitungen: Extremwerte, Amplituden, Wendepunkt-Zeitabstände, positionelle Höhen und Tiefen, Anzahl aktiver Zustände vor Wendepunkten, normierte Bewegungsamplitude.
Fundamentaldaten zum Eintrittszeitpunkt: Dyn. Liquiditätskennzahlen, Händlerverteilung nach Adressen,berechneter organischer Aktivitätsgrad, Bot vs. Holder-Anteil, Dev-Verhaltensprofil aus Tracing, Volumendaten, Buy/Sell-Ratio, Quality Gate.
Aus vorgelagerten Candles: ATR, Trend-Beschleunigung (last vs first), Candle-Körper-Ratio, Close-Position-Bias (bullish/bearish), Volumen-Spike-Ratio uvm.
THELIAN implementiert zwei komplementäre Lernparadigmen, die parallel laufen und sich gegenseitig ergänzen.
Ab einem definierten Akkumulationsvolumen trainieren beide GBM-Modelle vollständig neu auf allen historischen Daten. Cross-Validation mit Early Stopping verhindert Overfitting.
Der Adaptive Random Forest aktualisiert sich nach jeder einzelnen abgeschlossenen Beobachtung — ohne Retraining, ohne Datenverlust. Er liefert sofort angepasste Wahrscheinlichkeitsschätzungen mit EWMA-kalibrierten Konfidenzintervallen.
Die Autotuning-Engine vergleicht nach jedem Retraining alle Modellvarianten auf historischen Daten und wählt automatisch die optimal parametrierte Muster-Konfiguration für den nächsten Lernzyklus.
Trotz der Komplexität des Ensembles bleibt jede Modellentscheidung erklärbar. SHAP-Werte (SHapley Additive exPlanations) quantifizieren den Beitrag jedes einzelnen Features zur Modellentscheidung — pro Beobachtung, nicht nur als globale Statistik.
Das Dashboard zeigt Feature-Importance in Echtzeit, Cross-Validation Loss, Walk-Forward-Analyse und den automatisch gewählten Modellkonfiguration mit vollständiger Begründung.
LightGBM · River ARF · SHAP · k-Fold CV · Node.js Streaming Engine · WebSocket 1ms · SQL Feature Store · Python ML Pipeline
Von der Rohdaten-Ingestion über parallele Modellverarbeitung bis zur finalen Signalentscheidung — jede Schicht kommuniziert mit jeder anderen. Querverbindungen, Rückkopplungen und drei parallele Feedback-Schleifen machen das System selbstlernend auf allen Ebenen. So konvergieren die validierten Modelloutputs zu einem modellübergreifend kalibrierten Master-Pattern-State, der die finale Entscheidungsrepräsentation bildet: Das finale Muster.