DataStream
Pipeline de traitement de données massives automatisant l'ingestion, la transformation, la validation et le chargement de 2TB+ de données quotidiennes avec réconciliation automatique.
Client
Institution financière
Stack
Fonctionnalités
Infos
Les noms de domaine affichés sont purement illustratifs. Par souci de confidentialité, les vrais domaines des projets ne peuvent être divulgués.
ETL Dashboard
PIPELINES ACTIFS
9/12
RECORDS/SEC
24.5K
DONNÉES TRAITÉES
1.2 TB
aujourd'hui
LATENCE MOYENNE
340ms
ERREURS
0.02%
taux d'erreur
Débit — 24h
Sources de données
Pipelines actifs
Voir tous →user-events-to-warehouse
pg-replication-analytics
logs-aggregation
crm-sync-daily
s3-data-lake-etl
realtime-fraud-detect
Pipelines › user-events-to-warehouse
user-events-to-warehouse
Kafka → Transform → BigQuery • Créé le 15/01/2025
FLUX DE DONNÉES
SOURCE
Kafka
user-events topic
12.1K/s
EXTRACT
JSON Parse
Schéma Avro
12.1K/s
TRANSFORM
Enrichment
User lookup + Geo
11.8K/s
TRANSFORM
Filter
Remove bots + test
9.4K/s
TRANSFORM
Aggregate
Window 5min
1.9K/s
LOAD
BigQuery
analytics.user_events
1.9K/s
CONFIGURATION
# pipeline.yaml
name: user-events-to-warehouse
source:
type: kafka
brokers: [kafka-01:9092, kafka-02:9092]
topic: user-events
group_id: datastream-etl
format: avro
transforms:
- type: enrich
lookup: postgres://users_db
fields: [user_name, user_country]
- type: filter
condition: is_bot != true
- type: aggregate
window: 5m
group_by: [event_type, country]
destination:
type: bigquery
dataset: analytics
table: user_events
write_mode: append
MÉTRIQUES
aujourd'hui
↑ 8% vs hier
stable
stable
bots + test
dernières 24h
à jour
30 jours
HISTORIQUE D'EXÉCUTION — 7 DERNIERS JOURS
Uptime 99.99% • 3 incidents mineurs (auto-recovered)
Sources & Connecteurs
PostgreSQL — Production
pg-prod-01:5432
app_production
Kafka — Events
kafka-cluster:9092
user-events, orders, logs
S3 — Data Lake
s3://company-data-lake
raw/, processed/
MongoDB — Logs
mongo-prod:27017
application_logs
REST API — CRM
api.salesforce.com
contacts, deals, activities
MySQL — Legacy
mysql-legacy:3306
old_app_db
CONNECTEURS DISPONIBLES
PostgreSQL
MySQL
MongoDB
Redis
Kafka
RabbitMQ
AWS S3
GCS
Azure Blob
REST API
GraphQL
gRPC
Snowflake
BigQuery
Redshift
Elasticsearch
ClickHouse
DynamoDB
Transformations
ÉDITEUR DE TRANSFORMATION — user-events-to-warehouse
INPUT SCHEMA
user_id string
event_type string
timestamp int64
properties map
session_id string
ip_address string
user_agent string
JSON → Avro
Désérialisation JSON avec schéma Avro v3
7 champs → 7 champs
User Lookup
JOIN avec users_db sur user_id → name, country, tier
7 champs → 10 champs
GeoIP
ip_address → city, region, lat, lng
10 champs → 14 champs
Remove Bots
WHERE is_bot(user_agent) = false AND env != 'test'
14 champs → 14 champs (−22%)
Compute Fields
event_date = TO_DATE(timestamp), hour = EXTRACT(HOUR)
14 champs → 16 champs
Window 5min
GROUP BY event_type, country, hour WINDOW(5m)
16 champs → 5 champs
OUTPUT SCHEMA
event_type string
country string
hour int32
event_count int64
window_end timestamp
APERÇU DES DONNÉES — SORTIE
Monitoring
SANTÉ GLOBALE
98.5%
Bon
ALERTES ACTIVES
1
CRM dégradé
RECORDS PERDUS
0
24h
CONSUMER LAG
12K
Normal
Throughput (records/sec)
Latence (ms) — P50 / P99
Alertes récentes
crm-sync-daily: Latence élevée (1.2s > seuil 500ms)
Acknowledgercrm-sync-daily: 12 erreurs HTTP 429 (rate limited)
Acknowledgerpg-replication-analytics: 3 erreurs de schéma (auto-corrigées)
s3-data-lake-etl: Batch terminé — 2.4M records
realtime-fraud-detect: Consumer lag > 50K (résolu en 4min)
Dead Letter Queue (DLQ)
15 messages en attente