Schritt 2 — Erkennen
Die KI liest das gesamte Bild in einem Durchgang
[1a/4] Listing concepts with claude-sonnet-4-6…
28 concepts: face, hand, foot, white sneaker, soccer ball,
barbecue grill, germany jersey, spain jersey,
denim shorts…
[1b/4] Localising with SAM3 (this loads ~2 GB on first run)…
SAM3 PROCESSOR DEBUG Raw predictions from model:
pred_logits shape: torch.Size([1, 200, 1])
pred_boxes shape: torch.Size([1, 200, 4])
pred_masks shape: torch.Size([1, 200, 288, 288])
out_probs (after sigmoid) range: [0.0047, 0.8688]
presence_score: 0.9982
out_probs (after sigmoid multiply) range: [0.0047, 0.8673]
Claude listet alle relevanten Konzepte im Bild auf — hier 28 Regionen.
SAM3 lokalisiert jede davon mit einem präzisen Begrenzungsrahmen auf Pixelebene.
Keine manuelle Annotation erforderlich.