Open‑vocabulary Objekterkennung verbindet Bildverstehen mit Sprache: Modelle lernen aus Bild‑Text‑Paaren, erkennen Objekte auch jenseits vordefinierter Klassen und reagieren auf freie Textanfragen.