Vidar revolutioniert physisches Lernen in KI-Systemen
von Roboterwelt Redaktion 11. August 2025
ShengShu Technology bringt mit Vidar ein KI-Modell auf den Markt, das reales Handeln auf Basis multisensorischer Wahrnehmung meistert. Ein Schritt Richtung allgemeiner physikalischer Intelligenz.
ShengShu Technology: Ein neues Kraftzentrum für embodied KI
Seit seiner Gründung im Jahr 2021 treibt das Pekinger Unternehmen ShengShu Technology die Grundlagenforschung zur physikalischen Künstlichen Intelligenz voran. Das Team setzt sich aus führenden KI-Forschern Chinas zusammen und verfolgt ein ehrgeiziges Ziel: Maschinen sollen lernen, wie Menschen mit ihrer Umwelt physisch zu interagieren.
Anwendungen in realen, unstrukturierten Umgebungen stehen dabei im Fokus – mit einem klaren wissenschaftlichen Leitbild: Wahrnehmen, Handeln und Verstehen müssen zu einer kohärenten Intelligenzform verschmelzen.
Vidar: Mehrdimensionales Lernspektrum für physikalisch intelligente KI
Mit dem Modell „Vidar“ hat ShengShu im Mai 2024 ein physikalisch trainiertes KI-System vorgestellt, das insbesondere für reale Robotik-Anwendungen und Sim2Real-Transfers entwickelt wurde. Es verbindet multisensorische Wahrnehmung mit verkörpertem Lernen und einer clever regulierten Trainingsarchitektur.
Kernfunktionen des Modells sind:
Multi-View Perception – gleichzeitige Szenenanalyse aus mehreren Blickwinkeln
Embodiment Learning – Lernen durch physische Interaktion und Bewegung
Differentiable Physics – Integration physikalischer Gleichungen in neuronalen Prozessen
Sim2Real-Transfer – optimierter Abgleich zwischen Simulation und Realität
Architektonische Innovation: Integration räumlicher und kausaler Tiefe
Vidars Systemdesign setzt auf mehrere koordinierte Komponenten, die sich in ihrer Funktion klar differenzieren.
Multi-View-Perception Layer
Das Modell integriert verschiedene Kamerasichten zu einer einzigen, verdichteten Repräsentation. Dabei kommen volumetrische Techniken ähnlich zu NeRFs zum Einsatz, jedoch mit Fokus auf Echtzeit-Anwendungen.
Physics-informed Learning
Differenzierbare Physikmodule erlauben es, Szenarien vorausschauend zu modellieren. Hypothesen über Kräfte und Kollisionen werden explizit in Entscheidungsprozesse eingebettet.
Sim2Real-Transformation
Vidar reduziert domänenspezifische Verzerrungen durch adaptive Korrekturalgorithmen. Der Lernprozess reguliert automatisch, welche Trainingsdaten verlässlich in reale Anwendungen übertragbar sind.
Vergleich mit führenden embodied KI-Modellen
Vidar reiht sich ein in eine wachsende Familie multimodaler, robotiknaher KI-Ansätze. Im direkten Vergleich zeigen sich signifikante Unterschiede:
Modell | Input-Modalitäten | Fokus | Besonderheit Vidars |
---|---|---|---|
PaLM-E | Sprache, Bild, Text | Semantikgesteuerte Aktionen | Stärkere physikalische Tiefe |
RT-2 | Bild, Sprache, Action | Sprachgelenktes Handeln | Multi-Ansicht über Kameras |
MOMA | Multimodal, feinmotorisch | Objektmanipulation im Nahfeld | Generalisierungsfähigkeit über Perspektiven |
Einsatzpotenziale in industriellen Kontexten
Die Systemstruktur von Vidar eignet sich besonders für komplexe Aufgaben, bei denen Sensorintegration und physikalisches Verständnis entscheidend sind.
Mögliche Anwendungsfelder:
Robotik in Logistik und Fertigung bei variabler Objektlage
Autonome Navigationssysteme mit 3D-Umgebungserkennung
Simulation von realistischen Interaktionen in XR-Umgebungen
Adaptive Prothetik oder Greifsysteme mit taktilem Feedback
Haushalts- und Assistenzrobotik bei unstrukturiertem Input
Forschungsstand: Bestätigung durch aktuelle Literatur
Vidars Architektur basiert auf Erkenntnissen mehrerer hochrangiger Studien:
Radosavovic et al. (2023) zeigten, dass multi-view-trainierte Systeme robuster generalisieren
Dosovitskiy et al. betonen die Rolle differentieller Physik beim Übertrag von KI in reale Umgebungen
Yang et al. (NeurIPS 2023) wiesen die Vorteile 3D-basierter Repräsentationen bei sensorisch-verkörperten Entscheidungen nach
Diese Studien verweisen klar auf die Relevanz von Architekturen, die physische Kausalketten nicht nur erlernen, sondern aktiv antizipieren können.
Grenzen und offene Herausforderungen
Trotz technologischer Durchbrüche bleiben einige Fragen ungelöst:
Die Datenverarbeitung ist energie- und rechenintensiv
Die Generalisierbarkeit in unkontrollierten Umgebungen bedarf weiterer Tests
Transparenz in Entscheidungsprozessen („black box“-Problematik) stellt Fixpunkte der Kritik dar
Eine offene Dokumentation oder Benchmark-Vergleiche zur umfassenden Leistung fehlen bislang
Perspektive: Foundation Model für Physical Intelligence
ShengShu positioniert Vidar als Fundament einer neuen Modellklasse: universelle Modelle für physisches Handeln und multimodale Interaktion in der realen Welt. Der Begriff „General Physical Intelligence“ zielt dabei auf ein System, das Aufgaben nicht einzeln erlernt, sondern über Kategorien hinweg verallgemeinert.
Ein solches Modell könnte als physisches Pendant zu GPT fungieren – nicht textbasiert, sondern realitätsbasiert durch Kameras, Sensorik, Bewegung und Interaktion. Sollte sich diese Architektur bewähren, markiert Vidar mehr als einen Forschungserfolg: einen Baustein für eine neue Generation eingebetteter künstlicher Intelligenz.
-
Mit dem KI-Modell „Vidar“ bringt ShengShu Technology ein System auf den Weg, das physisches Lernen auf Basis multisensorischer Wahrnehmung und physikalischer Simulation ermöglicht. Durch seine multi-view Architektur, differentiable physics und Sim2Real-Kapazitäten zeigt Vidar einen Paradigmenwechsel: weg von rein digitalen KI-Systemen, hin zu generalisierten, körperlich aktiven Intelligenzformen. In Forschung, Industrie und Robotik signalisiert das Modell damit einen möglichen Startschuss für die Ära der General Physical Intelligence.
-
Roboterwelt Redaktion