Roboterwelt Roboterwelt
Wissen

Vidar revolutioniert physisches Lernen in KI-Systemen

von Roboterwelt Redaktion 11. August 2025
Vidar revolutioniert physisches Lernen in KI-Systemen

ShengShu Technology bringt mit Vidar ein KI-Modell auf den Markt, das reales Handeln auf Basis multisensorischer Wahrnehmung meistert. Ein Schritt Richtung allgemeiner physikalischer Intelligenz. 

ShengShu Technology: Ein neues Kraftzentrum für embodied KI

Seit seiner Gründung im Jahr 2021 treibt das Pekinger Unternehmen ShengShu Technology die Grundlagenforschung zur physikalischen Künstlichen Intelligenz voran. Das Team setzt sich aus führenden KI-Forschern Chinas zusammen und verfolgt ein ehrgeiziges Ziel: Maschinen sollen lernen, wie Menschen mit ihrer Umwelt physisch zu interagieren. 

Anwendungen in realen, unstrukturierten Umgebungen stehen dabei im Fokus – mit einem klaren wissenschaftlichen Leitbild: Wahrnehmen, Handeln und Verstehen müssen zu einer kohärenten Intelligenzform verschmelzen. 

Vidar: Mehrdimensionales Lernspektrum für physikalisch intelligente KI

Mit dem Modell „Vidar“ hat ShengShu im Mai 2024 ein physikalisch trainiertes KI-System vorgestellt, das insbesondere für reale Robotik-Anwendungen und Sim2Real-Transfers entwickelt wurde. Es verbindet multisensorische Wahrnehmung mit verkörpertem Lernen und einer clever regulierten Trainingsarchitektur. 

Kernfunktionen des Modells sind: 

  • Multi-View Perception – gleichzeitige Szenenanalyse aus mehreren Blickwinkeln 

  • Embodiment Learning – Lernen durch physische Interaktion und Bewegung 

  • Differentiable Physics – Integration physikalischer Gleichungen in neuronalen Prozessen 

  • Sim2Real-Transfer – optimierter Abgleich zwischen Simulation und Realität 

Architektonische Innovation: Integration räumlicher und kausaler Tiefe

Vidars Systemdesign setzt auf mehrere koordinierte Komponenten, die sich in ihrer Funktion klar differenzieren. 

Multi-View-Perception Layer

Das Modell integriert verschiedene Kamerasichten zu einer einzigen, verdichteten Repräsentation. Dabei kommen volumetrische Techniken ähnlich zu NeRFs zum Einsatz, jedoch mit Fokus auf Echtzeit-Anwendungen. 

Physics-informed Learning

Differenzierbare Physikmodule erlauben es, Szenarien vorausschauend zu modellieren. Hypothesen über Kräfte und Kollisionen werden explizit in Entscheidungsprozesse eingebettet. 

Sim2Real-Transformation

Vidar reduziert domänenspezifische Verzerrungen durch adaptive Korrekturalgorithmen. Der Lernprozess reguliert automatisch, welche Trainingsdaten verlässlich in reale Anwendungen übertragbar sind. 

Vergleich mit führenden embodied KI-Modellen

Vidar reiht sich ein in eine wachsende Familie multimodaler, robotiknaher KI-Ansätze. Im direkten Vergleich zeigen sich signifikante Unterschiede: 

ModellInput-ModalitätenFokusBesonderheit Vidars
PaLM-ESprache, Bild, TextSemantikgesteuerte AktionenStärkere physikalische Tiefe
RT-2Bild, Sprache, ActionSprachgelenktes HandelnMulti-Ansicht über Kameras
MOMAMultimodal, feinmotorischObjektmanipulation im NahfeldGeneralisierungsfähigkeit über Perspektiven

Einsatzpotenziale in industriellen Kontexten

Die Systemstruktur von Vidar eignet sich besonders für komplexe Aufgaben, bei denen Sensorintegration und physikalisches Verständnis entscheidend sind. 

Mögliche Anwendungsfelder: 

  • Robotik in Logistik und Fertigung bei variabler Objektlage 

  • Autonome Navigationssysteme mit 3D-Umgebungserkennung 

  • Simulation von realistischen Interaktionen in XR-Umgebungen 

  • Adaptive Prothetik oder Greifsysteme mit taktilem Feedback 

  • Haushalts- und Assistenzrobotik bei unstrukturiertem Input 

Forschungsstand: Bestätigung durch aktuelle Literatur

Vidars Architektur basiert auf Erkenntnissen mehrerer hochrangiger Studien: 

  • Radosavovic et al. (2023) zeigten, dass multi-view-trainierte Systeme robuster generalisieren 

  • Dosovitskiy et al. betonen die Rolle differentieller Physik beim Übertrag von KI in reale Umgebungen 

  • Yang et al. (NeurIPS 2023) wiesen die Vorteile 3D-basierter Repräsentationen bei sensorisch-verkörperten Entscheidungen nach 

Diese Studien verweisen klar auf die Relevanz von Architekturen, die physische Kausalketten nicht nur erlernen, sondern aktiv antizipieren können. 

Grenzen und offene Herausforderungen

Trotz technologischer Durchbrüche bleiben einige Fragen ungelöst: 

  • Die Datenverarbeitung ist energie- und rechenintensiv 

  • Die Generalisierbarkeit in unkontrollierten Umgebungen bedarf weiterer Tests 

  • Transparenz in Entscheidungsprozessen („black box“-Problematik) stellt Fixpunkte der Kritik dar 

  • Eine offene Dokumentation oder Benchmark-Vergleiche zur umfassenden Leis­tung fehlen bislang 

Perspektive: Foundation Model für Physical Intelligence

ShengShu positioniert Vidar als Fundament einer neuen Modellklasse: universelle Modelle für physisches Handeln und multimodale Interaktion in der realen Welt. Der Begriff „General Physical Intelligence“ zielt dabei auf ein System, das Aufgaben nicht einzeln erlernt, sondern über Kategorien hinweg verallgemeinert. 

Ein solches Modell könnte als physisches Pendant zu GPT fungieren – nicht textbasiert, sondern realitätsbasiert durch Kameras, Sensorik, Bewegung und Interaktion. Sollte sich diese Architektur bewähren, markiert Vidar mehr als einen Forschungserfolg: einen Baustein für eine neue Generation eingebetteter künstlicher Intelligenz. 

Zusammenfassung
  • Glühbirne

    Mit dem KI-Modell „Vidar“ bringt ShengShu Technology ein System auf den Weg, das physisches Lernen auf Basis multisensorischer Wahrnehmung und physikalischer Simulation ermöglicht. Durch seine multi-view Architektur, differentiable physics und Sim2Real-Kapazitäten zeigt Vidar einen Paradigmenwechsel: weg von rein digitalen KI-Systemen, hin zu generalisierten, körperlich aktiven Intelligenzformen. In Forschung, Industrie und Robotik signalisiert das Modell damit einen möglichen Startschuss für die Ära der General Physical Intelligence. 

Autoren
  • Roboterwelt Redaktion Roboterwelt Redaktion