Vision Language Action

Data Collection

Vision-Language-Action(VLA) 기반 로봇 조작 연구를 위해 텔레오퍼레이션을 활용한 데이터 생성 과정을 진행해 보았다. 다양한 방식의 텔레오퍼레이션 시스템을 구성하여 로봇 조작 시연 데이터를 수집하고, VLA 학습에 활용할 수 있도록 데이터 정리 및 변환 과정을 포함한 데이터 생성 파이프라인을 구축하여 적용해 보았다.

Apple Vision Pro
Leader Follow - Piper-Franka
Vive Tracker - RB-Y1
Manus Glove - Aidin Hand

Model Application

다양한 VLA 모델을 로봇 조작 환경에 적용해 보았다. 여러 모델을 활용하여 로봇 조작 태스크에 대한 Inference를 수행하고 로봇 시스템에서의 동작을 확인하였다.

Pi 0.5 - OpenPI
GR00T N1.5 - Nvidia
SmolVla - Hugging Face
Share

Table of Contents

Other Researches

Dexterous Hand

Multi-DOF Gripper with suction fingertip 기존의 multi-fingered suction gripper 는

Vision Language Action

Data Collection Vision-Language-Action(VLA) 기반 로봇 조작 연구를 위해 텔레오퍼레이션을 활용한

Perception

6D Pose Estimation with Miniature 미니어처를 이용한 고중량물의 6D Pose

Go to Top