Staff ML Research Engineer, Marengo
About the role
Who we are
영상 이해 AI의 글로벌 기준을 함께 만들어 갈 인재를 찾습니다!
트웰브랩스는 방대한 영상 데이터를 효과적으로 처리하여, 영상에 특화된 검색, 분석, 요약, 인사이트 생성 기능을 제공하는 세계 최고 수준의 영상 특화 AI 모델을 만들고 있습니다.
세계 최대 스포츠 리그에서는 트웰브랩스 모델을 활용해 방대한 경기 영상 속에서 빠르고 정확하게 하이라이트를 선별하여 초개인화된 시청 경험을 제공하고 있습니다. 국내 통합관제센터에서는 위기 상황에 신속히 대응하기 위해 트웰브랩스와 함께 CCTV 영상을 효율적으로 탐색하고 있으며, 전 세계 주요 방송사와 스튜디오들은 수십억 명의 시청자를 위한 콘텐츠 제작에 트웰브랩스 모델을 활용하고 있습니다.
트웰브랩스는 샌프란시스코와 서울에 오피스를 둔 Deep Tech 스타트업으로, 4년 연속 CB Insights 선정 세계 100대 AI 스타트업에 이름을 올렸습니다. NVIDIA, NEA, Index Ventures, Databricks, Snowflake 등 세계적인 VC와 기업들로부터 총 1억 1천만 달러 이상의 투자를 유치했으며, 한국에서 개발된 AI 모델 중 유일하게 Amazon Bedrock을 통해 서비스됩니다. 우리는 탁월한 동료들과 혁신적인 제품을 만들고 전 세계 고객들과 함께 성장하고 있습니다.
트웰브랩스는 다음과 같은 핵심 가치를 중심으로 일합니다.
나와 팀에 대해 정직하고 성찰할 수 있는 태도
실패와 피드백을 두려워하지 않는 끈기와 겸손
끊임없는 학습을 통해 팀의 역량을 함께 높여 가는 자세
도전적인 문제를 함께 해결하며 성장하는 과정을 즐기는 분이라면, 그 기회가 여기 트웰브랩스에 있습니다.
About the Team
트웰브랩스의 멀티모달 임베딩 모델 Marengo의 연구개발을 담당하는 팀입니다. 비디오, 오디오, 텍스트 등 다양한 모달리티를 하나의 임베딩 공간(Embedding Space)에 통합하는 모델을 연구하고 개발합니다.
Contrastive learning, temporal video understanding, multimodal representation learning 등 다양한 연구 주제를 다루며, 대규모 학습 데이터 파이프라인 구축부터 모델 아키텍처 설계, 분산 학습 최적화, 평가 체계 설계까지 모델 개발의 전 과정을 책임집니다. NVIDIA B300 등 세계 최고 수준의 GPU 리소스에 대한 접근 권한을 바탕으로 대규모 실험을 빠르게 수행합니다.
연구에서 프로덕션까지의 간극이 매우 짧은 환경에서, Search, Product, Infrastructure 팀과 긴밀히 협업하며 전 세계 수천 고객이 사용하는 모델의 품질을 지속적으로 향상시킵니다.
About the Role
As a Staff ML Research Engineer on the Marengo team, you will set the technical direction for TwelveLabs' next-generation multimodal embedding models and own the end-to-end model development process, from research strategy and data architecture to training infrastructure and evaluation frameworks.
This is a high-autonomy role at the intersection of multimodal representation learning, large-scale systems design, and cross-team technical leadership. We're looking for someone who thrives in ambiguity: someone who can identify the highest-impact research problems, define the technical approach, and drive cross-team execution to deliver models that serve customers worldwide.
In this role, you will
Set the technical direction for next-generation multimodal embedding model architecture, training methodology, and data strategy
Own end-to-end model development from research planning through large-scale distributed training to production evaluation
Architect and optimize training infrastructure: distributed training pipelines, data processing systems, experiment workflows, and GPU utilization across the team's compute fleet
Drive data strategy: design large-scale data curation, filtering, and quality frameworks that systematically improve model performance
Define evaluation methodology and quality standards for embedding models, ensuring rigorous benchmarking that captures what matters
Co-design embedding architectures with the search team, optimizing for end-to-end retrieval quality rather than isolated benchmarks
Drive cross-functional alignment with search, product, and infrastructure teams on model integration and performance requirements
Raise the research engineering bar through design review, experiment review, and technical mentorship
You may be a good fit if you have
7+ years of industry experience in computer vision, NLP, or multimodal learning, with a track record of owning and shipping ML systems end-to-end
Demonstrated ability to take ambiguous, loosely-defined research problems and drive them to concrete, impactful solutions, from problem identification through delivery
Deep expertise in large-scale distributed model training (Kernel optimization, FSDP, or similar)
Strong experience in contrastive learning, representation learning, or foundation model training
Proven end-to-end ownership: not just running experiments, but defining what to build, building it, deploying it, and iterating on it in production
Strong proficiency in Python and PyTorch
Evidence of both research depth and engineering impact: publications paired with shipped products, not one or the other
We evaluate based on relevant technical skills and sustained industry impact. This role is typically a strong fit for engineers with an MS and deep industry experience who have evolved from individual contributor to technical leader in production ML environments.
Preferred Qualifications
Experience training models at billion-parameter scale
Experience with training operations: pipeline reliability, monitoring, fault tolerance, cost optimization
Experience with large-scale data curation and data quality systems
Experience with temporal video understanding or multimodal video modeling
Deep experience with training infrastructure optimization (GPU utilization, mixed precision, communication optimization)
Track record of technical leadership: driving architectural decisions that shaped team or product direction
What makes this role unique
The gap between research and production is remarkably short here. Models you build will be used by thousands of companies worldwide within months. We work as a unified team toward the broader goal of video understanding, rather than solving isolated problems. Our research philosophy balances rigorous experimentation with real-world application: we aim to build multimodal systems that are powerful, trustworthy, and genuinely useful.
Others
Work Location: Seoul Itaewon office + Pangyo satellite office
Additional Info: 전문연구요원 편입/전직 가능합니다.
Even if you don't check every box, we encourage you to apply. If you're a zero-to-one achiever, a ferocious learner, and a kind team player who motivates others, you'll find a home at TwelveLabs.
Hiring Process
Application Review → Recruiter Interview (비대면/30분) → Loop Interview [Hiring Manager Interview&Live Coding Test Interview] (대면/약 90분) → Loop Interview [System Design&Final Round Interview] (비대면/약 90분) → Reference Check → Offer
Benefits and Perks
글로벌 B2B 고객과 함께 성장하는 Global Team
자율성과 협업을 모두 갖춘 하이브리드 근무
전 직원에게 맥북 및 70만 원 상당 재택근무 장비 지원, 3년 주기로 최신 장비 교체
식사·교통비 등 자유롭게 사용할 수 있는 월 60만 원 한도 법인카드 제공
사무실 내 스낵바(간식, 커피, 신선식품 제공)
연말 2주간 겨울방학 운영
연 1회 건강검진 지원
영어교육 프로그램 지원
Similar roles
Other open positions you might also be a good fit for.