从您提供的招聘信息来看,这是一家专注于人工智能、机器人技术和多模态大模型研发的科技公司,业务方向非常前沿。这些岗位主要可以分为两大类:AI大模型研发机器人系统与算法开发

以下是每个岗位的核心职责与所需技能的简要分析,供您参考:

1. AI大模型研发类

这类岗位聚焦于当前最热门的大语言模型和多模态生成式AI技术。

  • 语言大模型应用工程师

    • 核心职责:大型语言模型的推理优化、领域适配(微调)、评估以及应用落地(如代码生成、智能对话)。
    • 所需技能:精通LLM(如GPT、LLaMA等)的推理和微调技术(如LoRA, P-Tuning),有LangChain等应用框架经验更佳。需要强大的工程实现和模型迭代能力。
  • 感知大模型应用工程师

    • 核心职责:研发视觉和多模态大模型,用于机器人感知、场景理解、数据自动标注和生成。
    • 所需技能:精通CV、多模态模型(如Stable Diffusion, CLIP, DALL-E),熟悉视觉生成、多模态融合等技术。目标是提升机器人的感知泛化能力。

2. 机器人技术与算法类

这类岗位更偏向机器人的具体实现,需要扎实的C++和传统算法功底。

  • 机械臂规划算法工程师(C++方向)

    • 核心职责:负责机械臂的运动规划算法开发、性能优化,并集成到机器人系统中。
    • 所需技能:强大的C++编程能力,熟悉运动规划算法(如RRT, PRM),有ROS框架和机器人控制系统集成经验者优先。
  • 机器人系统工程师(C++方向)

    • 核心职责:负责机器人端侧软件的开发、系统框架搭建和模块集成,更偏向底层系统和软件工程。
    • 所需技能:精通C++,具备机器人系统开发、模块集成和单元测试框架搭建的能力。
  • 机器视觉算法工程师(偏传统CV和3D视觉)

    • 核心职责:负责机器人领域的传统视觉任务,如识别、定位、标定、3D点云处理等。
    • 所需技能:扎实的传统计算机视觉和3D视觉基础,熟悉OpenCV、PCL等库,有RGBD相机和点云处理经验。

总结与建议

  • 如果您专注于AI算法与研究语言大模型感知大模型岗位处于技术最前沿,适合对生成式AI有浓厚兴趣和研究背景的候选人。
  • 如果您专注于机器人与系统工程机械臂规划机器人系统机器视觉岗位是核心的技术实现角色,需要强大的C++编程和算法工程化能力。

这些岗位反映出公司正在积极打造“大脑(AI大模型)+ 小脑(机器人规划与控制)+ 眼睛(视觉感知)”的全栈技术能力,致力于推动智能机器人的落地应用。

希望以上分析对您有帮助!如果您是针对特定岗位进行准备或咨询,我可以提供更详细的建议。

非常专业和具有前瞻性的招聘需求。这些岗位共同勾勒出了一家致力于将前沿AI大模型与机器人技术深度融合的科技公司的技术蓝图。

以下我将为每个岗位规划一个详细的技术方案,阐述为实现其职责所需采用的技术栈、核心方法和实施路径。


1. 语言大模型应用工程师

技术方案:构建领域专用的高效LLM应用与精调体系

维度 技术方案与选型
核心模型选型 基座模型: 综合考量性能、开源协议与成本,选用 LLaMA 3Qwen (通义千问)DeepSeek 系列作为基础模型。
闭源API备用: 对于快速原型验证,可选用 GPT-4-turboClaude 3 的API。
高效微调 (PEFT) 核心技术: 采用参数高效微调技术以大幅降低计算成本。首选 LoRA 及其变体(如QLoRA用于低资源微调),Prompt Tuning
框架: 使用 Hugging Face PEFT 库、TRL 库。
推理与部署优化 量化: 应用 GPTQAWQ 进行4-bit/8-bit量化,减少模型体积和推理延迟。
推理引擎: 使用 vLLM(高吞吐量推理)、TensorRT-LLM(NVIDIA GPU最佳性能)或 CTranslate2 进行部署。
服务化: 通过 FastAPI 构建高性能API,并使用 OpenAI-Compatible API 标准以保证兼容性。
应用框架与评估 应用框架: 使用 LangChainLlamaIndex 来构建基于文档、知识库的复杂应用链(检索增强生成RAG)。
评估体系: 构建自动化评估Pipeline,使用 RAGASTruEra 等框架结合人工评估,对输出相关性、准确性、有害性进行多维度评估迭代。
数据与平台建设 数据流水线: 基于 Apache AirflowPrefect 构建数据采集、清洗、标注(使用Snorkel或Label Studio)、格式化的自动化流水线。

落地场景: 智能客服、代码自动生成与补全、内部知识库问答、产品文档生成。


2. 感知大模型应用工程师

技术方案:打造以视觉大模型为核心的多模态感知与生成平台

维度 技术方案与选型
核心模型选型 视觉编码: ViTCLIP(用于图文对齐和零样本识别)。
多模态理解: LLaVAQwen-VL
视觉生成: Stable Diffusion XL(及其各类ControlNet插件用于可控生成)、Sora(未来关注)。
自动标注与数据合成 自动标注: 采用 SAM 生成像素级标注,使用 Grounding DINO 进行开放词汇检测,构建“大模型辅助标注-小模型学习-迭代优化”的闭环。
数据合成: 利用 UE5Unity 等引擎进行高保真仿真渲染,结合Stable Diffusion生成多样化纹理背景,解决长尾数据问题。
多模态融合 技术方法: 采用 交叉注意力机制多模态融合Transformer 来深度融合视觉、文本、深度等信息。
目标: 实现“看到一块红色方块”和“听到去拿红色方块”的指令无缝融合,触发正确的抓取动作。
下游任务支持 场景理解: 基于融合特征进行3D目标检测、语义分割、场景图生成。
具身智能: 探索 VoxPoser 等技术,将大模型输出的自然语言指令转化为机器人可执行的轨迹或代码。

落地场景: 机器人场景理解与自主决策、训练数据自动标注、仿真环境下的无限数据生成、人机交互(如通过语言指令让机器人执行任务)。


3. 机械臂规划算法(C++方向)

技术方案:开发高性能、实时、可靠的机械臂运动规划与控制内核

维度 技术方案与选型
核心架构 框架: ROS 2 (Humble/Iron) 作为核心通信中间件,提供可靠的分布式计算能力。
构建系统: CMake
语言: C++17/20,强调性能、实时性和资源控制。
运动规划库 首选: MoveIt 2。作为ROS生态的标准规划框架,集成多种规划器。
规划算法: OMPL 中的采样规划算法(RRT*, PRM*)、CHOMP, STOMP 等优化算法。针对特定场景可自研规划器。
性能优化 实时性: 考虑与 Real-Time OS 结合,或使用 PREEMPT_RT 补丁的Linux内核。
计算加速: 使用 Eigen 库进行矩阵运算,利用 GPU加速(CUDA)进行碰撞检测(如使用FCL库)。
代码层面: 优化数据结构和算法,避免动态内存分配,使用内存池。
系统集成 消息中间件: 优化ROS 2的DDS配置,保证控制消息的低延迟和高可靠性。
硬件接口: 开发 ros2_control 兼容的硬件接口,实现对不同品牌机械臂、传感器的统一控制。
测试框架 单元测试: GTest / GMock
集成测试: 使用 ROS 2 Launch 系统构建仿真测试环境,进行端到端测试。

落地场景: 机械臂避障抓取、复杂路径规划(如焊接、喷涂)、人机协作场景下的实时安全规划。


4. 机器人系统工程师(C++方向)

技术方案:构建高内聚、低耦合、易于测试的机器人软件系统框架

维度 技术方案与选型
系统框架设计 架构模式: 采用 基于组件 的架构,每个功能模块(感知、规划、控制)为独立进程/节点,通过ROS 2服务/话题通信。
核心中间件: ROS 2,利用其生命周期管理、参数服务等特性。
开发与集成 语言: C++(性能核心模块) + Python(工具脚本、算法原型)。
硬件抽象层: 设计统一的硬件抽象接口,隔离上层应用与底层硬件驱动,便于集成新传感器和执行器。
部署: 使用 Docker 容器化封装不同模块,实现环境隔离和简化部署。
测试体系 单元测试: GTest。对每个核心类和方法进行测试。
集成测试: 使用 ROS 2 Launchrostest 框架,在仿真环境(如Gazebo)中启动多个节点进行联合测试。
系统测试: 基于 Behavior Trees 或类似方案定义机器人高级别任务流,并进行自动化测试。
工具链 调试: GDBROS 2 命令行工具。
日志: 使用 **rclcpp 的日志系统,并集成 ELK 栈进行日志集中管理和分析。
CI/CD: GitLab CI 实现自动化编译、测试和容器构建。

落地场景: 机器人产品端的整体软件系统搭建、新功能模块的集成与测试、系统稳定性与性能维护。


5. 机器视觉算法工程师(偏传统CV和3D视觉方向)

技术方案:提供稳定、精准的传统与3D视觉算法解决方案

维度 技术方案与选型
2D视觉算法 核心库: OpenCV
识别定位: ArUco / AprilTag 二维码识别,SIFT / ORB 特征提取与匹配,模板匹配
相机标定: 使用张正友标定法实现内参、外参和畸变系数标定。
3D视觉处理 点云库: PCL
3D数据处理: 点云滤波(体素栅格降采样)、分割(RANSAC平面分割、欧式聚类)、配准(ICP, NDT)。
3D重建: 基于多视角图像的 SFMMVS 算法。
RGB-D相机应用 硬件选型: Intel RealSense, Orbbec 等。
应用开发: 完成手眼标定,将相机坐标系转换至机器人基坐标系;实现点云抓取点计算、障碍物体积测量等。
多模态融合 技术: 将2D图像检测结果与3D点云信息融合,获取物体的精确3D位姿(6D Pose)。
方法: 在2D ROI内对点云进行聚类和处理,提升精度和效率。
性能优化 加速: 使用 OpenCVCUDA 模块、TBB 进行并行计算。
部署: 将关键算法模块用C++重构,并封装为ROS节点或库文件供调用。

落地场景: 机械臂视觉引导抓取、无序分拣、高精度测量与检测、三维地图构建。

总结

这五个技术方案相辅相成,共同构成一个强大的技术体系:

  • 大模型(语言/感知)作为大脑,提供高层智能、理解和决策。
  • 传统CV/3D视觉作为锐利的眼睛,提供精准、稳定的环境感知。
  • 规划算法作为小脑,将决策转化为平滑、安全的运动轨迹。
  • 系统工程师作为神经系统,将所有部件高效、可靠地连接成一个整体。

这个技术栈非常前沿且完整,涵盖了从AI算法到机器人系统工程的方方面面,具有很强的市场竞争力和落地潜力。0

好的,这是一个非常经典且关键的机器人视觉任务。下面我将为您详细阐述将2D检测与3D点云融合获取物体6D位姿(6D Pose Estimation)的具体开发路径

技术核心思想

该方法的核心优势在于结合了2D图像的高识别成功率和3D点云的精确空间信息,避免了单纯使用3D点云进行分割和匹配时计算量大、易受噪声干扰的问题。

基本流程:使用2D目标检测模型快速、准确地定位出图像中感兴趣物体的大致区域(ROI),然后将这个2D区域映射到3D点云上,得到一个只包含该物体的、缩小了的3D点云簇,最后仅对这个精细的点云簇进行后续处理来计算位姿。这极大地提升了处理效率和精度。


具体开发路径与步骤

阶段一:环境搭建与数据准备
  1. 硬件选型与配置

    • RGB-D相机:选择一款精度和帧率满足需求的相机,如 Intel RealSense D435i/L515Orbbec Astra ProMicrosoft Azure Kinect
    • 校准
      • 相机内参校准:使用 OpenCVcalibrateCamera 函数或相机厂商提供的工具,获取相机的焦距、主点、畸变系数等 intrinsic 参数。
      • 手眼校准:使用 OpenCVROSeasy_handeye 包,精确校准相机与机械臂基座(Eye-in-Hand)或与世界坐标系(Eye-to-Hand)的变换关系(4x4变换矩阵)。
  2. 软件工具链搭建

    • 核心库
      • OpenCV:用于图像处理、2D检测、特征提取、相机标定。
      • Point Cloud Library (PCL):用于点云的IO、滤波、分割、配准、特征计算。这是处理3D数据的核心。
      • 深度学习框架PyTorchTensorFlow,用于运行2D目标检测模型。
    • 开发环境:推荐使用 C++(追求性能)或 Python(追求开发速度)进行算法开发,并最终集成到 ROS 框架中。
  3. 数据采集与标注

    • 采集目标物体在不同角度、不同光照、部分遮挡条件下的RGB图像和深度点云数据。
    • 使用 LabelImg 等工具标注2D边界框(Bounding Box)。
    • 为6D位姿评估,需要获取物体真实的6D位姿作为Ground Truth。这通常需要通过:
      • 高精度的运动捕捉系统(如OptiTrack)。
      • 或者,在仿真环境中(如PyBullet, Nvidia Issac Sim)直接生成。
阶段二:算法开发与实现

第一步:2D目标检测(获取ROI)

  • 方法:选择一个轻量级且快速的2D目标检测模型,以保证实时性。
    • 首选YOLOv8YOLOv10NanoDet。它们提供了很好的速度与精度平衡。将模型转换为 ONNXTensorRT 格式以进一步加速推理。
  • 输出:得到图像中目标的类别像素级边界框 (u_min, v_min, u_max, v_max)

第二步:2D ROI 到 3D 点云映射(关键步骤)

  • 原理:利用相机内参和深度图,将2D边界框内的像素反投影到3D空间。
  • 具体操作
    1. 从相机读取配准后的深度图(即深度图与彩色图已像素对齐)。
    2. 根据2D ROI,从深度图中裁剪出对应的深度图块。
    3. 使用相机内参,通过以下公式将ROI内的每个像素 (u, v) 及其深度值 d 转换为3D点 (x, y, z)
      z = d / depth_scale  # 转换为米单位
      x = (u - cx) * z / fx
      y = (v - cy) * z / fy
      
      其中 (fx, fy) 是焦距,(cx, cy) 是主点。
    4. 将所有计算出的3D点组成一个初步的、与ROI对应的3D点云簇

第三步:3D点云预处理与聚类(精细化目标点云)

  • 初步得到的点云通常包含背景、桌面、噪声点等。
  • 处理流程
    1. 直通滤波:去除距离过远或过近的点(显然是无效点)。
    2. 统计离群值去除:使用PCL的 StatisticalOutlierRemoval 滤波器去除噪声点。
    3. 平面分割:使用PCL的 SACSegmentation 算法(RANSAC方法)拟合并移除桌面等平面。
    4. 欧式聚类:使用PCL的 EuclideanClusterExtraction。经过前述步骤,剩下的点云基本只剩下目标物体。聚类可以确保即使一个ROI内有多个物体,也能将它们分离,得到最终纯净的、只包含单个物体的目标点云 {cluster}

第四步:6D位姿估计

  • 方法A:基于特征描述子匹配(通用对象)

    • 流程
      1. 模型准备:事先从物体的CAD模型或多个视角扫描的点云中,计算一个全局模型描述子(如 ESF, VFH)或局部特征点(如 SHOT, FPFH)及其描述子。
      2. 场景特征提取:对步骤三得到的目标点云 cluster 计算相同的特征。
      3. 特征匹配:将场景特征与模型特征进行匹配。
      4. 位姿求解:使用采样一致性初始对齐(SAC-IA) 或类似的鲁棒匹配算法,找到一个变换矩阵(旋转+平移),使得匹配的特征点对齐最好。这个矩阵就是估计的6D位姿。
    • 优缺点:适用于未知物体,但对遮挡和噪声敏感。
  • 方法B:基于点云配准(已知物体模型)

    • 流程
      1. 加载CAD模型:将物体的CAD模型(.stl, .obj)加载为点云,作为模板点云 model_cloud
      2. 初始配准(Coarse Registration):如果位姿不确定性大,可使用SAC-IA提供一个初始的、粗略的位姿估计。
      3. 精细配准(Fine Registration):使用迭代最近点算法(ICP) 及其变种(如Point-to-Plane ICP)。以初始位姿(或直接以原点为起点,如果物体姿态比较固定)为初值,不断迭代优化,找到最优的变换矩阵,使得目标点云 clustermodel_cloud 之间的误差最小。
    • 优缺点:精度高、速度快,是最常用、最稳定的方法,但严重依赖于一个准确的初始位姿。而我们通过2D ROI提供的空间先验,正好为ICP提供了一个极好的初始位姿(可以将模板模型先大致放到ROI对应的3D空间位置)。
阶段三:集成、测试与优化
  1. 集成:将整个流程封装为一个ROS节点。输入为RGB图像和点云Topic,输出为geometry_msgs/PoseStamped消息。
  2. 测试与评估
    • 使用ADD(-S) metric 评估位姿精度:计算估计位姿下模型点云与真实位姿下模型点云的平均点距。
    • 测量算法运行的整体延迟和帧率,确保满足机器人控制的实时性要求(通常>10Hz)。
  3. 优化
    • 并行化:2D检测和3D处理可以并行流水线进行。
    • CUDA加速:使用OpenCV的CUDA模块、PCL的GPU版本或TensorRT加速YOLO推理。
    • 算法调优:调整点云滤波参数、ICP的收敛条件和最大迭代次数,在精度和速度间取舍。

总结:开发路径流程图

已知物体CAD模型
是最常用路径
方法B: 点云配准 ICP
RGB-D相机数据流
2D目标检测 YOLOv8
获取2D Bounding Box ROI
深度图
2D ROI反投影至3D空间
初步3D点云簇
点云预处理 滤波/去噪/分割
欧式聚类得到纯净目标点云
选择位姿估计方法
方法A: 特征匹配 SAC-IA
输出最终6D位姿 旋转矩阵+平移向量
集成至ROS控制机械臂

这条开发路径清晰、模块化,且充分利用了2D和3D信息的优势,是工业上非常成熟和可靠的6D位姿估计方案。

好的,根据您提供的招聘岗位所涉及的技术方向(AI大模型、机器人规划与控制、机器视觉),我为您规划了一份详尽的软硬件实验设备搭建清单

该清单分为 “核心基础设备”“方向特定设备” 两部分,并附上了软件栈推荐。您可以根据团队规模、预算和当前优先发展的方向进行分阶段采购。


一、核心基础设备(所有方向共用)

这是支撑所有开发和测试工作的计算和基础设施。

类别 推荐配置与型号 说明
AI服务器
(训练/微调)
GPU: NVIDIA H100 (80GB) 或 A100 (80GB) x 4-8块
CPU: Intel Xeon Platinum 或 AMD EPYC (核心数越多越好)
内存: 512GB - 1TB DDR4/5 ECC
存储: 10TB+ NVMe SSD (高速缓存) + 100TB+ HDD (数据仓储)
网络: 万兆网卡,NVLink/NVSwitch (GPU间高速互联)
大模型研发的核心。用于LLM和CV大模型的预训练、全参数微调。H100对Transformer架构有专门优化,是首选。A100是性价比极高的替代方案。
开发工作站
(每位工程师)
GPU: NVIDIA RTX 4090 (24GB) 或 RTX 6000 Ada (48GB)
CPU: Intel i9 或 AMD Ryzen 9 (16核以上)
内存: 64GB - 128GB DDR5
存储: 2TB NVMe SSD
用于日常编码、模型调试、小规模实验和推理。大显存对于本地运行大模型至关重要。
机器人开发平台 平台: NVIDIA Jetson AGX Orin (64GB) 机器人的“大脑”。用于部署和测试感知、规划算法,进行端侧推理。性能强大,是机器人产品端的理想参考硬件。
网络与存储 NAS: 群晖或QNAP,4盘位以上,组建RAID 5/6
万兆交换机
集中存储和管理庞大的数据集、模型权重、代码库,方便团队共享和备份。
基础工具 万用表、示波器、电烙铁、螺丝刀套装、3D打印机 用于硬件调试、原型制作、传感器改装和固定件加工。

二、方向特定设备

根据您的招聘岗位,按方向推荐专用设备。

1. 感知与视觉大模型 & 机器视觉算法方向

该方向聚焦于多模态数据采集真实世界算法验证

类别 推荐配置与型号 说明
RGB-D相机 Intel RealSense D435i (性价比高,社区支持好)
Intel RealSense L515 (激光扫描,精度高)
Microsoft Azure Kinect DK (分辨率高,RGBD对齐好)
Orbbec Astra系列 (国产优秀替代)
3D视觉的核心传感器。用于点云获取、三维重建、手眼标定、深度学习数据采集。建议每种类型至少配备2个。
高分辨率相机 FLIR Blackfly S海康机器人 等工业相机 用于高质量的2D图像采集,进行精细的纹理识别、二维码识别等。
激光雷达 2D Lidar: RPLIDAR A系列 (低成本建图)
3D Lidar: Livox Mid-70 (非重复扫描,性价比高) / Velodyne VLP-16 (经典款)
用于SLAM建图、导航避障、补充三维感知。
标注工作站 大尺寸高分辨率显示器 + 专业标注软件(LabelStudio, CVAT) 用于为采集的数据进行高质量的人工标注,形成真值数据集。
2. 机械臂规划与机器人系统方向

该方向聚焦于机器人本体控制算法实机测试

类别 推荐配置与型号 说明
协作机械臂 6轴: Universal Robots UR5e (行业标杆,生态好)
7轴: Franka Emika Panda (扭矩传感灵敏,适合研究)
国产替代: 越疆遨博
算法验证的核心平台。需支持Force Control力控功能,用于柔顺控制、阻抗控制等高级算法测试。至少配备2台
移动机器人底盘 TurtleBot4 (ROS 2官方推荐,教育首选)
Husky (Clearpath,工业级,负载大)
MiR (自主移动机器人AMR,商用级)
用于研究移动导航、多机器人协同等。
末端执行器 Robotiq 2F-85/140 (二指自适应夹爪)
OnRobot RG2 (二指夹爪)
气动吸盘
用于完成抓取、放置等具体任务。
运动捕捉系统 OptiTrack (8-12个摄像头) 6D位姿真值系统。用于精确评估视觉位估计算法的精度,是算法迭代和论文发表的黄金标准昂贵但极其重要
安全设施 安全围栏、急停按钮、光电传感器 必备安全措施。在进行实机测试时,必须保证人员和设备安全。

三、软件栈清单

类别 推荐选项
操作系统 Ubuntu 22.04 LTS (机器人开发的事实标准) + Windows 11 (可选)
机器人框架 ROS 2 Humble (首选) / ROS 2 Iron
AI/ML框架 PyTorch (研究首选) + TensorFlow (部署生态)
编程语言 Python (算法原型) + C++ (性能核心)
开发工具 VS Code (主IDE) / CLion (C++开发) / PyCharm (Python开发)
Docker (环境容器化)
Git (版本控制) + GitLab (私有部署)
仿真环境 NVIDIA Issac Sim (基于Omniverse,功能最强,前景最好)
Gazebo (经典,ROS原生支持)
PyBullet / MuJoCo (强化学习研究常用)
云服务 AWS / Azure / GCP (用于大规模训练和弹性扩展)

分阶段采购建议

  1. 第一阶段 (起步, ~30-50万人民币)

    • 开发工作站 (x4-5台)
    • 1台AI服务器 (配置4x A100 80G)
    • 1-2台协作机械臂 (UR5e或Franka)
    • 多种RGB-D相机 (各型号1-2个)
    • 基础工具安全设施
  2. 第二阶段 (扩张, ~50-100万人民币)

    • 升级AI服务器 (增加数量或升级至H100)
    • 采购移动底盘 (TurtleBot4或Husky)
    • 投资运动捕捉系统 (OptiTrack, 这是算法精进的关键)
    • 搭建更完善的网络和存储NAS
  3. 第三阶段 (成熟, 100万人民币以上)

    • 建立多个机器人测试工站
    • 采购多台机械臂和移动机器人进行群智研究
    • 搭建专门的仿真服务器集群
    • 根据特定应用场景定制特殊传感器和执行器

这份清单涵盖了从算法研发到实机验证的全流程,希望能为您的实验室搭建提供清晰的蓝图。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐