【厨房智能工程师岗位职责】

kalvin_y_liu

1016人浏览 · 2025-09-06 13:38:05

kalvin_y_liu · 2025-09-06 13:38:05 发布

从您提供的招聘信息来看，这是一家专注于人工智能、机器人技术和多模态大模型研发的科技公司，业务方向非常前沿。这些岗位主要可以分为两大类：AI大模型研发和机器人系统与算法开发。

以下是每个岗位的核心职责与所需技能的简要分析，供您参考：

1. AI大模型研发类

这类岗位聚焦于当前最热门的大语言模型和多模态生成式AI技术。

语言大模型应用工程师
- 核心职责：大型语言模型的推理优化、领域适配（微调）、评估以及应用落地（如代码生成、智能对话）。
- 所需技能：精通LLM（如GPT、LLaMA等）的推理和微调技术（如LoRA, P-Tuning），有LangChain等应用框架经验更佳。需要强大的工程实现和模型迭代能力。
感知大模型应用工程师
- 核心职责：研发视觉和多模态大模型，用于机器人感知、场景理解、数据自动标注和生成。
- 所需技能：精通CV、多模态模型（如Stable Diffusion, CLIP, DALL-E），熟悉视觉生成、多模态融合等技术。目标是提升机器人的感知泛化能力。

2. 机器人技术与算法类

这类岗位更偏向机器人的具体实现，需要扎实的C++和传统算法功底。

机械臂规划算法工程师（C++方向）
- 核心职责：负责机械臂的运动规划算法开发、性能优化，并集成到机器人系统中。
- 所需技能：强大的C++编程能力，熟悉运动规划算法（如RRT, PRM），有ROS框架和机器人控制系统集成经验者优先。
机器人系统工程师（C++方向）
- 核心职责：负责机器人端侧软件的开发、系统框架搭建和模块集成，更偏向底层系统和软件工程。
- 所需技能：精通C++，具备机器人系统开发、模块集成和单元测试框架搭建的能力。
机器视觉算法工程师（偏传统CV和3D视觉）
- 核心职责：负责机器人领域的传统视觉任务，如识别、定位、标定、3D点云处理等。
- 所需技能：扎实的传统计算机视觉和3D视觉基础，熟悉OpenCV、PCL等库，有RGBD相机和点云处理经验。

总结与建议

如果您专注于AI算法与研究：语言大模型和感知大模型岗位处于技术最前沿，适合对生成式AI有浓厚兴趣和研究背景的候选人。
如果您专注于机器人与系统工程：机械臂规划、机器人系统和机器视觉岗位是核心的技术实现角色，需要强大的C++编程和算法工程化能力。

这些岗位反映出公司正在积极打造“大脑（AI大模型）+ 小脑（机器人规划与控制）+ 眼睛（视觉感知）”的全栈技术能力，致力于推动智能机器人的落地应用。

希望以上分析对您有帮助！如果您是针对特定岗位进行准备或咨询，我可以提供更详细的建议。

非常专业和具有前瞻性的招聘需求。这些岗位共同勾勒出了一家致力于将前沿AI大模型与机器人技术深度融合的科技公司的技术蓝图。

以下我将为每个岗位规划一个详细的技术方案，阐述为实现其职责所需采用的技术栈、核心方法和实施路径。

1. 语言大模型应用工程师

技术方案：构建领域专用的高效LLM应用与精调体系

维度	技术方案与选型
核心模型选型	基座模型：综合考量性能、开源协议与成本，选用 LLaMA 3、Qwen (通义千问) 或 DeepSeek 系列作为基础模型。闭源API备用：对于快速原型验证，可选用 GPT-4-turbo、Claude 3 的API。
高效微调 (PEFT)	核心技术：采用参数高效微调技术以大幅降低计算成本。首选 LoRA 及其变体（如QLoRA用于低资源微调），Prompt Tuning。框架：使用 Hugging Face PEFT 库、TRL 库。
推理与部署优化	量化：应用 GPTQ、AWQ 进行4-bit/8-bit量化，减少模型体积和推理延迟。推理引擎：使用 vLLM（高吞吐量推理）、TensorRT-LLM（NVIDIA GPU最佳性能）或 CTranslate2 进行部署。服务化：通过 FastAPI 构建高性能API，并使用 OpenAI-Compatible API 标准以保证兼容性。
应用框架与评估	应用框架：使用 LangChain 或 LlamaIndex 来构建基于文档、知识库的复杂应用链（检索增强生成RAG）。评估体系：构建自动化评估Pipeline，使用 RAGAS、TruEra 等框架结合人工评估，对输出相关性、准确性、有害性进行多维度评估迭代。
数据与平台建设	数据流水线：基于 Apache Airflow 或 Prefect 构建数据采集、清洗、标注（使用Snorkel或Label Studio）、格式化的自动化流水线。

落地场景： 智能客服、代码自动生成与补全、内部知识库问答、产品文档生成。

2. 感知大模型应用工程师

技术方案：打造以视觉大模型为核心的多模态感知与生成平台

维度	技术方案与选型
核心模型选型	视觉编码： ViT、CLIP（用于图文对齐和零样本识别）。多模态理解： LLaVA、Qwen-VL。视觉生成： Stable Diffusion XL（及其各类ControlNet插件用于可控生成）、Sora（未来关注）。
自动标注与数据合成	自动标注：采用 SAM 生成像素级标注，使用 Grounding DINO 进行开放词汇检测，构建“大模型辅助标注-小模型学习-迭代优化”的闭环。数据合成：利用 UE5、Unity 等引擎进行高保真仿真渲染，结合Stable Diffusion生成多样化纹理背景，解决长尾数据问题。
多模态融合	技术方法：采用交叉注意力机制、多模态融合Transformer 来深度融合视觉、文本、深度等信息。目标：实现“看到一块红色方块”和“听到去拿红色方块”的指令无缝融合，触发正确的抓取动作。
下游任务支持	场景理解：基于融合特征进行3D目标检测、语义分割、场景图生成。具身智能：探索 VoxPoser 等技术，将大模型输出的自然语言指令转化为机器人可执行的轨迹或代码。

落地场景： 机器人场景理解与自主决策、训练数据自动标注、仿真环境下的无限数据生成、人机交互（如通过语言指令让机器人执行任务）。

3. 机械臂规划算法（C++方向）

技术方案：开发高性能、实时、可靠的机械臂运动规划与控制内核

维度	技术方案与选型
核心架构	框架： ROS 2 (Humble/Iron) 作为核心通信中间件，提供可靠的分布式计算能力。构建系统： CMake。语言： C++17/20，强调性能、实时性和资源控制。
运动规划库	首选： MoveIt 2。作为ROS生态的标准规划框架，集成多种规划器。规划算法： OMPL 中的采样规划算法（RRT, PRM）、CHOMP, STOMP** 等优化算法。针对特定场景可自研规划器。
性能优化	实时性：考虑与 Real-Time OS 结合，或使用 PREEMPT_RT 补丁的Linux内核。计算加速：使用 Eigen 库进行矩阵运算，利用 GPU加速（CUDA）进行碰撞检测（如使用FCL库）。代码层面：优化数据结构和算法，避免动态内存分配，使用内存池。
系统集成	消息中间件：优化ROS 2的DDS配置，保证控制消息的低延迟和高可靠性。硬件接口：开发 ros2_control 兼容的硬件接口，实现对不同品牌机械臂、传感器的统一控制。
测试框架	单元测试： GTest / GMock。集成测试：使用 ROS 2 Launch 系统构建仿真测试环境，进行端到端测试。

落地场景： 机械臂避障抓取、复杂路径规划（如焊接、喷涂）、人机协作场景下的实时安全规划。

4. 机器人系统工程师（C++方向）

技术方案：构建高内聚、低耦合、易于测试的机器人软件系统框架

维度	技术方案与选型
系统框架设计	架构模式：采用基于组件的架构，每个功能模块（感知、规划、控制）为独立进程/节点，通过ROS 2服务/话题通信。核心中间件： ROS 2，利用其生命周期管理、参数服务等特性。
开发与集成	语言： C++（性能核心模块） + Python（工具脚本、算法原型）。硬件抽象层：设计统一的硬件抽象接口，隔离上层应用与底层硬件驱动，便于集成新传感器和执行器。部署：使用 Docker 容器化封装不同模块，实现环境隔离和简化部署。
测试体系	单元测试： GTest。对每个核心类和方法进行测试。集成测试：使用 ROS 2 Launch 和 rostest 框架，在仿真环境（如Gazebo）中启动多个节点进行联合测试。系统测试：基于 Behavior Trees 或类似方案定义机器人高级别任务流，并进行自动化测试。
工具链	调试： GDB， ROS 2 命令行工具。日志：使用 rclcpp `的日志系统`，并集成 ELK 栈进行日志集中管理和分析。 CI/CD： GitLab CI** 实现自动化编译、测试和容器构建。

落地场景： 机器人产品端的整体软件系统搭建、新功能模块的集成与测试、系统稳定性与性能维护。

5. 机器视觉算法工程师（偏传统CV和3D视觉方向）

技术方案：提供稳定、精准的传统与3D视觉算法解决方案

维度	技术方案与选型
2D视觉算法	核心库： OpenCV。识别定位： ArUco / AprilTag 二维码识别，SIFT / ORB 特征提取与匹配，模板匹配。相机标定：使用张正友标定法实现内参、外参和畸变系数标定。
3D视觉处理	点云库： PCL。 3D数据处理：点云滤波（体素栅格降采样）、分割（RANSAC平面分割、欧式聚类）、配准（ICP, NDT）。 3D重建：基于多视角图像的 SFM、MVS 算法。
RGB-D相机应用	硬件选型： Intel RealSense, Orbbec 等。应用开发：完成手眼标定，将相机坐标系转换至机器人基坐标系；实现点云抓取点计算、障碍物体积测量等。
多模态融合	技术：将2D图像检测结果与3D点云信息融合，获取物体的精确3D位姿（6D Pose）。方法：在2D ROI内对点云进行聚类和处理，提升精度和效率。
性能优化	加速：使用 OpenCV 的 CUDA 模块、TBB 进行并行计算。部署：将关键算法模块用C++重构，并封装为ROS节点或库文件供调用。

落地场景： 机械臂视觉引导抓取、无序分拣、高精度测量与检测、三维地图构建。

总结

这五个技术方案相辅相成，共同构成一个强大的技术体系：

大模型（语言/感知）作为大脑，提供高层智能、理解和决策。
传统CV/3D视觉作为锐利的眼睛，提供精准、稳定的环境感知。
规划算法作为小脑，将决策转化为平滑、安全的运动轨迹。
系统工程师作为神经系统，将所有部件高效、可靠地连接成一个整体。

这个技术栈非常前沿且完整，涵盖了从AI算法到机器人系统工程的方方面面，具有很强的市场竞争力和落地潜力。0

好的，这是一个非常经典且关键的机器人视觉任务。下面我将为您详细阐述将2D检测与3D点云融合获取物体6D位姿（6D Pose Estimation）的具体开发路径。

技术核心思想

该方法的核心优势在于结合了2D图像的高识别成功率和3D点云的精确空间信息，避免了单纯使用3D点云进行分割和匹配时计算量大、易受噪声干扰的问题。

基本流程：使用2D目标检测模型快速、准确地定位出图像中感兴趣物体的大致区域（ROI），然后将这个2D区域映射到3D点云上，得到一个只包含该物体的、缩小了的3D点云簇，最后仅对这个精细的点云簇进行后续处理来计算位姿。这极大地提升了处理效率和精度。

具体开发路径与步骤

阶段一：环境搭建与数据准备

硬件选型与配置
- RGB-D相机：选择一款精度和帧率满足需求的相机，如 Intel RealSense D435i/L515、Orbbec Astra Pro 或 Microsoft Azure Kinect。
- 校准：
  - 相机内参校准：使用 OpenCV 的 calibrateCamera 函数或相机厂商提供的工具，获取相机的焦距、主点、畸变系数等 intrinsic 参数。
  - 手眼校准：使用 OpenCV 或 ROS 的 easy_handeye 包，精确校准相机与机械臂基座（Eye-in-Hand）或与世界坐标系（Eye-to-Hand）的变换关系（4x4变换矩阵）。
软件工具链搭建
- 核心库：
  - OpenCV：用于图像处理、2D检测、特征提取、相机标定。
  - Point Cloud Library (PCL)：用于点云的IO、滤波、分割、配准、特征计算。这是处理3D数据的核心。
  - 深度学习框架：PyTorch 或 TensorFlow，用于运行2D目标检测模型。
- 开发环境：推荐使用 C++（追求性能）或 Python（追求开发速度）进行算法开发，并最终集成到 ROS 框架中。
数据采集与标注
- 采集目标物体在不同角度、不同光照、部分遮挡条件下的RGB图像和深度点云数据。
- 使用 LabelImg 等工具标注2D边界框（Bounding Box）。
- 为6D位姿评估，需要获取物体真实的6D位姿作为Ground Truth。这通常需要通过：
  - 高精度的运动捕捉系统（如OptiTrack）。
  - 或者，在仿真环境中（如PyBullet, Nvidia Issac Sim）直接生成。

阶段二：算法开发与实现

第一步：2D目标检测（获取ROI）

方法：选择一个轻量级且快速的2D目标检测模型，以保证实时性。
- 首选：YOLOv8、YOLOv10 或 NanoDet。它们提供了很好的速度与精度平衡。将模型转换为 ONNX 或 TensorRT 格式以进一步加速推理。
输出：得到图像中目标的类别和像素级边界框 (u_min, v_min, u_max, v_max)。

第二步：2D ROI 到 3D 点云映射（关键步骤）

原理：利用相机内参和深度图，将2D边界框内的像素反投影到3D空间。
具体操作：
1. 从相机读取配准后的深度图（即深度图与彩色图已像素对齐）。
2. 根据2D ROI，从深度图中裁剪出对应的深度图块。
3. 使用相机内参，通过以下公式将ROI内的每个像素 (u, v) 及其深度值 d 转换为3D点 (x, y, z)：
```
z = d / depth_scale  # 转换为米单位
x = (u - cx) * z / fx
y = (v - cy) * z / fy
```
  其中 (fx, fy) 是焦距，(cx, cy) 是主点。
4. 将所有计算出的3D点组成一个初步的、与ROI对应的3D点云簇。

第三步：3D点云预处理与聚类（精细化目标点云）

初步得到的点云通常包含背景、桌面、噪声点等。
处理流程：
1. 直通滤波：去除距离过远或过近的点（显然是无效点）。
2. 统计离群值去除：使用PCL的 StatisticalOutlierRemoval 滤波器去除噪声点。
3. 平面分割：使用PCL的 SACSegmentation 算法（RANSAC方法）拟合并移除桌面等平面。
4. 欧式聚类：使用PCL的 EuclideanClusterExtraction。经过前述步骤，剩下的点云基本只剩下目标物体。聚类可以确保即使一个ROI内有多个物体，也能将它们分离，得到最终纯净的、只包含单个物体的目标点云 {cluster}。

第四步：6D位姿估计

方法A：基于特征描述子匹配（通用对象）
- 流程：
  1. 模型准备：事先从物体的CAD模型或多个视角扫描的点云中，计算一个全局模型描述子（如 ESF, VFH）或局部特征点（如 SHOT, FPFH）及其描述子。
  2. 场景特征提取：对步骤三得到的目标点云 cluster 计算相同的特征。
  3. 特征匹配：将场景特征与模型特征进行匹配。
  4. 位姿求解：使用采样一致性初始对齐（SAC-IA） 或类似的鲁棒匹配算法，找到一个变换矩阵（旋转+平移），使得匹配的特征点对齐最好。这个矩阵就是估计的6D位姿。
- 优缺点：适用于未知物体，但对遮挡和噪声敏感。
方法B：基于点云配准（已知物体模型）
- 流程：
  1. 加载CAD模型：将物体的CAD模型（.stl, .obj）加载为点云，作为模板点云 model_cloud。
  2. 初始配准（Coarse Registration）：如果位姿不确定性大，可使用SAC-IA提供一个初始的、粗略的位姿估计。
  3. 精细配准（Fine Registration）：使用迭代最近点算法（ICP） 及其变种（如Point-to-Plane ICP）。以初始位姿（或直接以原点为起点，如果物体姿态比较固定）为初值，不断迭代优化，找到最优的变换矩阵，使得目标点云 cluster 与 model_cloud 之间的误差最小。
- 优缺点：精度高、速度快，是最常用、最稳定的方法，但严重依赖于一个准确的初始位姿。而我们通过2D ROI提供的空间先验，正好为ICP提供了一个极好的初始位姿（可以将模板模型先大致放到ROI对应的3D空间位置）。

阶段三：集成、测试与优化

集成：将整个流程封装为一个ROS节点。输入为RGB图像和点云Topic，输出为geometry_msgs/PoseStamped消息。
测试与评估：
- 使用ADD(-S) metric 评估位姿精度：计算估计位姿下模型点云与真实位姿下模型点云的平均点距。
- 测量算法运行的整体延迟和帧率，确保满足机器人控制的实时性要求（通常>10Hz）。
优化：
- 并行化：2D检测和3D处理可以并行流水线进行。
- CUDA加速：使用OpenCV的CUDA模块、PCL的GPU版本或TensorRT加速YOLO推理。
- 算法调优：调整点云滤波参数、ICP的收敛条件和最大迭代次数，在精度和速度间取舍。

总结：开发路径流程图

这条开发路径清晰、模块化，且充分利用了2D和3D信息的优势，是工业上非常成熟和可靠的6D位姿估计方案。

好的，根据您提供的招聘岗位所涉及的技术方向（AI大模型、机器人规划与控制、机器视觉），我为您规划了一份详尽的软硬件实验设备搭建清单。

该清单分为 “核心基础设备” 和 “方向特定设备” 两部分，并附上了软件栈推荐。您可以根据团队规模、预算和当前优先发展的方向进行分阶段采购。

一、核心基础设备（所有方向共用）

这是支撑所有开发和测试工作的计算和基础设施。

类别	推荐配置与型号	说明
AI服务器 (训练/微调)	GPU: NVIDIA H100 (80GB) 或 A100 (80GB) x 4-8块 CPU: Intel Xeon Platinum 或 AMD EPYC (核心数越多越好) 内存: 512GB - 1TB DDR4/5 ECC 存储: 10TB+ NVMe SSD (高速缓存) + 100TB+ HDD (数据仓储) 网络: 万兆网卡，NVLink/NVSwitch (GPU间高速互联)	大模型研发的核心。用于LLM和CV大模型的预训练、全参数微调。H100对Transformer架构有专门优化，是首选。A100是性价比极高的替代方案。
开发工作站 (每位工程师)	GPU: NVIDIA RTX 4090 (24GB) 或 RTX 6000 Ada (48GB) CPU: Intel i9 或 AMD Ryzen 9 (16核以上) 内存: 64GB - 128GB DDR5 存储: 2TB NVMe SSD	用于日常编码、模型调试、小规模实验和推理。大显存对于本地运行大模型至关重要。
机器人开发平台	平台: NVIDIA Jetson AGX Orin (64GB)	机器人的“大脑”。用于部署和测试感知、规划算法，进行端侧推理。性能强大，是机器人产品端的理想参考硬件。
网络与存储	NAS: 群晖或QNAP，4盘位以上，组建RAID 5/6 万兆交换机	集中存储和管理庞大的数据集、模型权重、代码库，方便团队共享和备份。
基础工具	万用表、示波器、电烙铁、螺丝刀套装、3D打印机	用于硬件调试、原型制作、传感器改装和固定件加工。

二、方向特定设备

根据您的招聘岗位，按方向推荐专用设备。

1. 感知与视觉大模型 & 机器视觉算法方向

该方向聚焦于多模态数据采集和真实世界算法验证。

类别	推荐配置与型号	说明
RGB-D相机	Intel RealSense D435i (性价比高，社区支持好) Intel RealSense L515 (激光扫描，精度高) Microsoft Azure Kinect DK (分辨率高，RGBD对齐好) Orbbec Astra系列 (国产优秀替代)	3D视觉的核心传感器。用于点云获取、三维重建、手眼标定、深度学习数据采集。建议每种类型至少配备2个。
高分辨率相机	FLIR Blackfly S 或海康机器人等工业相机	用于高质量的2D图像采集，进行精细的纹理识别、二维码识别等。
激光雷达	2D Lidar: RPLIDAR A系列 (低成本建图) 3D Lidar: Livox Mid-70 (非重复扫描，性价比高) / Velodyne VLP-16 (经典款)	用于SLAM建图、导航避障、补充三维感知。
标注工作站	大尺寸高分辨率显示器 + 专业标注软件(LabelStudio, CVAT)	用于为采集的数据进行高质量的人工标注，形成真值数据集。

2. 机械臂规划与机器人系统方向

该方向聚焦于机器人本体控制和算法实机测试。

类别	推荐配置与型号	说明
协作机械臂	6轴: Universal Robots UR5e (行业标杆，生态好) 7轴: Franka Emika Panda (扭矩传感灵敏，适合研究) 国产替代: 越疆、遨博	算法验证的核心平台。需支持Force Control力控功能，用于柔顺控制、阻抗控制等高级算法测试。至少配备2台。
移动机器人底盘	TurtleBot4 (ROS 2官方推荐，教育首选) Husky (Clearpath，工业级，负载大) MiR (自主移动机器人AMR，商用级)	用于研究移动导航、多机器人协同等。
末端执行器	Robotiq 2F-85/140 (二指自适应夹爪) OnRobot RG2 (二指夹爪) 气动吸盘	用于完成抓取、放置等具体任务。
运动捕捉系统	OptiTrack (8-12个摄像头)	6D位姿真值系统。用于精确评估视觉位估计算法的精度，是算法迭代和论文发表的黄金标准。昂贵但极其重要。
安全设施	安全围栏、急停按钮、光电传感器	必备安全措施。在进行实机测试时，必须保证人员和设备安全。

三、软件栈清单

类别	推荐选项
操作系统	Ubuntu 22.04 LTS (机器人开发的事实标准) + Windows 11 (可选)
机器人框架	ROS 2 Humble (首选) / ROS 2 Iron
AI/ML框架	PyTorch (研究首选) + TensorFlow (部署生态)
编程语言	Python (算法原型) + C++ (性能核心)
开发工具	VS Code (主IDE) / CLion (C++开发) / PyCharm (Python开发) Docker (环境容器化) Git (版本控制) + GitLab (私有部署)
仿真环境	NVIDIA Issac Sim (基于Omniverse，功能最强，前景最好) Gazebo (经典，ROS原生支持) PyBullet / MuJoCo (强化学习研究常用)
云服务	AWS / Azure / GCP (用于大规模训练和弹性扩展)

分阶段采购建议

第一阶段 (起步， ~30-50万人民币)
- 开发工作站 (x4-5台)
- 1台AI服务器 (配置4x A100 80G)
- 1-2台协作机械臂 (UR5e或Franka)
- 多种RGB-D相机 (各型号1-2个)
- 基础工具与安全设施
第二阶段 (扩张， ~50-100万人民币)
- 升级AI服务器 (增加数量或升级至H100)
- 采购移动底盘 (TurtleBot4或Husky)
- 投资运动捕捉系统 (OptiTrack，这是算法精进的关键)
- 搭建更完善的网络和存储NAS
第三阶段 (成熟， 100万人民币以上)
- 建立多个机器人测试工站
- 采购多台机械臂和移动机器人进行群智研究
- 搭建专门的仿真服务器集群
- 根据特定应用场景定制特殊传感器和执行器

这份清单涵盖了从算法研发到实机验证的全流程，希望能为您的实验室搭建提供清晰的蓝图。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

智能家居生态系统AI应用的进化，AI应用架构师推动前行

早期的规则引擎是“硬编码”的（比如“回家模式”的规则写死在代码里），用户无法修改。低代码规则引擎——让用户用“拖拽”或“简单配置”自定义场景。代码示例：用Node-RED实现“回家模式”// 1. 节点1：监听Wi-Fi连接事件（用Home Assistant的节点）[{"id":"123","type":"ha-event","event_type":"device_tracker.state_