職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
崗位職責
1.模型訓練與部署:設計和實現模型訓練流程,包括自動化訓練、超參數調優、模型評估和部署策略。
2.性能監控與分析:對模型訓練和推理過程進行性能監控和分析,不斷迭代優化以提升系統性能。
3.功能迭代開發:負責AI平臺的標注業務、模型訓練、性能評測等功能的持續迭代和優化。
4.系統運維管理:負責AI訓練平臺的日常運維管理,包括監控系統狀態、故障排查、日志分析等。
5.技術預研:跟蹤最新的AI技術趨勢,評估新技術在公司業務中的應用潛力,并推動技術預研項目。
任職要求
1.碩士及以上學歷,計算機科學、人工智能、軟件工程或相關領域。
2.5年以上AI平臺開發或相關領域的工作經驗。
3.至少精通Java或C 中的一種,具有良好的編程風格和代碼管理習慣。
4.熟練掌握至少一種深度學習框架,如TensorFlow, MXNet, Caffe, Torch等,具備網絡結構設計、訓練、大規模數據處理的經驗。
5.熟悉Kubernetes/Docker等容器化管理平臺,能夠設計和實現容器化的AI訓練和部署流程。
6.熟悉Mysql/MongoDB/Redis等數據庫技術,能夠進行數據庫設計、優化和管理。
7.熟悉網絡、IO、內存等系統監控工具,能夠使用Nginx、Kafka等中間件。
8.了解微服務架構設計原則,有使用Docker/Kubernetes進行微服務開發、部署和運維的經驗。
9.具備良好的溝通和團隊協作能力,能夠與不同背景的團隊成員有效溝通。
10.對新技術有強烈的學習興趣和快速學習能力,能夠不斷更新知識體系。
加分項
1.GPU/CUDA編程:熟悉GPU/CUDA的編程模型和優化技巧,能夠為深度學習應用設計高效的并行計算策略。
2.分布式系統:了解分布式存儲和分布式緩存技術,能夠設計和實現分布式AI應用。
工作地點
地址:上海浦東新區上海-浦東新區陸家嘴濱江中心N1座
