職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
大模型數據爬取、清洗工程師
崗位職責:
為人工智能領域研究提供高質量數據集,包括但不僅限于以下工作內容:
1、負責設計、開發、維護數據采集代碼,收集互聯網公開數據
2、負責指定網頁、小程序、APP等內容采集以及抽取和去重等工作
3、負責合作數據對接、數據提取、清洗、結構化、入庫等工作
任職要求:
1、2年及以上工作經驗計算機相關專業,擅長互聯網數據采集、大數據處理等一項或多項,富有責任心。
2、熟練掌握Python語言,對數據敏感,具有良好的邏輯分析能力;
3、熟悉Linux系統,精通Python編程語言,熟悉爬蟲原理、常見的反爬蟲技術和cookie的登錄原理,掌握requests,selenium,scrapy等模塊的用法,
4、熟悉常見的數據庫,如redis、mongodb和mysql等其中一種或幾種,有數據清洗分析的工作經驗,了解大數據平臺的基本原理;
5、熟悉多線程、反爬蟲、驗證碼識并精通網頁抓取原理及技術,熟練使用正則表達式、csspath、xpath等獲取信息;
6、熟悉爬取的各類實現方式和技術細節,包括不限于:熟悉常見的反爬策略、掌握網絡協議分析(http1.1/http2等)、有JavaScript反爬/逆向(AST)、APP反爬/逆向等;
熱愛技術,喜歡鉆研,注重代碼質量,工作認真細致,有良好的協作意識;
五天八小時工作制,
崗位職責:
為人工智能領域研究提供高質量數據集,包括但不僅限于以下工作內容:
1、負責設計、開發、維護數據采集代碼,收集互聯網公開數據
2、負責指定網頁、小程序、APP等內容采集以及抽取和去重等工作
3、負責合作數據對接、數據提取、清洗、結構化、入庫等工作
任職要求:
1、2年及以上工作經驗計算機相關專業,擅長互聯網數據采集、大數據處理等一項或多項,富有責任心。
2、熟練掌握Python語言,對數據敏感,具有良好的邏輯分析能力;
3、熟悉Linux系統,精通Python編程語言,熟悉爬蟲原理、常見的反爬蟲技術和cookie的登錄原理,掌握requests,selenium,scrapy等模塊的用法,
4、熟悉常見的數據庫,如redis、mongodb和mysql等其中一種或幾種,有數據清洗分析的工作經驗,了解大數據平臺的基本原理;
5、熟悉多線程、反爬蟲、驗證碼識并精通網頁抓取原理及技術,熟練使用正則表達式、csspath、xpath等獲取信息;
6、熟悉爬取的各類實現方式和技術細節,包括不限于:熟悉常見的反爬策略、掌握網絡協議分析(http1.1/http2等)、有JavaScript反爬/逆向(AST)、APP反爬/逆向等;
熱愛技術,喜歡鉆研,注重代碼質量,工作認真細致,有良好的協作意識;
五天八小時工作制,
工作地點
地址:上海上海人工智能實驗室1


職位發布者
HR
蘇州英格瑪服務外包股份有限公司

-
咨詢(財會·法律·人力資源)
-
100-199人
-
私營·民營企業
-
恒豐路中港匯