任職要求:
熟悉Python語言,熟練運用多進程、多線程開發(fā);
熟悉爬蟲原理,熟練掌握正則表達式、XPath、CSS等網(wǎng)頁信息抽取技術(shù)以及提取多層Json結(jié)構(gòu)數(shù)據(jù);
熟悉常見反爬機制,IP池、cookie、js加密等;對破解驗證碼有豐富經(jīng)驗,獨立解決js反爬和模擬登陸問題
熟練使用Scrapy、Requests、Selenium、PhantomJS等框架;熟練使用抓包工具;
熟悉Linux基礎(chǔ)命令,熟悉Mysql、Redis等數(shù)據(jù)庫及相關(guān)操作;
其它要求:
熟悉數(shù)據(jù)清洗,能夠用numpy、pandas、jieba等工具對數(shù)據(jù)進行處理者優(yōu)先;
崗位職責:
1、負責網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與開發(fā)(結(jié)構(gòu)化抽取,分布式,調(diào)度策略);
2、研究爬蟲策略和防屏蔽規(guī)則,解決封鎖、驗證碼、加密,等問題,優(yōu)化爬蟲效率和質(zhì)量;
3、對抓取后的數(shù)據(jù)進行清洗、存儲,并持續(xù)優(yōu)化平臺,提升爬蟲穩(wěn)定性及可擴展性。
4、向部長匯報。
上一篇:土建工長 (實習生)
下一篇:土建造價員(實習生)