`

爬虫的几个关键技术点

 
阅读更多
最近在研究爬虫的实现,看了几个代码,感觉在爬虫的设计中有几点很重要:
1)网页的获取
2)网页中URL的提取
3)URL的合法性校验
4)URL是否已经存在
5)网页的深度的判断
6)爬去策略?深度优先和广度优先
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics