网络爬虫

网络爬虫

简介

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

管理平台

目前市面上有一些管理平台可以方便的管理爬虫:

crawlab

可以通过如下 docker-compose 快速启动社区单节点版本:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
version: '3.3'
services:
master:
image: crawlabteam/crawlab:0.6.0
container_name: crawlab_master
environment:
CRAWLAB_NODE_MASTER: "Y"
CRAWLAB_MONGO_HOST: "mongo"
ports:
- "8080:8080"
depends_on:
- mongo
mongo:
image: mongo:4.2

注:由于最新版无法正常登录,所以采用了最新 release 版。默认账户和密码都是 admin

参考资料

crawlab


网络爬虫
https://wangqian0306.github.io/2022/spider/
作者
WangQian
发布于
2022年9月5日
许可协议