PHPackages                             zhiyang/php-crawler - PHPackages - PHPackages  [Skip to content](#main-content)[PHPackages](/)[Directory](/)[Categories](/categories)[Trending](/trending)[Leaderboard](/leaderboard)[Changelog](/changelog)[Analyze](/analyze)[Collections](/collections)[Log in](/login)[Sign up](/register)

1. [Directory](/)
2. /
3. [Utility &amp; Helpers](/categories/utility)
4. /
5. zhiyang/php-crawler

ActiveLibrary[Utility &amp; Helpers](/categories/utility)

zhiyang/php-crawler
===================

Lightweight web crawler for php

9152PHP

Since Dec 28Pushed 9y ago4 watchersCompare

[ Source](https://github.com/ZhiyangLeeCN/php-crawler)[ Packagist](https://packagist.org/packages/zhiyang/php-crawler)[ RSS](/packages/zhiyang-php-crawler/feed)WikiDiscussions master Synced 4w ago

READMEChangelogDependenciesVersions (1)Used By (0)

[轻量级PHP爬虫](https://github.com/ZhiyangLeeCN/php-crawler)
=======================================================

[](#轻量级php爬虫)

[![Build Status](https://camo.githubusercontent.com/ff95f02cdc9c757f523b86110b837d89feb37d66673599e17a51116e8afe2d22/68747470733a2f2f7472617669732d63692e6f72672f62616964752f6266732e7376673f6272616e63683d6d6173746572)](https://travis-ci.org/baidu/bfs)

一个用PHP实现的轻量级爬虫，只提供了爬虫最核心的调度功能，所以整体实现非常精简，使用也非常简单并且易于上手。

\##特点

1. 轻量级，内核简单非常易于上手
2. 基于Redis的调度插件支持分布式以及断点抓取
3. 易扩展易定制，可以随时按照自己的需求定制调度插件

\##安装

```
composer require zhiyang/php-crawler:master-dev
```

\##快速开始 回想一下你写爬虫的过程，总是会先从一个页面(可以叫做种子页面)开始不断提取链接，然后不断迭代这些链接并从中获取目标链接，最终抓取到目标页面的过程。

以一个新闻分页列表来说，会先从第一页开始抓取详情页的链接并在抓取后续页面的链接，其中详情页才是我们需要的最终页面(Target), 分页页面的链接只不过是辅助，然后反复进行这个过程最终抓取到我们想要的目标，对任何抓取任务总体过程都基本类似。

对于爬虫而言，最通用的地方只在于链接的管理以及调度，所以只提供了最简单的调度功能。

#### 单进程

[](#单进程)

```