PHPackages                             rollun-com/rollun-parser - PHPackages - PHPackages  [Skip to content](#main-content)[PHPackages](/)[Directory](/)[Categories](/categories)[Trending](/trending)[Leaderboard](/leaderboard)[Changelog](/changelog)[Analyze](/analyze)[Collections](/collections)[Log in](/login)[Sign up](/register)

1. [Directory](/)
2. /
3. [Parsing &amp; Serialization](/categories/parsing)
4. /
5. rollun-com/rollun-parser

ActiveLibrary[Parsing &amp; Serialization](/categories/parsing)

rollun-com/rollun-parser
========================

Foundation for parsers

3.2.0(1y ago)02421BSD-3-ClausePHPPHP ^8.0CI failing

Since Feb 8Pushed 1y ago1 watchersCompare

[ Source](https://github.com/rollun-lc/rollun-parser)[ Packagist](https://packagist.org/packages/rollun-com/rollun-parser)[ RSS](/packages/rollun-com-rollun-parser/feed)WikiDiscussions master Synced 3d ago

READMEChangelog (9)Dependencies (9)Versions (22)Used By (0)

rollun-parser
=============

[](#rollun-parser)

`rollun-parser` - библиотека, которая предоставляет базовые возможности для написание парсинга сайтов. На основе какркаса данной библиотеки можно пострить вполне ефективную систему парсинга.

### Схема каркаса:

[](#схема-каркаса)

[![alt text](docs/image.jpg)](docs/image.jpg)

##### Основные компоненты:

[](#основные-компоненты)

- `Task source` - это модуль системы парсинга с которого все начинается. Задача этого модуля поставить в очередь для загрузчика всю информацию, которая может быть понадобиться для того чтобы загрузить и обработать страницу. Зачастую это будут объекты, которые после парсинга некой страницы хотят узнать больше информации о объекте парсинга.
- `Task queue` - это очередь, которая передает сообщения от `Task source` к `Loader`
- `Worker manager` - это объект, который управляет процессами, запущенными под руководством этим же объектом.
- `Process` - подробнее [тут](https://github.com/rollun-com/rollun-callback), єто единица управления для `Worker manager`. Если процессу указать максимальное время жизни, то процессом будет теперь заботиться `Pid killer` и убьет процесс с истечением указаного времени.
- `Worker` - это объект, который берет сообщение с очереди `Task queue` и запускает `Loader` с данными из очереди. Немаловажный факт: если попытка загрузки страницы потерпела неудачи - `Worker` не будет удалять сообщение из очереди, таким образом, оно появиться через некоторое время (`time-in-flight`) снова в очереди и буде отправлено на обработку `Loader` снова. Если загрузка прошла успешно - сообщение будет удалено из очереди. В системе `Worker` есть частью `Process` и поэтому можно настраивать в
- `Worker manager` какое макчимальное количество воркеров может работать одновременно.
- `Loader` - загружает страницу з сайта и валидирует ее с помощью указанных валидаторов. Если страница валидна, то она буде записана в `Document storage`, а информация о ней записана в очередь `Document queue` для подальшего парсинга.
- `Parser` - подсистема `Worker manager` -&gt; `Process` -&gt; `Worker` -&gt; `Parser` работает аналогично с `Worker manager` -&gt; `Process` -&gt; `Worker` -&gt; `Loader`. `Parser` после успешного парсинга страницы запишет данные в указанное хранилище `Parser Result Storage`.
- `Proxy manager` - подсистема которая управляет выдачей прокси. Прокси выдаются всегда случайные, но частота зависит от того насколько у прокси хорошая оценка и как давно он не был использован. Клиент который работает с прокси (в нашем случае это `Loader`) должен вернуть фидбек про прокси (поставить эму оценку от 1 до 10). `Proxy manager` гарантирует что у него всегда найдутся для тебя свеженькие прокси.
- `Parser Result Storage` - как уже было выше сказано, это хранилище, куда `Parser` сохраняет данные после парсинга.

##### Загрузчики

[](#загрузчики)

Библиотека предусматривает несколько базовых объектов для использования. Одним из таких есть `AbstractLoader`. Этот объект предназначен для того чтобы загружать страницы з сайта, валидировать их, сохранять документы в персистентном хранилище (в данном случае это файл) и записывать задание на парсинг в очередь. Для того чтобы написать свои загрузчики отнаследуйтесь от этого объекта и реализуйте/переопределите методы если это требуется. В очередь передается сообщение в виде массива. Под ключом `filepath` в этом массиве будет имя файла, где сохранился скачанный документ.

##### Парсера

[](#парсера)

Подобным объектом для парсинга есть `AbstractParser`. Обязаности этого объекта это распарсить файл, путь к которому указан в массиве (сообщение из очереди документов) и сохранить результат в соответствующие хранилище.

##### TaskResource

[](#taskresource)

`TaskResource` - этот объект наследует `QueueFiller` из библиотеки [rollun-com/rollun-callback](https://github.com/rollun-com/rollun-callback). Его задача взять нужные конфиги и создать объект `ServerRequestInterface`, который будет описывать запрос для загрузчика.

Пример конфигов:

```
[
    [
        'uri' => 'site://example.com',
        'method' => 'POST' // optional, default - 'GET'
    ]
]
```

###  Health Score

38

—

LowBetter than 85% of packages

Maintenance39

Infrequent updates — may be unmaintained

Popularity12

Limited adoption so far

Community13

Small or concentrated contributor base

Maturity75

Established project with proven stability

 Bus Factor1

Top contributor holds 61.9% of commits — single point of failure

How is this calculated?**Maintenance (25%)** — Last commit recency, latest release date, and issue-to-star ratio. Uses a 2-year decay window.

**Popularity (30%)** — Total and monthly downloads, GitHub stars, and forks. Logarithmic scaling prevents top-heavy scores.

**Community (15%)** — Contributors, dependents, forks, watchers, and maintainers. Measures real ecosystem engagement.

**Maturity (30%)** — Project age, version count, PHP version support, and release stability.

###  Release Activity

Cadence

Every ~133 days

Recently: every ~125 days

Total

17

Last Release

514d ago

Major Versions

1.x-dev → 2.0.02024-10-11

2.0.0 → 3.0.02024-10-14

PHP version history (2 changes)1.0.0PHP ^7.2

3.0.0PHP ^8.0

### Community

Maintainers

![](https://www.gravatar.com/avatar/a580b0a91b7d5d602f8858c7c747c49542ea14b631dcd976eed93a0d3014a8de?d=identicon)[Andrey Zaboychenko](/maintainers/Andrey%20Zaboychenko)

---

Top Contributors

[![misha-rollun](https://avatars.githubusercontent.com/u/72918877?v=4)](https://github.com/misha-rollun "misha-rollun (13 commits)")[![victorynox](https://avatars.githubusercontent.com/u/17138585?v=4)](https://github.com/victorynox "victorynox (3 commits)")[![rollun-com](https://avatars.githubusercontent.com/u/25004261?v=4)](https://github.com/rollun-com "rollun-com (2 commits)")[![Vict0rynox](https://avatars.githubusercontent.com/u/8139419?v=4)](https://github.com/Vict0rynox "Vict0rynox (2 commits)")[![artemka-debug](https://avatars.githubusercontent.com/u/60359843?v=4)](https://github.com/artemka-debug "artemka-debug (1 commits)")

---

Tags

composer-libraryphp

###  Code Quality

TestsPHPUnit

### Embed Badge

![Health badge](/badges/rollun-com-rollun-parser/health.svg)

```
[![Health](https://phpackages.com/badges/rollun-com-rollun-parser/health.svg)](https://phpackages.com/packages/rollun-com-rollun-parser)
```

###  Alternatives

[laminas/laminas-serializer

Serialize and deserialize PHP structures to a variety of representations

3411.2M115](/packages/laminas-laminas-serializer)[sauladam/shipment-tracker

Parses tracking information for several carriers, like UPS, USPS, DHL and GLS by simply scraping the data. No need for any kind of API access.

9738.8k](/packages/sauladam-shipment-tracker)

PHPackages © 2026

[Directory](/)[Categories](/categories)[Trending](/trending)[Changelog](/changelog)[Analyze](/analyze)
