PHPackages                             4n70w4/php-text-words-parser - PHPackages - PHPackages  [Skip to content](#main-content)[PHPackages](/)[Directory](/)[Categories](/categories)[Trending](/trending)[Leaderboard](/leaderboard)[Changelog](/changelog)[Analyze](/analyze)[Collections](/collections)[Log in](/login)[Sign up](/register)

1. [Directory](/)
2. /
3. [Parsing &amp; Serialization](/categories/parsing)
4. /
5. 4n70w4/php-text-words-parser

ActiveLibrary[Parsing &amp; Serialization](/categories/parsing)

4n70w4/php-text-words-parser
============================

Parse html text into sentences and words on PHP.

1.0.0(6y ago)211PHPPHP \*

Since Sep 20Pushed 6y agoCompare

[ Source](https://github.com/4n70w4/php-text-words-parser)[ Packagist](https://packagist.org/packages/4n70w4/php-text-words-parser)[ RSS](/packages/4n70w4-php-text-words-parser/feed)WikiDiscussions master Synced 2d ago

READMEChangelogDependenciesVersions (2)Used By (0)

Parse html text into sentences and words. Грамматический разбор html текста на предложения и слова
==================================================================================================

[](#parse-html-text-into-sentences-and-words-грамматический-разбор-html-текста-на-предложения-и-слова)

Purpose
-------

[](#purpose)

Анализ слов в тесте для реализации каких-либо алгоритмов (например, похожести текстов) Использование индексатором для полнотекстового поиска, отображение фрагментов текста и подсветка найденных слов в результатах поиска

Features
--------

[](#features)

1. Получение всех слов в тексте в порядке их следования
2. Получение всех предложений и слов в тексте в порядке их следования
3. Получение уникальных слов в тексте с весами их появления в тексте
4. Нормализация текста (описание см. ниже)
5. Распределение абсолютных позиций слов к абсолютным байтовым позициям в нормализованном тексте
6. Поддержка нескольких языков одновременно
7. Работает с любыми языками мира, используемая кодировка — UTF-8.

Terminology
-----------

[](#terminology)

1. Нормализованный текст — текст с сохранением регистра, с параграфами и переносами строк, но без html тэгов и сущностей, без знака табуляции, ударения, мягкого переноса строк
2. Слово — последовательность букв или цифр (мешанина не допускается!)
3. Абсолютная позиция слова — порядковый номер слова в нормализованном тексте
4. Относительная позиция слова — порядковый номер слова относительно предложения в нормализованном тексте
5. Байтовая позиция слова — смещение слова в байтах в нормализованном тексте

Example
-------

[](#example)

```
$wp = new Text_WordsParser(array('Latin', 'Cyrillic'));
$html = file_get_contents('test.html');
$text = $wp->parse($html, $words, $sentences, $uniques, $offset_map);
var_dump($text, $words, $sentences, $uniques, $offset_map);

```

Useful links
------------

[](#useful-links)

1.  The Alphabets of Europe
2.  Оценка важности слова в контексте текста
3.  Технология автоматического склонения
4.  Библиотека морфологического анализа на PHP, демонстрация работы phpMorphy (введи, например, слово "родной" или "раздела")
5.  Морфологический анализатор

Project was exported from

###  Health Score

26

—

LowBetter than 43% of packages

Maintenance20

Infrequent updates — may be unmaintained

Popularity8

Limited adoption so far

Community8

Small or concentrated contributor base

Maturity58

Maturing project, gaining track record

 Bus Factor1

Top contributor holds 50% of commits — single point of failure

How is this calculated?**Maintenance (25%)** — Last commit recency, latest release date, and issue-to-star ratio. Uses a 2-year decay window.

**Popularity (30%)** — Total and monthly downloads, GitHub stars, and forks. Logarithmic scaling prevents top-heavy scores.

**Community (15%)** — Contributors, dependents, forks, watchers, and maintainers. Measures real ecosystem engagement.

**Maturity (30%)** — Project age, version count, PHP version support, and release stability.

###  Release Activity

Cadence

Unknown

Total

1

Last Release

2428d ago

### Community

Maintainers

![](https://avatars.githubusercontent.com/u/38257723?v=4)[Krot Eval](/maintainers/4n70w4)[@4n70w4](https://github.com/4n70w4)

---

Top Contributors

[![4n70w4](https://avatars.githubusercontent.com/u/38257723?v=4)](https://github.com/4n70w4 "4n70w4 (1 commits)")[![rin-nas](https://avatars.githubusercontent.com/u/956066?v=4)](https://github.com/rin-nas "rin-nas (1 commits)")

---

Tags

php

### Embed Badge

![Health badge](/badges/4n70w4-php-text-words-parser/health.svg)

```
[![Health](https://phpackages.com/badges/4n70w4-php-text-words-parser/health.svg)](https://phpackages.com/packages/4n70w4-php-text-words-parser)
```

###  Alternatives

[nikic/phlexy

Lexing experiments in PHP

162570.9k13](/packages/nikic-phlexy)[corveda/php-sandbox

A PHP library that can be used to run PHP code in a sandboxed environment

23483.5k2](/packages/corveda-php-sandbox)[blancks/fast-jsonpatch-php

Class designed to efficiently handle JSON Patch operations in accordance with the RFC 6902 specification

396.4k](/packages/blancks-fast-jsonpatch-php)[bupy7/xml-constructor

The array-like constructor of XML document structure.

1337.9k](/packages/bupy7-xml-constructor)

PHPackages © 2026

[Directory](/)[Categories](/categories)[Trending](/trending)[Changelog](/changelog)[Analyze](/analyze)
