Пакет boilerpipe: Информация
Бинарный пакет: boilerpipe
Версия: 1.2.0-alt1_6jpp8
Архитектура: noarch
Собран: 10 февраля 2016 г. 13:28 в задании #158569
Исходный пакет: boilerpipe
Категория: Разработка/Java
Сообщить об ошибке в пакетеЗагрузка: boilerpipe-1.2.0-alt1_6jpp8.noarch.rpm
Домашняя страница: https://github.com/kohlschutter/boilerpipe
Лицензия: ASL 2.0
О пакете: Удаление шаблонов и полнотекстовое извлечение из HTML-страниц
Описание:
Библиотека boilerpipe предоставляет алгоритмы для обнаружения и удаления лишнего «беспорядка» (шаблонов) вокруг основного текстового содержимого веб-страницы Библиотека уже предоставляет конкретные инструменты для общих задач (например, извлечение новостных статей), также её можно расширить для решения отдельных задач. Извлечение содержимого происходит очень быстро (за миллисекунды), библиотеке нужен только входной документ (общая информация или информация на уровне сайта не требуется) и обычно результат достаточно точный.
Сопровождающий: Igor Vlasenko