Skip to content

Latest commit

 

History

History
53 lines (34 loc) · 2.84 KB

README.md

File metadata and controls

53 lines (34 loc) · 2.84 KB

Проект парсинга scrapy_parser_pep

scrapy_parser_pep это асинхронный парсер, удобно компилирующий информацию по статьям PEP (Python Enhancement Proposals) с официального сайта языка программирования Python. Он автоматически создаёт два файла формата csv: первый - со списком всех известных на текущий момент статей PEP (с указанием их номеров, названия и текущего статуса), второй - со сводными данными о количестве статей PEP по всем обнаруженным статусам и итоговым числом всех статей.

Возможности приложения

  • Парсинг всех статей PEP с официального сайта Python
  • Генерация списка всех найденых PEP в формате csv
  • Генерация отчёта по количеству PEP в зависимости от текущего статуса в формате csv

Технологии

Python Scrapy

Установка

Клонируйте репозиторий на ваш компьютер, в локальном репозитории создайте и активируйте виртуальное окружение, обновите менеджер пакетов pip и установите зависимости из файла requirements.txt.

git clone <адрес репозитория>
python -m venv venv
python -m pip install --upgrade pip
pip install -r requirements.txt

Использование

Находясь в корневой директории приложения, запустите парсер при помощи следующей команды:

scrapy crawl pep

В результате работы парсера в корневой директории приложения в папке results (она будет создана автоматически, если её нет) появятся два описаных выше файла:

  • pep_<дата_создания>T<время_содания>.csv
  • status_summary_<дата_создания>_<время_содания>.csv

Авторство

Code - Дима Смолов

Лицензия

MIT