|
|
|||||||
Цитата:Написал простенький парсер на Python. Исходний код доступен по ссылке pastebin.com/5vNTByrMЦитата:Автоматом сложно, потому что на интимке много ошибок. К примеру, пишешь "5000 руб", а в поиске сваливаются и за 2, и за 3 тыс, так что приходится считать полуавтоматом. Кроме того, средняя цена часа и так публикуется, сейчас она в районе 4.7 тыс. Но это по всему сайту, так что пара объявлений по 60 тыс (такие бывают, не удивляйтесь) могут поломать всю статистику. Принцип работы: Пробежаться по всем анкетам и создать список из пар значений [id, цена за час]. Далее пробежаться по списку и создать словарь {цена за час: количество анкет}. Полученные данные загружены в google-doс https://docs.google.com/document/d/19mhoUk93tK3kLTAcZ6VAlkSbJ0t3-XMXKPmoyfwyXko Для простоты отброшены редкие цены, которые встречаются менее чем в 10 анкетах (5100, 3800, 60000 и т.д.). |