|
|
|||||||
Признаю свою ошибку. В самом деле, на intimcity ~1900 уников. Пришлось поизучать JScript и докапаться до ошибки. "Обычные" сайты нумеруют свои стр. подряд, от 0 и далее, intimcity же - по кол-ву анкет - 0,50,100,150.. В скрипте это было учтено, но при расширении списка сайтов "хак" сдвинулся. В результате снималось фактически всего две страницы сайта http://www.intimcity.ru/persons.php?&index=var, где var менялась от 0 до 50, реально "работали" только цифры 0 и 50,стальные давали повторения. "Хак" сдвинулся на play-girls, в результате у которого тоже ошибка - снята толька одна стр. - 0, следующую скрипт пытался снять 50-ю, (считая, что работает с intimcity) кот. там нет (их там всего 14). Приношу извинения за допущенные ошибки, кот. будут исправлены при дальнейших "съемах" сайтов. Общие выводы статьи (не касающихся этих двух сайтов) не меняются - хоть теперь intimcity дает не 400, а 1900 уников, в целом по 12-ти сайтам кол-во уников почти не увеличивается, т.к. его тел. дублируются на др. сайтах. Да, и еще. Если при 10-ти "съемах" 2-х первых страниц в течении часа удалось все же собрать 400 уников (а не 100), это говорит о неплохой перемешиваемости анкет: если плат. анкет на сайте ~500 (10 первых стр. по 50 анкет), то за час 3/4 анкет побывали на 1 или 2-й стр. |