Установил сервак для этого, но начал замечать, что при большой нагрузке, странички перестают скачиватся(т.е. из 1000 страниц 100 выпадает )Скачиваю библиотекой Curl (есть модуль на с++, есть и на python)
Использовал по всякому и тредово, и используя встроенный в Curl MultiSelect, все ровно одно и тоже, то все 1000 скачиватся за секунды, то 800 скачивается, остальные нет.
Я понимаю, что зависит много от доступа к сайтам - не спорю, но я бы хотел спросить у общественности, может где в дебиане можно что-то тонко настроить для оптимальной работы иммено по паралельно-скачиваемости ?
т.е. основная задача как можно быстрее скачать наибольшее количество страниц.
Моя система:
Linux ) 2.6.18-5-amd64 #1 SMP Sat Dec 22 20:43:59 UTC 2007 x86_64 GNU/Linux
за умные советы даже заплачу )
провайдера настроий и его каналы =)
>провайдера настроий и его каналы =)как доказать провайдеру, что канал рветься ?, вот вопрос.
>ровно одно и тоже, то все 1000 скачиватся за секунды, то
>800 скачивается, остальные нет.Если ты качаешь "все 1000" файлов "за секунды" -- может повезти нарваться на ограничение числа соединений на сервере (или его хостинге). Защита от DoS-а или просто ограничение ресурсов.
Докачка не работает? Может wget лучше будет?
Паузы "между файлами" вставить?..
>>ровно одно и тоже, то все 1000 скачиватся за секунды, то
>>800 скачивается, остальные нет.
>
>Если ты качаешь "все 1000" файлов "за секунды" -- может повезти нарваться
>на ограничение числа соединений на сервере (или его хостинге). Защита от
>DoS-а или просто ограничение ресурсов.
>
>Докачка не работает? Может wget лучше будет?
>Паузы "между файлами" вставить?..Разные сайты, разные Ип.
есть список 1000 урлов, нужно скачать их.
Есть 100 ип.
в одном случае скачка за 10 сек, ждем 1 мин. еще раз пробуем - скорость 100 сек, 100 сайтов из 1000 не скачались(отвалились по таймауту), я решил это путем докачки еще раз этой 100.
провайдер божится, что он мне ничего не запирает( в принципе я ему верю), у меня выделенный сервер.