URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID1
Нить номер: 81995
[ Назад ]

Исходное сообщение
"Настройка Debian (сервер под скачку Веб Сайтов в большом количестве)"

Отправлено AlienZzzz , 15-Сен-08 23:40 
Установил сервак для этого, но начал замечать, что при большой нагрузке, странички перестают скачиватся(т.е. из 1000 страниц 100 выпадает  )

Скачиваю библиотекой Curl (есть модуль на с++, есть и на python)

Использовал по всякому и тредово, и используя встроенный в Curl MultiSelect, все ровно одно и тоже, то все 1000 скачиватся за секунды, то 800 скачивается, остальные нет.

Я понимаю, что зависит много от доступа к сайтам - не спорю, но я бы хотел спросить у общественности, может где в дебиане можно что-то тонко настроить для оптимальной работы иммено по паралельно-скачиваемости ?

т.е. основная задача как можно быстрее скачать наибольшее количество страниц.


Моя система:
Linux ) 2.6.18-5-amd64 #1 SMP Sat Dec 22 20:43:59 UTC 2007 x86_64 GNU/Linux


за умные советы даже заплачу )


Содержание

Сообщения в этом обсуждении
"Настройка Debian (сервер под скачку Веб Сайтов в большом кол..."
Отправлено Vaso_Petrovich , 16-Сен-08 06:54 
провайдера настроий и его каналы =)

"Настройка Debian (сервер под скачку Веб Сайтов в большом кол..."
Отправлено AlienZzzz , 16-Сен-08 09:23 
>провайдера настроий и его каналы =)

как доказать провайдеру, что канал рветься ?, вот вопрос.



"при чём тут Debian?"
Отправлено Andrey Mitrofanov , 16-Сен-08 09:32 
>ровно одно и тоже, то все 1000 скачиватся за секунды, то
>800 скачивается, остальные нет.

Если ты качаешь "все 1000" файлов "за секунды" -- может повезти нарваться на ограничение числа соединений на сервере (или его хостинге). Защита от DoS-а или просто ограничение ресурсов.

Докачка не работает? Может wget лучше будет?
Паузы "между файлами" вставить?..


"при чём тут Debian?"
Отправлено AlienZzzz , 16-Сен-08 09:45 
>>ровно одно и тоже, то все 1000 скачиватся за секунды, то
>>800 скачивается, остальные нет.
>
>Если ты качаешь "все 1000" файлов "за секунды" -- может повезти нарваться
>на ограничение числа соединений на сервере (или его хостинге). Защита от
>DoS-а или просто ограничение ресурсов.
>
>Докачка не работает? Может wget лучше будет?
>Паузы "между файлами" вставить?..

Разные сайты, разные Ип.

есть список 1000 урлов, нужно скачать их.

Есть 100 ип.

в одном случае скачка за 10 сек, ждем 1 мин. еще раз пробуем - скорость 100 сек, 100 сайтов из 1000 не скачались(отвалились по таймауту), я решил это путем докачки еще раз этой 100.

провайдер божится, что он мне ничего не запирает( в принципе я ему верю), у меня выделенный сервер.