понедельник, 2 февраля 2009 г.

Качаем картинки пачками. Продолжение.

Мне снова нечем было заняться, и я качал картинки с разных сообществ, в основной массе анимешных.

В тот день я покорил picci.info и доработал качалку с ipicture.ru

Обо всем по порядку.

Начнем с picci.info.
Все загружаемые на этот хостинг картинки сохраняется в нескольких разрешениях, причем линк на страницу, содержащую картинку в самом большом разршении имеет вид http://piccy.info/ru/view/5a6baf47f3aa085fc635ac141c1a22de/original/. Достаточно было выделить со страницы все ссылки и дописать к ним "original/", что я и сделал. А для того, чтобы совсем всё было хорошо, я соорудил следующую конструкцию:

cat in.txt|pcregrep -o -e 'http\:\/\/piccy.info\/view\/[^ ]+/'|sed 's/$/original\//g'| wget -i - -O - |pcregrep -o -e 'http://i.piccy.kiev.ua/[^ ]+\"'|sed 's/\"//g'|wget -nc -i -

С таким подходом не создаются временные файлы со списками ссылок, что есть хорошо.
В файле "in.txt" находится код страницы, на которой находятся превьюшки со ссылками на просмотр полных картинок.

Теперь об ipicture.ru.
Я обратил внимание на то, что этот сервис создают файл превьюшек с тем же расширением, что и исходный файл, но в ссылке на превьюшку добавляется "thumbs/":

http://pic.ipicture.ru/uploads/080916/thumbs/WxIn2MkmW7.jpg
http://pic.ipicture.ru/uploads/080916/WxIn2MkmW7.jpg
В итоге я сделал так:

cat in.txt| pcregrep.exe -o -e 'http\:\/\/pic.ipicture[^ ]+\"'|sed -e 's/\"//g' -e 's/thumbs\///g'|uniq >get.txt && wget -nc -i get.txt

С radikal.ru такой финт ушами не прошел, это сервис все превьюшки сохраняет в JPG.