Мне снова нечем было заняться, и я качал картинки с разных сообществ, в основной массе анимешных.
В тот день я покорил picci.info и доработал качалку с ipicture.ru
Обо всем по порядку.
Начнем с picci.info.
Все загружаемые на этот хостинг картинки сохраняется в нескольких разрешениях, причем линк на страницу, содержащую картинку в самом большом разршении имеет вид http://piccy.info/ru/view/5a6baf47f3aa085fc635ac141c1a22de/original/. Достаточно было выделить со страницы все ссылки и дописать к ним "original/", что я и сделал. А для того, чтобы совсем всё было хорошо, я соорудил следующую конструкцию:
С таким подходом не создаются временные файлы со списками ссылок, что есть хорошо.
В файле "in.txt" находится код страницы, на которой находятся превьюшки со ссылками на просмотр полных картинок.
Теперь об ipicture.ru.
Я обратил внимание на то, что этот сервис создают файл превьюшек с тем же расширением, что и исходный файл, но в ссылке на превьюшку добавляется "thumbs/":
С radikal.ru такой финт ушами не прошел, это сервис все превьюшки сохраняет в JPG.
В тот день я покорил picci.info и доработал качалку с ipicture.ru
Обо всем по порядку.
Начнем с picci.info.
Все загружаемые на этот хостинг картинки сохраняется в нескольких разрешениях, причем линк на страницу, содержащую картинку в самом большом разршении имеет вид http://piccy.info/ru/view/5a6baf47f3aa085fc635ac141c1a22de/original/. Достаточно было выделить со страницы все ссылки и дописать к ним "original/", что я и сделал. А для того, чтобы совсем всё было хорошо, я соорудил следующую конструкцию:
cat in.txt|pcregrep -o -e 'http\:\/\/piccy.info\/view\/[^ ]+/'|sed 's/$/original\//g'| wget -i - -O - |pcregrep -o -e 'http://i.piccy.kiev.ua/[^ ]+\"'|sed 's/\"//g'|wget -nc -i -
С таким подходом не создаются временные файлы со списками ссылок, что есть хорошо.
В файле "in.txt" находится код страницы, на которой находятся превьюшки со ссылками на просмотр полных картинок.
Теперь об ipicture.ru.
Я обратил внимание на то, что этот сервис создают файл превьюшек с тем же расширением, что и исходный файл, но в ссылке на превьюшку добавляется "thumbs/":
http://pic.ipicture.ru/uploads/080916/thumbs/WxIn2MkmW7.jpgВ итоге я сделал так:
http://pic.ipicture.ru/uploads/080916/WxIn2MkmW7.jpg
cat in.txt| pcregrep.exe -o -e 'http\:\/\/pic.ipicture[^ ]+\"'|sed -e 's/\"//g' -e 's/thumbs\///g'|uniq >get.txt && wget -nc -i get.txt
С radikal.ru такой финт ушами не прошел, это сервис все превьюшки сохраняет в JPG.