Если с http://danbooru.donmai.us всё просто, потому что там в качестве имени файла используется его MD5-хеш, то konachan.com и moe.imouto.org сложнее. Эти галереи в качестве имени файла использую свой особый префикс, номер поста и набор тегов. Чтобы не захламлять жесткий диск дубликатами файлов, набыдлокодил два скрипта для поиска дублей.
Для moe.imouto.org:
Скрипты используют файлы, которые создают качалки. Про них я писал раньше.
Осталось разобраться с автоматическим удалением найденных дубликатов.
Для moe.imouto.org:
И для konachan.com:
#! /bin/bash for i in `ls moe* | pcregrep -o 'moe\ \d+[^ ]'|sed 's/moe\ //g' | uniq -d` do echo Original: basename "`cat get2.imouto.txt|sort|uniq|grep $i|sed 's/%20/\ /g'`" ls moe\ $i* echo br done
Использование: %scriptname% > dubs.txt
#! /bin/bash for i in `ls Konachan.com\ -\ * | pcregrep -o 'Konachan\.com\ -\ \d+[^ ]'|sed 's/Konachan\.com\ -\ //g' | uniq -d` do echo Original: basename "`cat get2.konachan.txt|sort|uniq|grep $i|sed 's/%20/\ /g'`" ls Konachan\.com\ -\ $i\ * echo br done
Скрипты используют файлы, которые создают качалки. Про них я писал раньше.
Осталось разобраться с автоматическим удалением найденных дубликатов.