Заметки дядюшки Раджи: Искалка дубликатов для konachan.com и moe.imouto.org "на коленке".

Если с http://danbooru.donmai.us всё просто, потому что там в качестве имени файла используется его MD5-хеш, то konachan.com и moe.imouto.org сложнее. Эти галереи в качестве имени файла использую свой особый префикс, номер поста и набор тегов. Чтобы не захламлять жесткий диск дубликатами файлов, набыдлокодил два скрипта для поиска дублей.
Для moe.imouto.org:

#! /bin/bash

for i in `ls moe* | pcregrep -o 'moe\ \d+[^ ]'|sed 's/moe\ //g' | uniq -d`
do
echo Original:
basename "`cat get2.imouto.txt|sort|uniq|grep $i|sed 's/%20/\ /g'`"
ls moe\ $i*
echo br
done

И для konachan.com:

#! /bin/bash

for i in `ls Konachan.com\ -\ * | pcregrep -o 'Konachan\.com\ -\ \d+[^ ]'|sed 's/Konachan\.com\ -\ //g' | uniq -d`
do
echo Original:
basename "`cat get2.konachan.txt|sort|uniq|grep $i|sed 's/%20/\ /g'`"
ls Konachan\.com\ -\ $i\ *
echo br
done

Использование: %scriptname% > dubs.txt
Скрипты используют файлы, которые создают качалки. Про них я писал раньше.
Осталось разобраться с автоматическим удалением найденных дубликатов.

17 марта 2010

Искалка дубликатов для konachan.com и moe.imouto.org "на коленке".