Я пользуюсь статьями с этого сайта, но из-за рекламы и убогости сайта, расспечатывать статьи от туда очень не удобно или накладно
К сожалению дизайн и функциона это сайта на столько убог, что мне пришлось написать небольшой скрипт, которым можно вычистить HTML этого сайта
cat bin/clear_html_citforum.sh
#/usr/bin/env bash
function print_head {
echo '<html>
<head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head><body>'
}
function print_end {
echo '</body></html>'
}
function clear_html {
curl $1 | tr -d "\r\n\t" |iconv -fcp1251 | sed 's/<\([^>]*\)>/<\L\1>/g'| sed 's/\([<\/ ]\)\([^>]*\)>/\1\2>\n/g'| awk 'BEGIN{s=0} $0 ~ /b2bcontext_content_begin|b2bcontext_content_end/ {s=!s} {if(s==1)print $0;}'
}
for a in $@; do
fname=`basename $a`.html
print_head >> $fname
clear_html $a 2> /dev/null >> $fname
print_end >> $fname
done
Использовать вот так, можно передавать кучу ссылок:
clear_html_citforum.sh http://www.citforum.ru/operating_systems/linux/schema_ldap/
А если толку нет, то можете купить специальную программу для дебилов за 2.000$ : http://www.tenmax.com/teleport/vlx/home.htm
Комментариев 0