diff options
author | rusinthread <rusinthread@cock.li> | 2016-12-23 03:58:44 +0300 |
---|---|---|
committer | rusinthread <rusinthread@cock.li> | 2016-12-23 03:58:44 +0300 |
commit | 161d67088ee861b15739ebb262ad24184e811ca1 (patch) | |
tree | 28924b2c92ac32218afeb9588ad70daf1fc08418 | |
parent | 8c61a5993a54b8334528180bdd4915cd0dd3392a (diff) |
Decode more strings, change arguments, update readme
-rw-r--r-- | README.md | 10 | ||||
-rwxr-xr-x | main.py | 45 |
2 files changed, 46 insertions, 9 deletions
@@ -1,13 +1,17 @@ # triumfalno # +Расшифровка АРГ про ВОЕННОЕ ВМЕШАТЕЛЬСТВО ЭРДОГАН ТРИУМФАЛЬНО. Специально для Русин-треда. ### Как пользоваться ### ``` -./main.py decode --remove-junk +./main.py --help ``` -Опция `--remove-junk` удаляет мусорные слова из текстов перед обработкой. + +Опция `--decode` расшифровывает и выводит все строчки из `data.json`. +Через `--decode-string "ВОЕННОЕ ВМЕШАТЕЛЬСТВО ТРИУМФАЛЬНО"` можно расшифровывать произвольные строки. +Опция `--with-junk` пропускает удаление мусорных слов (бывает полезно, чтобы посмотреть как будет без удаления, на случай если удаляется что-то лишнее). В файле `data.json` лежат тексты и метаинформация, собранные с архивов двача и фейсбука. Кроме `pic` там ничего полезного нет. В папке `img` лежат связанные с текстами изображения. -Работает на `Python 3`, рекомендуется установить модуль `termcolor` чтобы вывод был цветным. +Работает на Python 3, рекомендуется установить модуль `termcolor` чтобы вывод был цветным. @@ -57,6 +57,30 @@ def clean_string(s, remove_junk=False): 'С ЛОКАЦИИ', #'КАЗНЬ', 'ГУБЕРНИЯ', + 'ПРОВЕРКИ', + 'УСТАНОВЛЕНО', + 'ПОБЕДИТЕЛЕМ', + #'СТАЛЬНЫЕ', + 'НЕРВЫ', + 'ДАРОВАНО', + #'ТРАНСПОРТИРОВКА', + 'ОДОБРЕНО', + 'ПРОЯВЛЕНИЯ', + 'УЗАКОНЕНО', + 'ИМЕЕТСЯ', + 'ЗНАЛ', + 'НЕ ПРИМЕЧЕНО', + 'НА СЕВЕР', + 'ПРИГОВОРИТЬ', + 'ШЕСТВУЕМ', + 'ДАГОН', + 'ДА МЕРЗНУЩИЙ', + 'КОФЕ', + #'РЕАГИРОВАНИЕ', + 'УКАЗАНО', + '- ВЫСОКИЙ ТИТУЛ', + 'ЗАКАЗ', + 'ЧЕРТЫ ЛИЦА' ] # только без пробелов @@ -67,7 +91,7 @@ def clean_string(s, remove_junk=False): if remove_junk: s = s.split(' ') - s = list(filter(lambda l: re.sub(r'\.$', '', l) not in junks_words, s)) + s = list(filter(lambda l: re.sub(r'\.|\!$', '', l) not in junks_words, s)) s = ' '.join(s) for j in junks_nwords: @@ -97,13 +121,15 @@ def decode(s): def main(): parser = argparse.ArgumentParser() - parser.add_argument('--remove-junk', action='store_true') - parser.add_argument('cmd', type=str) + parser.add_argument('--decode', action='store_true') + parser.add_argument('--stats', action='store_true') + parser.add_argument('--decode-string') + parser.add_argument('--with-junk', action='store_true') args = parser.parse_args() data = load_data() - if args.cmd == 'decode': + if args.decode: # ignore type2 data = list(filter(lambda i: 'type' not in i, data)) @@ -112,7 +138,7 @@ def main(): for obj in data: text = obj['text'] - text = clean_string(text, remove_junk=args.remove_junk) + text = clean_string(text, remove_junk=(not args.with_junk)) print(obj['text']) print_colored(text, 'green', fallback_prefix='[CLEANED] ') @@ -123,8 +149,15 @@ def main(): print_colored(', '.join(pic), 'red', fallback_prefix='[PICS] ') print("\n") + + elif args.decode_string: + text = clean_string(args.decode_string, remove_junk=(not args.with_junk)) + + print(args.decode_string) + print_colored(text, 'green', fallback_prefix='[CLEANED] ') + print_colored(decode(text), 'cyan', fallback_prefix='[DECODED] ') - elif args.cmd == 'stats': + elif args.stats: count = len(data) print("Total texts: %s" % count) |