From 52602304e44be93124707f719015f0962f4ae1ad Mon Sep 17 00:00:00 2001 From: rusinthread Date: Sat, 7 Jan 2017 00:37:00 +0300 Subject: update readme, rename searching script --- README.md | 4 ++-- find_2ch_archive.py | 49 ------------------------------------------------- search_2ch_archive.py | 49 +++++++++++++++++++++++++++++++++++++++++++++++++ 3 files changed, 51 insertions(+), 51 deletions(-) delete mode 100755 find_2ch_archive.py create mode 100755 search_2ch_archive.py diff --git a/README.md b/README.md index 6bdf431..8f3a7bc 100644 --- a/README.md +++ b/README.md @@ -4,7 +4,7 @@ ## Расшифованные данные ## -Открой страницу [data.md](./data.md). +Все карты и тексты - на странице [data.md](./data.md). ## Как пользоваться скриптом ## ``` @@ -23,6 +23,6 @@ ## Другое ## -В файле `data.json` лежат тексты и метаинформация, собранные с архивов двача и фейсбука. +В файле `data.json` лежат тексты и метаинформация, собранные с архивов двача и фейсбука. Из этого файла генерируется страничка `data.md`. Работает на Python 3, рекомендуется установить модуль `termcolor` чтобы вывод был цветным. diff --git a/find_2ch_archive.py b/find_2ch_archive.py deleted file mode 100755 index 2ddb211..0000000 --- a/find_2ch_archive.py +++ /dev/null @@ -1,49 +0,0 @@ -#!/usr/bin/python3 -import requests, re -#import sys - -def test_link_text(text): - text = text.upper() - words = ( - 'ЭРДОГАН', - 'ТРИУМФАЛЬНО', - 'ВОЕННОЕ ВМЕШАТЕЛЬСТВО', - 'ИНДЕКСИРОВАН БЕЗУКОРИЗНЕННО', - 'ЗАКАДЫЧНО[ПАРРОМА]', - 'РОБОТИЧЕСКИ', - 'ЫТРЭЧ', - 'АКРОБАТИЧЕСКОЕ', - 'МЕСТА(!)', - 'СУХОГРУЗ', - 'ГАЗ-53', - 'ОТКЛАДЫВАЕТСЯ ЛИНЕЙНО', - 'ДЕЖУРНЫЕ С ВЫШЕСТОЯЩИМИ', - 'Х О Р Т И Ц А', - 'ЯРОСЛАВСКАЯ ГУБЕРНИЯ', - 'ПРИСУТСТВИЕ ВОЕННОЕ', - 'ИМЕНИЯ ВЫШЕСТОЯЩИХ' - ) - for w in words: - if w in text: - return True - return False - -def full_url(url): - return 'https://2ch.hk' + url - -def find_triumfalno(): - page = 500 - board = "b" - while page <= 600: - #print("fetching page %d" % page) - url = "https://2ch.hk/%s/arch/%d.html" % (board, page) - r = requests.get(url) - for a in re.finditer(r'(.*?)', r.text, flags=re.I|re.M): - link_href = a.group(1) - link_text = a.group(2) - if test_link_text(link_text): - print("%s => %s" % (full_url(link_href), link_text)) - page += 1 - -if __name__ == '__main__': - find_triumfalno() diff --git a/search_2ch_archive.py b/search_2ch_archive.py new file mode 100755 index 0000000..2ddb211 --- /dev/null +++ b/search_2ch_archive.py @@ -0,0 +1,49 @@ +#!/usr/bin/python3 +import requests, re +#import sys + +def test_link_text(text): + text = text.upper() + words = ( + 'ЭРДОГАН', + 'ТРИУМФАЛЬНО', + 'ВОЕННОЕ ВМЕШАТЕЛЬСТВО', + 'ИНДЕКСИРОВАН БЕЗУКОРИЗНЕННО', + 'ЗАКАДЫЧНО[ПАРРОМА]', + 'РОБОТИЧЕСКИ', + 'ЫТРЭЧ', + 'АКРОБАТИЧЕСКОЕ', + 'МЕСТА(!)', + 'СУХОГРУЗ', + 'ГАЗ-53', + 'ОТКЛАДЫВАЕТСЯ ЛИНЕЙНО', + 'ДЕЖУРНЫЕ С ВЫШЕСТОЯЩИМИ', + 'Х О Р Т И Ц А', + 'ЯРОСЛАВСКАЯ ГУБЕРНИЯ', + 'ПРИСУТСТВИЕ ВОЕННОЕ', + 'ИМЕНИЯ ВЫШЕСТОЯЩИХ' + ) + for w in words: + if w in text: + return True + return False + +def full_url(url): + return 'https://2ch.hk' + url + +def find_triumfalno(): + page = 500 + board = "b" + while page <= 600: + #print("fetching page %d" % page) + url = "https://2ch.hk/%s/arch/%d.html" % (board, page) + r = requests.get(url) + for a in re.finditer(r'(.*?)', r.text, flags=re.I|re.M): + link_href = a.group(1) + link_text = a.group(2) + if test_link_text(link_text): + print("%s => %s" % (full_url(link_href), link_text)) + page += 1 + +if __name__ == '__main__': + find_triumfalno() -- cgit v1.2.3