From b4f48c66de0a007ff3566c4d70dad41ed34cc239 Mon Sep 17 00:00:00 2001 From: rusinthread Date: Sat, 7 Jan 2017 02:28:25 +0300 Subject: search in a2ch.ru in search_2ch_archive.py; add new ciphertext --- data.json | 8 +++--- data.md | 16 ++++++++++++ search_2ch_archive.py | 70 +++++++++++++++++++++++++++++++++++++++++++++------ 3 files changed, 83 insertions(+), 11 deletions(-) diff --git a/data.json b/data.json index c52c5d4..dd3dce8 100644 --- a/data.json +++ b/data.json @@ -631,11 +631,11 @@ "source_link": "https://2ch.hk/b/arch/2016-12-07/res/141697185.html" }, { - "text": "", + "text": "Номер Индексирован Безукоризненно Акробатическое По Правилам Войны Дежурные с Вышестоящими Контроль Отмечено! Присутствие Военное по Право РОБОТИЧЕСКИ Имения Вышестоящих По Право Номер Индексирован Безукоризненно Ярославская Губерния ТРИУМФАЛЬНО! Ь - Его Величество МЕСТА(!) Екатерина РОБОТИЧЕСКИ Ытрэч Военное Вмешательство Отмечено! ТРИУМФАЛЬНО! Номер Индексирован Безукоризненно Отмечено! ШПИОНАЖ ЖУЮЩЕГО ХРЯЩИ Екатерина Номер Индексирован Безукоризненно Имения Вышестоящих По Право Имения Вышестоящих По Право Эрдоган ТРИУМФАЛЬНО! Отмечено! ГАЗ-53 Отмечено! Беркут Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Дежурные с Вышестоящими Контроль Фехтовальные Навыки Отмечено! РОБОТИЧЕСКИ МЕСТА(!) Имения Вышестоящих По Право РОБОТИЧЕСКИ Отмечено! Военное Вмешательство Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Имения Вышестоящих По Право Ярославская Губерния.", "pic": "", - "date": "0/0/16", - "source": "", - "source_link": "" + "date": "4/12/16", + "source": "2ch", + "source_link": "http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html" }, { "text": "", diff --git a/data.md b/data.md index d98eaf1..5a872fc 100644 --- a/data.md +++ b/data.md @@ -1153,6 +1153,22 @@ +**Дата**: 4/12/16 + +**Источник:** 2ch, [http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html](http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html) + +**Шифровка (тип 1)**: +> Номер Индексирован Безукоризненно Акробатическое По Правилам Войны Дежурные с Вышестоящими Контроль Отмечено! Присутствие Военное по Право РОБОТИЧЕСКИ Имения Вышестоящих По Право Номер Индексирован Безукоризненно Ярославская Губерния ТРИУМФАЛЬНО! Ь - Его Величество МЕСТА(!) Екатерина РОБОТИЧЕСКИ Ытрэч Военное Вмешательство Отмечено! ТРИУМФАЛЬНО! Номер Индексирован Безукоризненно Отмечено! ШПИОНАЖ ЖУЮЩЕГО ХРЯЩИ Екатерина Номер Индексирован Безукоризненно Имения Вышестоящих По Право Имения Вышестоящих По Право Эрдоган ТРИУМФАЛЬНО! Отмечено! ГАЗ-53 Отмечено! Беркут Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Дежурные с Вышестоящими Контроль Фехтовальные Навыки Отмечено! РОБОТИЧЕСКИ МЕСТА(!) Имения Вышестоящих По Право РОБОТИЧЕСКИ Отмечено! Военное Вмешательство Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Имения Вышестоящих По Право Ярославская Губерния. + +**Расшифровка:** +> НАДОПРИНЯТЬМЕРЫВОТНОШЕНИИЭТОГОБАНДФОРМИРОВАНИЯ + + + +--------- + + + **Дата**: 5/12/16 **Пикрилейтед:** diff --git a/search_2ch_archive.py b/search_2ch_archive.py index 2ddb211..529044b 100755 --- a/search_2ch_archive.py +++ b/search_2ch_archive.py @@ -12,6 +12,8 @@ def test_link_text(text): 'ЗАКАДЫЧНО[ПАРРОМА]', 'РОБОТИЧЕСКИ', 'ЫТРЭЧ', + 'ЧЕЧЕВИЧНАЯ ПОХЛЕБКА', + 'ЗАКОННО!', 'АКРОБАТИЧЕСКОЕ', 'МЕСТА(!)', 'СУХОГРУЗ', @@ -21,29 +23,83 @@ def test_link_text(text): 'Х О Р Т И Ц А', 'ЯРОСЛАВСКАЯ ГУБЕРНИЯ', 'ПРИСУТСТВИЕ ВОЕННОЕ', - 'ИМЕНИЯ ВЫШЕСТОЯЩИХ' + 'ЩУКА В МЕШКЕ', + 'ИМЕНИЯ ВЫШЕСТОЯЩИХ', + 'ФЕХТОВАЛЬНЫЕ НАВЫКИ', + 'ОТМЕЧЕНО!', + 'ЛИНЕЙНО', + 'УКДВРК', + 'КАЗНЬ ПО', + 'Ь - ЕГО ВЕЛИЧЕСТВО', + 'ЙОДИНОЛОВЫЙ', + 'ОН ПРИГЛЯДЫВАЛСЯ ТАК ПРИСТАЛЬНО', + 'ЭКРАНИРОВАНИЕ ПО ИНСТРУКЦИИ', + 'ОДОБРЕНО!', + 'ПОБЕДНО ШЕСТВУЕМ', + 'МАШИНА И БУТЫЛКА ВИСКИ', + 'БЕРКУТ' ) for w in words: if w in text: return True return False -def full_url(url): - return 'https://2ch.hk' + url - def find_triumfalno(): page = 500 board = "b" while page <= 600: - #print("fetching page %d" % page) + print("fetching page %d" % page) url = "https://2ch.hk/%s/arch/%d.html" % (board, page) r = requests.get(url) for a in re.finditer(r'(.*?)', r.text, flags=re.I|re.M): link_href = a.group(1) + full_href = 'https://2ch.hk' + link_href link_text = a.group(2) if test_link_text(link_text): - print("%s => %s" % (full_url(link_href), link_text)) + print("%s => %s" % (full_href, link_text)) page += 1 +def find_a2ch(): +# with open('/tmp/text.txt') as f: +# known = f.read().strip().split(' ') +# known = tuple(map(lambda x: re.sub(r'^(.*?)/([\d]+)\.html$', '\\2', x), known)) + dates = ( + '11/15', + '11/16', + '11/17', + '11/18', + '11/19', + '11/20', + '11/21', + '11/22', + '11/23', + '11/24', + '11/25', + '11/26', + '11/27', + '11/28', + '11/29', + '11/30', + '12/01', + '12/02', + '12/03', + '12/04', + '12/05', + '12/06', + '12/07', + '12/08', + ) + for date in dates: + print("fetching %s..." % date) + url = 'http://a2ch.ru/2016/' + date + '/' + r = requests.get(url) + for a in re.finditer(r'(.*?)', r.text, flags=re.I|re.M): + full_href = 'http://a2ch.ru' + a.group(1) + link_text = a.group(3) + thread_id = a.group(2) + if test_link_text(link_text):#; and thread_id not in known: + print("%s => %s" % (full_href, link_text)) + if __name__ == '__main__': - find_triumfalno() + #find_triumfalno() + find_a2ch() -- cgit v1.2.3