diff options
author | rusinthread <rusinthread@cock.li> | 2017-01-07 02:28:25 +0300 |
---|---|---|
committer | rusinthread <rusinthread@cock.li> | 2017-01-07 02:28:25 +0300 |
commit | b4f48c66de0a007ff3566c4d70dad41ed34cc239 (patch) | |
tree | 560908766ce56607c9ff8bec4c5e1c685a1fad08 | |
parent | b0eca5d32aa7e7ebd55eec06bef91e568cf155d2 (diff) |
search in a2ch.ru in search_2ch_archive.py; add new ciphertext
-rw-r--r-- | data.json | 8 | ||||
-rw-r--r-- | data.md | 16 | ||||
-rwxr-xr-x | search_2ch_archive.py | 70 |
3 files changed, 83 insertions, 11 deletions
@@ -631,11 +631,11 @@ "source_link": "https://2ch.hk/b/arch/2016-12-07/res/141697185.html" }, { - "text": "", + "text": "Номер Индексирован Безукоризненно Акробатическое По Правилам Войны Дежурные с Вышестоящими Контроль Отмечено! Присутствие Военное по Право РОБОТИЧЕСКИ Имения Вышестоящих По Право Номер Индексирован Безукоризненно Ярославская Губерния ТРИУМФАЛЬНО! Ь - Его Величество МЕСТА(!) Екатерина РОБОТИЧЕСКИ Ытрэч Военное Вмешательство Отмечено! ТРИУМФАЛЬНО! Номер Индексирован Безукоризненно Отмечено! ШПИОНАЖ ЖУЮЩЕГО ХРЯЩИ Екатерина Номер Индексирован Безукоризненно Имения Вышестоящих По Право Имения Вышестоящих По Право Эрдоган ТРИУМФАЛЬНО! Отмечено! ГАЗ-53 Отмечено! Беркут Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Дежурные с Вышестоящими Контроль Фехтовальные Навыки Отмечено! РОБОТИЧЕСКИ МЕСТА(!) Имения Вышестоящих По Право РОБОТИЧЕСКИ Отмечено! Военное Вмешательство Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Имения Вышестоящих По Право Ярославская Губерния.", "pic": "", - "date": "0/0/16", - "source": "", - "source_link": "" + "date": "4/12/16", + "source": "2ch", + "source_link": "http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html" }, { "text": "", @@ -1153,6 +1153,22 @@ +**Дата**: 4/12/16 + +**Источник:** 2ch, [http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html](http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html) + +**Шифровка (тип 1)**: +> Номер Индексирован Безукоризненно Акробатическое По Правилам Войны Дежурные с Вышестоящими Контроль Отмечено! Присутствие Военное по Право РОБОТИЧЕСКИ Имения Вышестоящих По Право Номер Индексирован Безукоризненно Ярославская Губерния ТРИУМФАЛЬНО! Ь - Его Величество МЕСТА(!) Екатерина РОБОТИЧЕСКИ Ытрэч Военное Вмешательство Отмечено! ТРИУМФАЛЬНО! Номер Индексирован Безукоризненно Отмечено! ШПИОНАЖ ЖУЮЩЕГО ХРЯЩИ Екатерина Номер Индексирован Безукоризненно Имения Вышестоящих По Право Имения Вышестоящих По Право Эрдоган ТРИУМФАЛЬНО! Отмечено! ГАЗ-53 Отмечено! Беркут Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Дежурные с Вышестоящими Контроль Фехтовальные Навыки Отмечено! РОБОТИЧЕСКИ МЕСТА(!) Имения Вышестоящих По Право РОБОТИЧЕСКИ Отмечено! Военное Вмешательство Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Имения Вышестоящих По Право Ярославская Губерния. + +**Расшифровка:** +> НАДОПРИНЯТЬМЕРЫВОТНОШЕНИИЭТОГОБАНДФОРМИРОВАНИЯ + + + +--------- + + + **Дата**: 5/12/16 **Пикрилейтед:** diff --git a/search_2ch_archive.py b/search_2ch_archive.py index 2ddb211..529044b 100755 --- a/search_2ch_archive.py +++ b/search_2ch_archive.py @@ -12,6 +12,8 @@ def test_link_text(text): 'ЗАКАДЫЧНО[ПАРРОМА]', 'РОБОТИЧЕСКИ', 'ЫТРЭЧ', + 'ЧЕЧЕВИЧНАЯ ПОХЛЕБКА', + 'ЗАКОННО!', 'АКРОБАТИЧЕСКОЕ', 'МЕСТА(!)', 'СУХОГРУЗ', @@ -21,29 +23,83 @@ def test_link_text(text): 'Х О Р Т И Ц А', 'ЯРОСЛАВСКАЯ ГУБЕРНИЯ', 'ПРИСУТСТВИЕ ВОЕННОЕ', - 'ИМЕНИЯ ВЫШЕСТОЯЩИХ' + 'ЩУКА В МЕШКЕ', + 'ИМЕНИЯ ВЫШЕСТОЯЩИХ', + 'ФЕХТОВАЛЬНЫЕ НАВЫКИ', + 'ОТМЕЧЕНО!', + 'ЛИНЕЙНО', + 'УКДВРК', + 'КАЗНЬ ПО', + 'Ь - ЕГО ВЕЛИЧЕСТВО', + 'ЙОДИНОЛОВЫЙ', + 'ОН ПРИГЛЯДЫВАЛСЯ ТАК ПРИСТАЛЬНО', + 'ЭКРАНИРОВАНИЕ ПО ИНСТРУКЦИИ', + 'ОДОБРЕНО!', + 'ПОБЕДНО ШЕСТВУЕМ', + 'МАШИНА И БУТЫЛКА ВИСКИ', + 'БЕРКУТ' ) for w in words: if w in text: return True return False -def full_url(url): - return 'https://2ch.hk' + url - def find_triumfalno(): page = 500 board = "b" while page <= 600: - #print("fetching page %d" % page) + print("fetching page %d" % page) url = "https://2ch.hk/%s/arch/%d.html" % (board, page) r = requests.get(url) for a in re.finditer(r'<a href="(/'+board+'/arch/[\d-]+/res/\d+\.html)">(.*?)</a>', r.text, flags=re.I|re.M): link_href = a.group(1) + full_href = 'https://2ch.hk' + link_href link_text = a.group(2) if test_link_text(link_text): - print("%s => %s" % (full_url(link_href), link_text)) + print("%s => %s" % (full_href, link_text)) page += 1 +def find_a2ch(): +# with open('/tmp/text.txt') as f: +# known = f.read().strip().split(' ') +# known = tuple(map(lambda x: re.sub(r'^(.*?)/([\d]+)\.html$', '\\2', x), known)) + dates = ( + '11/15', + '11/16', + '11/17', + '11/18', + '11/19', + '11/20', + '11/21', + '11/22', + '11/23', + '11/24', + '11/25', + '11/26', + '11/27', + '11/28', + '11/29', + '11/30', + '12/01', + '12/02', + '12/03', + '12/04', + '12/05', + '12/06', + '12/07', + '12/08', + ) + for date in dates: + print("fetching %s..." % date) + url = 'http://a2ch.ru/2016/' + date + '/' + r = requests.get(url) + for a in re.finditer(r'<a href="(/2016/(?:.*?)-(\d+)\.html)">(.*?)</a>', r.text, flags=re.I|re.M): + full_href = 'http://a2ch.ru' + a.group(1) + link_text = a.group(3) + thread_id = a.group(2) + if test_link_text(link_text):#; and thread_id not in known: + print("%s => %s" % (full_href, link_text)) + if __name__ == '__main__': - find_triumfalno() + #find_triumfalno() + find_a2ch() |