summaryrefslogtreecommitdiff
diff options
context:
space:
mode:
-rw-r--r--data.json8
-rw-r--r--data.md16
-rwxr-xr-xsearch_2ch_archive.py70
3 files changed, 83 insertions, 11 deletions
diff --git a/data.json b/data.json
index c52c5d4..dd3dce8 100644
--- a/data.json
+++ b/data.json
@@ -631,11 +631,11 @@
"source_link": "https://2ch.hk/b/arch/2016-12-07/res/141697185.html"
},
{
- "text": "",
+ "text": "Номер Индексирован Безукоризненно Акробатическое По Правилам Войны Дежурные с Вышестоящими Контроль Отмечено! Присутствие Военное по Право РОБОТИЧЕСКИ Имения Вышестоящих По Право Номер Индексирован Безукоризненно Ярославская Губерния ТРИУМФАЛЬНО! Ь - Его Величество МЕСТА(!) Екатерина РОБОТИЧЕСКИ Ытрэч Военное Вмешательство Отмечено! ТРИУМФАЛЬНО! Номер Индексирован Безукоризненно Отмечено! ШПИОНАЖ ЖУЮЩЕГО ХРЯЩИ Екатерина Номер Индексирован Безукоризненно Имения Вышестоящих По Право Имения Вышестоящих По Право Эрдоган ТРИУМФАЛЬНО! Отмечено! ГАЗ-53 Отмечено! Беркут Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Дежурные с Вышестоящими Контроль Фехтовальные Навыки Отмечено! РОБОТИЧЕСКИ МЕСТА(!) Имения Вышестоящих По Право РОБОТИЧЕСКИ Отмечено! Военное Вмешательство Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Имения Вышестоящих По Право Ярославская Губерния.",
"pic": "",
- "date": "0/0/16",
- "source": "",
- "source_link": ""
+ "date": "4/12/16",
+ "source": "2ch",
+ "source_link": "http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html"
},
{
"text": "",
diff --git a/data.md b/data.md
index d98eaf1..5a872fc 100644
--- a/data.md
+++ b/data.md
@@ -1153,6 +1153,22 @@
+**Дата**: 4/12/16
+
+**Источник:** 2ch, [http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html](http://a2ch.ru/2016/12/04/nomer-indeksirovan-bezukoriznenno-akrobaticheskoe-po-pravilam-vojny-dezhurnye-s-141499074.html)
+
+**Шифровка (тип 1)**:
+> Номер Индексирован Безукоризненно Акробатическое По Правилам Войны Дежурные с Вышестоящими Контроль Отмечено! Присутствие Военное по Право РОБОТИЧЕСКИ Имения Вышестоящих По Право Номер Индексирован Безукоризненно Ярославская Губерния ТРИУМФАЛЬНО! Ь - Его Величество МЕСТА(!) Екатерина РОБОТИЧЕСКИ Ытрэч Военное Вмешательство Отмечено! ТРИУМФАЛЬНО! Номер Индексирован Безукоризненно Отмечено! ШПИОНАЖ ЖУЮЩЕГО ХРЯЩИ Екатерина Номер Индексирован Безукоризненно Имения Вышестоящих По Право Имения Вышестоящих По Право Эрдоган ТРИУМФАЛЬНО! Отмечено! ГАЗ-53 Отмечено! Беркут Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Дежурные с Вышестоящими Контроль Фехтовальные Навыки Отмечено! РОБОТИЧЕСКИ МЕСТА(!) Имения Вышестоящих По Право РОБОТИЧЕСКИ Отмечено! Военное Вмешательство Акробатическое По Правилам Войны Номер Индексирован Безукоризненно Имения Вышестоящих По Право Ярославская Губерния.
+
+**Расшифровка:**
+> НАДОПРИНЯТЬМЕРЫВОТНОШЕНИИЭТОГОБАНДФОРМИРОВАНИЯ
+
+
+
+---------
+
+
+
**Дата**: 5/12/16
**Пикрилейтед:**
diff --git a/search_2ch_archive.py b/search_2ch_archive.py
index 2ddb211..529044b 100755
--- a/search_2ch_archive.py
+++ b/search_2ch_archive.py
@@ -12,6 +12,8 @@ def test_link_text(text):
'ЗАКАДЫЧНО[ПАРРОМА]',
'РОБОТИЧЕСКИ',
'ЫТРЭЧ',
+ 'ЧЕЧЕВИЧНАЯ ПОХЛЕБКА',
+ 'ЗАКОННО!',
'АКРОБАТИЧЕСКОЕ',
'МЕСТА(!)',
'СУХОГРУЗ',
@@ -21,29 +23,83 @@ def test_link_text(text):
'Х О Р Т И Ц А',
'ЯРОСЛАВСКАЯ ГУБЕРНИЯ',
'ПРИСУТСТВИЕ ВОЕННОЕ',
- 'ИМЕНИЯ ВЫШЕСТОЯЩИХ'
+ 'ЩУКА В МЕШКЕ',
+ 'ИМЕНИЯ ВЫШЕСТОЯЩИХ',
+ 'ФЕХТОВАЛЬНЫЕ НАВЫКИ',
+ 'ОТМЕЧЕНО!',
+ 'ЛИНЕЙНО',
+ 'УКДВРК',
+ 'КАЗНЬ ПО',
+ 'Ь - ЕГО ВЕЛИЧЕСТВО',
+ 'ЙОДИНОЛОВЫЙ',
+ 'ОН ПРИГЛЯДЫВАЛСЯ ТАК ПРИСТАЛЬНО',
+ 'ЭКРАНИРОВАНИЕ ПО ИНСТРУКЦИИ',
+ 'ОДОБРЕНО!',
+ 'ПОБЕДНО ШЕСТВУЕМ',
+ 'МАШИНА И БУТЫЛКА ВИСКИ',
+ 'БЕРКУТ'
)
for w in words:
if w in text:
return True
return False
-def full_url(url):
- return 'https://2ch.hk' + url
-
def find_triumfalno():
page = 500
board = "b"
while page <= 600:
- #print("fetching page %d" % page)
+ print("fetching page %d" % page)
url = "https://2ch.hk/%s/arch/%d.html" % (board, page)
r = requests.get(url)
for a in re.finditer(r'<a href="(/'+board+'/arch/[\d-]+/res/\d+\.html)">(.*?)</a>', r.text, flags=re.I|re.M):
link_href = a.group(1)
+ full_href = 'https://2ch.hk' + link_href
link_text = a.group(2)
if test_link_text(link_text):
- print("%s => %s" % (full_url(link_href), link_text))
+ print("%s => %s" % (full_href, link_text))
page += 1
+def find_a2ch():
+# with open('/tmp/text.txt') as f:
+# known = f.read().strip().split(' ')
+# known = tuple(map(lambda x: re.sub(r'^(.*?)/([\d]+)\.html$', '\\2', x), known))
+ dates = (
+ '11/15',
+ '11/16',
+ '11/17',
+ '11/18',
+ '11/19',
+ '11/20',
+ '11/21',
+ '11/22',
+ '11/23',
+ '11/24',
+ '11/25',
+ '11/26',
+ '11/27',
+ '11/28',
+ '11/29',
+ '11/30',
+ '12/01',
+ '12/02',
+ '12/03',
+ '12/04',
+ '12/05',
+ '12/06',
+ '12/07',
+ '12/08',
+ )
+ for date in dates:
+ print("fetching %s..." % date)
+ url = 'http://a2ch.ru/2016/' + date + '/'
+ r = requests.get(url)
+ for a in re.finditer(r'<a href="(/2016/(?:.*?)-(\d+)\.html)">(.*?)</a>', r.text, flags=re.I|re.M):
+ full_href = 'http://a2ch.ru' + a.group(1)
+ link_text = a.group(3)
+ thread_id = a.group(2)
+ if test_link_text(link_text):#; and thread_id not in known:
+ print("%s => %s" % (full_href, link_text))
+
if __name__ == '__main__':
- find_triumfalno()
+ #find_triumfalno()
+ find_a2ch()