#!/usr/bin/python3 import requests, re import sys def test_link_text(text): text = text.upper() words = ( 'ЭРДОГАН', 'ТРИУМФАЛЬНО', 'ВОЕННОЕ ВМЕШАТЕЛЬСТВО', 'ИНДЕКСИРОВАН БЕЗУКОРИЗНЕННО', 'ЗАКАДЫЧНО[ПАРРОМА]', 'РОБОТИЧЕСКИ', 'ЫТРЭЧ', 'АКРОБАТИЧЕСКОЕ', 'МЕСТА(!)', 'СУХОГРУЗ', 'ГАЗ-53', 'ОТКЛАДЫВАЕТСЯ ЛИНЕЙНО', 'ДЕЖУРНЫЕ С ВЫШЕСТОЯЩИМИ', 'Х О Р Т И Ц А', 'ЯРОСЛАВСКАЯ ГУБЕРНИЯ', 'ПРИСУТСТВИЕ ВОЕННОЕ', 'ИМЕНИЯ ВЫШЕСТОЯЩИХ' ) for w in words: if w in text: return True return False def full_url(url): return 'https://2ch.hk' + url page = 500 board = "b" while page <= 600: print("fetching page %d" % page) url = "https://2ch.hk/%s/arch/%d.html" % (board, page) r = requests.get(url) for a in re.finditer(r'(.*?)', r.text, flags=re.I|re.M): link_href = a.group(1) link_text = a.group(2) if test_link_text(link_text): print("[%d] %s => %s" % (page, full_url(link_href), link_text)) page += 1