Speed up domain parsing

2023-01-20 20:53:50 +00:00 · 2023-01-20 20:53:50 +00:00 · 66700f8a3e
commit 66700f8a3e
parent 2b36f2ccc1
5 changed files with 57 additions and 6 deletions
--- a/analyse/url_queue.py
+++ b/analyse/url_queue.py
@ -0,0 +1,35 @@
+import logging
+import os
+import pickle
+import sys
+from datetime import datetime
+from pathlib import Path
+from queue import Queue
+
+from mwmbl.url_queue import URLQueue
+
+FORMAT = '%(levelname)s %(name)s %(asctime)s %(message)s'
+logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, format=FORMAT)
+
+
+def run_url_queue():
+    data = pickle.load(open(Path(os.environ["HOME"]) / "data" / "mwmbl" / "found-urls.pickle", "rb"))
+    print("First URLs", [x.url for x in data[:1000]])
+
+    new_item_queue = Queue()
+    queued_batches = Queue()
+    queue = URLQueue(new_item_queue, queued_batches)
+
+    new_item_queue.put(data)
+
+    start = datetime.now()
+    queue.update()
+    total_time = (datetime.now() - start).total_seconds()
+    print(f"Total time: {total_time}")
+
+
+
+
+
+if __name__ == '__main__':
+    run_url_queue()
--- a/devdata/index-v2.tinysearch
+++ b/devdata/index-v2.tinysearch
--- a/mwmbl/indexer/process_batch.py
+++ b/mwmbl/indexer/process_batch.py
@ -24,6 +24,10 @@ def run(batch_cache: BatchCache, start_status: BatchStatus, end_status: BatchSta
        batch_data = batch_cache.get_cached([batch.url for batch in batches])
        logger.info(f"Got {len(batch_data)} cached batches")

+        missing_batches = {batch.url for batch in batches} - batch_data.keys()
+        logger.info(f"Got {len(missing_batches)} missing batches")
+        index_db.update_batch_status(list(missing_batches), BatchStatus.REMOTE)
+
        process(batch_data.values(), *args)

        index_db.update_batch_status(list(batch_data.keys()), end_status)
--- a/mwmbl/main.py
+++ b/mwmbl/main.py
@ -1,6 +1,5 @@
 import argparse
 import logging
-import os
 import sys
 from multiprocessing import Process, Queue
 from pathlib import Path
@ -8,7 +7,7 @@ from pathlib import Path
 import uvicorn
 from fastapi import FastAPI

-from mwmbl import background, url_queue
+from mwmbl import background
 from mwmbl.crawler import app as crawler
 from mwmbl.indexer.batch_cache import BatchCache
 from mwmbl.indexer.paths import INDEX_NAME, BATCH_DIR_NAME
@ -16,9 +15,10 @@ from mwmbl.tinysearchengine import search
 from mwmbl.tinysearchengine.completer import Completer
 from mwmbl.tinysearchengine.indexer import TinyIndex, Document, PAGE_SIZE
 from mwmbl.tinysearchengine.rank import HeuristicRanker
-from mwmbl.url_queue import URLQueue, update_queue_continuously
+from mwmbl.url_queue import update_queue_continuously

-logging.basicConfig(stream=sys.stdout, level=logging.INFO)
+FORMAT = '%(levelname)s %(name)s %(asctime)s %(message)s'
+logging.basicConfig(stream=sys.stdout, level=logging.DEBUG, format=FORMAT)


 MODEL_PATH = Path(__file__).parent / 'resources' / 'model.pickle'
--- a/mwmbl/url_queue.py
+++ b/mwmbl/url_queue.py
@ -1,10 +1,14 @@
+import os
+import pickle
 import random
+import re
 import time
 from collections import defaultdict
 from dataclasses import dataclass
 from datetime import datetime, timedelta
 from logging import getLogger
 from multiprocessing import Queue
+from pathlib import Path
 from queue import Empty
 from time import sleep
 from typing import KeysView, Union
@ -29,6 +33,8 @@ MAX_URLS_PER_TOP_DOMAIN = 100
 MAX_URLS_PER_OTHER_DOMAIN = 5
 MAX_OTHER_DOMAINS = 10000

+DOMAIN_REGEX = re.compile(r".*://([^/]*)")
+

@dataclass
 class URLScore:
@ -66,6 +72,11 @@ class URLQueue:
        return num_processed

    def _process_found_urls(self, found_urls: list[FoundURL]):
+        logger.info("Processing found URLs")
+        # with open(Path(os.environ["HOME"]) / "data" / "mwmbl" / "found-urls.pickle", "wb") as output_file:
+        #     pickle.dump(found_urls, output_file)
+        # logger.info("Dumped")
+
        min_updated_date = datetime.utcnow() - timedelta(hours=REASSIGN_MIN_HOURS)

        logger.info(f"Found URLS: {len(found_urls)}")
@ -87,10 +98,12 @@ class URLQueue:

    def _sort_urls(self, valid_urls: list[FoundURL]):
        for found_url in valid_urls:
-            domain = urlparse(found_url.url).hostname
+            domain = DOMAIN_REGEX.search(found_url.url)[0]
            url_store = self._top_urls if domain in TOP_DOMAINS else self._other_urls
            url_store[domain].append(URLScore(found_url.url, found_url.score))

+        logger.info(f"URL store updated: {len(self._top_urls)} top domains, {len(self._other_urls)} other domains")
+
        _sort_and_limit_urls(self._top_urls, MAX_TOP_URLS)
        _sort_and_limit_urls(self._other_urls, MAX_OTHER_URLS)

@ -125,7 +138,6 @@ def _sort_and_limit_urls(domain_urls: dict[str, list[str]], max_urls: int):
 def _add_urls(domains: Union[set[str], KeysView], domain_urls: dict[str, list[URLScore]], urls: list[str], max_urls: int):
    for domain in list(domains & domain_urls.keys()):
        new_urls = domain_urls[domain][:max_urls]
-        logger.info(f"Adding URLs {new_urls}")
        urls += [url_score.url for url_score in new_urls]
        new_domain_urls = domain_urls[domain][max_urls:]
        if len(new_domain_urls) > 0: