3 years ago · da8797f5ef
--- a/Dockerfile
+++ b/Dockerfile
@@ -31,4 +31,4 @@ COPY data /data
 
															 #COPY docker-entrypoint.sh wsgi.py ./
														
 
															 #CMD ["./docker-entrypoint.sh"]
														
 
															-CMD ["/venv/bin/python", "-m", "tinysearchengine.app", "/data/index.tinysearch"]
														
 
															+CMD ["/venv/bin/python", "-m", "mwmbl.tinysearchengine.app", "/data/index.tinysearch"]
														
--- a/analyse/inspect_index.py
+++ b/analyse/inspect_index.py
@@ -1,5 +1,5 @@
 
															-from tinysearchengine.indexer import TinyIndex, NUM_PAGES, PAGE_SIZE, Document
														
 
															-from indexer.paths import INDEX_PATH
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndex, NUM_PAGES, PAGE_SIZE, Document
														
 
															+from mwmbl.indexer.paths import INDEX_PATH
														
 
															 def get_items():
														
--- a/analyse/make_curl.py
+++ b/analyse/make_curl.py
@@ -5,8 +5,8 @@ import os
 
															 from itertools import islice
														
 
															 from urllib.parse import quote
														
 
															-from indexer.paths import DATA_DIR
														
 
															-from indexer.wiki import get_wiki_titles_and_urls
														
 
															+from mwmbl.indexer.paths import DATA_DIR
														
 
															+from mwmbl.indexer.wiki import get_wiki_titles_and_urls
														
 
															 URL_TEMPLATE = "http://localhost:8000/complete?q={}"
														
 
															 CURL_FILE = os.path.join(DATA_DIR, "urls.curl")
														
--- a/analyse/performance.py
+++ b/analyse/performance.py
@@ -8,11 +8,11 @@ import numpy as np
 
															 from spacy.lang.en import English
														
 
															 from starlette.testclient import TestClient
														
 
															-from tinysearchengine import create_app
														
 
															-from indexer.fsqueue import ZstdJsonSerializer
														
 
															-from indexer.index import index_titles_urls_and_extracts
														
 
															-from tinysearchengine.indexer import TinyIndex, TinyIndexer, Document
														
 
															-from indexer.paths import TEST_INDEX_PATH, DATA_DIR, TEST_TERMS_PATH
														
 
															+from mwmbl.tinysearchengine import create_app
														
 
															+from mwmbl.indexer.fsqueue import ZstdJsonSerializer
														
 
															+from mwmbl.indexer.index import index_titles_urls_and_extracts
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndex, TinyIndexer, Document
														
 
															+from mwmbl.indexer.paths import TEST_INDEX_PATH, DATA_DIR, TEST_TERMS_PATH
														
 
															 NUM_DOCUMENTS = 30000
														
 
															 NUM_PAGES_FOR_STATS = 10
														
--- a/indexer/__init__.py
+++ b/indexer/__init__.py
--- a/indexer/domains/__init__.py
+++ b/indexer/domains/__init__.py
--- a/mwmbl/indexer/bootstrap.sh
+++ b/mwmbl/indexer/bootstrap.sh
--- a/mwmbl/indexer/crawl.py
+++ b/mwmbl/indexer/crawl.py
@@ -10,7 +10,7 @@ from traceback import print_tb, print_exc
 
															 import pandas as pd
														
 
															 import requests
														
 
															-from paths import DATA_DIR, HN_TOP_PATH, CRAWL_PREFIX
														
 
															+from .paths import DATA_DIR, HN_TOP_PATH, CRAWL_PREFIX
														
 
															 def crawl():
														
--- a/mwmbl/indexer/deploy.sh
+++ b/mwmbl/indexer/deploy.sh
--- a/mwmbl/indexer/domains.py
+++ b/mwmbl/indexer/domains.py
--- a/mwmbl/indexer/domains/__init__.py
+++ b/mwmbl/indexer/domains/__init__.py
--- a/mwmbl/indexer/domains/domain_titles.py
+++ b/mwmbl/indexer/domains/domain_titles.py
@@ -8,8 +8,8 @@ from urllib.parse import urlsplit, urlunsplit
 
															 import bs4
														
 
															 import requests
														
 
															-from indexer.fsqueue import FSQueue, ZstdJsonSerializer
														
 
															-from indexer.paths import DATA_DIR, DOMAINS_QUEUE_NAME, DOMAINS_TITLES_QUEUE_NAME
														
 
															+from mwmbl.indexer.fsqueue import FSQueue, ZstdJsonSerializer
														
 
															+from mwmbl.indexer.paths import DATA_DIR, DOMAINS_QUEUE_NAME, DOMAINS_TITLES_QUEUE_NAME
														
 
															 NUM_PROCESSES = 10
														
--- a/mwmbl/indexer/domains/queue_domains.py
+++ b/mwmbl/indexer/domains/queue_domains.py
@@ -4,8 +4,8 @@ Add domains to the queue to be retrieved
 
															 import csv
														
 
															 import gzip
														
 
															-from indexer.fsqueue import FSQueue, ZstdJsonSerializer
														
 
															-from indexer.paths import DOMAINS_PATH, DOMAINS_QUEUE_NAME, DATA_DIR
														
 
															+from mwmbl.indexer.fsqueue import FSQueue, ZstdJsonSerializer
														
 
															+from mwmbl.indexer.paths import DOMAINS_PATH, DOMAINS_QUEUE_NAME, DATA_DIR
														
 
															 BATCH_SIZE = 250
														
--- a/mwmbl/indexer/extract.py
+++ b/mwmbl/indexer/extract.py
--- a/mwmbl/indexer/extract_local.py
+++ b/mwmbl/indexer/extract_local.py
@@ -4,9 +4,9 @@ import os
 
															 from glob import glob
														
 
															 from multiprocessing import Process, Lock
														
 
															-from extract_process import fetch_process_warc_records
														
 
															-from fsqueue import FSQueue, GzipJsonRowSerializer
														
 
															-from paths import DATA_DIR
														
 
															+from .extract_process import fetch_process_warc_records
														
 
															+from .fsqueue import FSQueue, GzipJsonRowSerializer
														
 
															+from .paths import DATA_DIR
														
 
															 ARCHIVE_INFO_GLOB = 'outputs/records/*.gz'
														
--- a/mwmbl/indexer/extract_process.py
+++ b/mwmbl/indexer/extract_process.py
--- a/mwmbl/indexer/fsqueue.py
+++ b/mwmbl/indexer/fsqueue.py
--- a/mwmbl/indexer/hn-top-domains-filtered.py
+++ b/mwmbl/indexer/hn-top-domains-filtered.py
--- a/mwmbl/indexer/index.py
+++ b/mwmbl/indexer/index.py
@@ -10,7 +10,7 @@ import pandas as pd
 
															 # NUM_PAGES = 8192
														
 
															 # PAGE_SIZE = 512
														
 
															-from tinysearchengine.indexer import TinyIndexer, Document, TokenizedDocument
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndexer, Document, TokenizedDocument
														
 
															 NUM_INITIAL_TOKENS = 50
														
--- a/mwmbl/indexer/index_glob.py
+++ b/mwmbl/indexer/index_glob.py
@@ -4,12 +4,13 @@ from glob import glob
 
															 import bs4
														
 
															 from spacy.lang.en import English
														
 
															-from index import tokenize
														
 
															-from tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE
														
 
															-from paths import INDEX_PATH, CRAWL_GLOB
														
 
															+from .index import tokenize
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE
														
 
															+from .paths import INDEX_PATH, CRAWL_GLOB
														
 
															 def run():
														
 
															+    # TODO: item_factory argument is unfilled.
														
 
															     indexer = TinyIndexer(INDEX_PATH, NUM_PAGES, PAGE_SIZE)
														
 
															     indexer.create_if_not_exists()
														
 
															     nlp = English()
														
--- a/mwmbl/indexer/index_queue.py
+++ b/mwmbl/indexer/index_queue.py
@@ -3,10 +3,10 @@ Index items in the file-system queue
 
															 """
														
 
															 from spacy.lang.en import English
														
 
															-from fsqueue import FSQueue, ZstdJsonSerializer
														
 
															-from index import index_titles_urls_and_extracts
														
 
															-from tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE
														
 
															-from paths import DATA_DIR, DOMAINS_TITLES_QUEUE_NAME, INDEX_PATH
														
 
															+from .fsqueue import FSQueue, ZstdJsonSerializer
														
 
															+from .index import index_titles_urls_and_extracts
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE
														
 
															+from .paths import DATA_DIR, DOMAINS_TITLES_QUEUE_NAME, INDEX_PATH
														
 
															 def get_queue_items():
														
--- a/mwmbl/indexer/indexcc.py
+++ b/mwmbl/indexer/indexcc.py
@@ -7,10 +7,10 @@ from logging import getLogger
 
															 import spacy
														
 
															-from fsqueue import FSQueue, GzipJsonRowSerializer, FSQueueError
														
 
															-from index import index_titles_urls_and_extracts
														
 
															-from tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE, Document
														
 
															-from paths import INDEX_PATH, DATA_DIR, COMMON_CRAWL_TERMS_PATH
														
 
															+from .fsqueue import FSQueue, GzipJsonRowSerializer, FSQueueError
														
 
															+from .index import index_titles_urls_and_extracts
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE, Document
														
 
															+from .paths import INDEX_PATH, DATA_DIR, COMMON_CRAWL_TERMS_PATH
														
 
															 logging.basicConfig(level=logging.DEBUG, stream=sys.stdout)
														
--- a/mwmbl/indexer/paths.py
+++ b/mwmbl/indexer/paths.py
--- a/mwmbl/indexer/wiki.py
+++ b/mwmbl/indexer/wiki.py
@@ -7,9 +7,9 @@ from urllib.parse import quote
 
															 from spacy.lang.en import English
														
 
															-from indexer.index import index_titles_urls_and_extracts
														
 
															-from tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE
														
 
															-from indexer.paths import WIKI_TITLES_PATH, INDEX_PATH
														
 
															+from .index import index_titles_urls_and_extracts
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE
														
 
															+from .paths import WIKI_TITLES_PATH, INDEX_PATH
														
 
															 TEXT_TAGS = ['mediawiki', 'page', 'revision', 'text']
														
 
															 TITLE_START = '<title>Wikipedia: '
														
--- a/mwmbl/tinysearchengine/__init__.py
+++ b/mwmbl/tinysearchengine/__init__.py
--- a/mwmbl/tinysearchengine/app.py
+++ b/mwmbl/tinysearchengine/app.py
@@ -0,0 +1,17 @@
 
															+import logging
														
 
															+import sys
														
 
															+
														
 
															+import uvicorn
														
 
															+
														
 
															+from mwmbl.tinysearchengine import create_app
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndex, NUM_PAGES, PAGE_SIZE, Document
														
 
															+
														
 
															+logging.basicConfig()
														
 
															+
														
 
															+
														
 
															+index_path = sys.argv[1]
														
 
															+tiny_index = TinyIndex(Document, index_path, NUM_PAGES, PAGE_SIZE)
														
 
															+app = create_app.create(tiny_index)
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    uvicorn.run("mwmbl.tinysearchengine.app:app", host="0.0.0.0", port=8080, log_level="info")
														
--- a/mwmbl/tinysearchengine/create_app.py
+++ b/mwmbl/tinysearchengine/create_app.py
@@ -7,7 +7,7 @@ from fastapi import FastAPI
 
															 from starlette.responses import FileResponse
														
 
															 from starlette.staticfiles import StaticFiles
														
 
															-from tinysearchengine.indexer import TinyIndex, Document
														
 
															+from mwmbl.tinysearchengine.indexer import TinyIndex, Document
														
 
															 logger = getLogger(__name__)
														
--- a/mwmbl/tinysearchengine/indexer.py
+++ b/mwmbl/tinysearchengine/indexer.py
@@ -6,7 +6,7 @@ from pathlib import Path
 
															 from typing import TypeVar, Generic, Callable, List
														
 
															 import mmh3
														
 
															-from zstandard import ZstdDecompressor
														
 
															+from zstandard import ZstdDecompressor, ZstdCompressor, ZstdError
														
 
															 NUM_PAGES = 25600
														
--- a/mwmbl/tinysearchengine/static/index.css
+++ b/mwmbl/tinysearchengine/static/index.css
--- a/mwmbl/tinysearchengine/static/index.html
+++ b/mwmbl/tinysearchengine/static/index.html
--- a/mwmbl/tinysearchengine/static/index.js
+++ b/mwmbl/tinysearchengine/static/index.js
--- a/mwmbl/tinysearchengine/static/landing.html
+++ b/mwmbl/tinysearchengine/static/landing.html
--- a/mwmbl/tinysearchengine/static/plugin.xml
+++ b/mwmbl/tinysearchengine/static/plugin.xml
--- a/mwmbl/tinysearchengine/static/search.html
+++ b/mwmbl/tinysearchengine/static/search.html
--- a/mwmbl/tinysearchengine/static/typeahead.css
+++ b/mwmbl/tinysearchengine/static/typeahead.css
--- a/mwmbl/tinysearchengine/static/typeahead.js
+++ b/mwmbl/tinysearchengine/static/typeahead.js
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -1,5 +1,5 @@
 
															 [tool.poetry]
														
 
															-name = "tinysearchengine"
														
 
															+name = "mwmbl"
														
 
															 version = "0.1.0"
														
 
															 description = ""
														
 
															 authors = ["Daoud Clarke <daoud.clarke@gmail.com>"]
														
--- a/tinysearchengine/app.py
+++ b/tinysearchengine/app.py
@@ -1,17 +0,0 @@
 
															-import logging
														
 
															-import sys
														
 
															-
														
 
															-import uvicorn
														
 
															-
														
 
															-from tinysearchengine import create_app
														
 
															-from tinysearchengine.indexer import TinyIndex, NUM_PAGES, PAGE_SIZE, Document
														
 
															-
														
 
															-logging.basicConfig()
														
 
															-
														
 
															-
														
 
															-index_path = sys.argv[1]
														
 
															-tiny_index = TinyIndex(Document, index_path, NUM_PAGES, PAGE_SIZE)
														
 
															-app = create_app.create(tiny_index)
														
 
															-
														
 
															-if __name__ == "__main__":
														
 
															-    uvicorn.run("tinysearchengine.app:app", host="0.0.0.0", port=8080, log_level="info")