Move indexer code to a separate package

2021-12-26 08:55:09 +00:00 · 2021-12-26 08:55:09 +00:00 · baede32298
commit baede32298
parent 8cfb8b7a44
22 changed files with 12 additions and 12 deletions
--- a/analyse/inspect_index.py
+++ b/analyse/inspect_index.py
@ -1,5 +1,5 @@
 from tinysearchengine.indexer import TinyIndex, NUM_PAGES, PAGE_SIZE, Document
-from paths import INDEX_PATH
+from indexer.paths import INDEX_PATH
 def get_items():
--- a/analyse/make_curl.py
+++ b/analyse/make_curl.py
@ -5,8 +5,8 @@ import os
 from itertools import islice
 from urllib.parse import quote
-from paths import DATA_DIR
+from indexer.paths import DATA_DIR
-from wiki import get_wiki_titles_and_urls
+from indexer.wiki import get_wiki_titles_and_urls
 URL_TEMPLATE = "http://localhost:8000/complete?q={}"
 CURL_FILE = os.path.join(DATA_DIR, "urls.curl")
--- a/analyse/performance.py
+++ b/analyse/performance.py
@ -9,10 +9,10 @@ from spacy.lang.en import English
 from starlette.testclient import TestClient
 from tinysearchengine import create_app
-from fsqueue import ZstdJsonSerializer
+from indexer.fsqueue import ZstdJsonSerializer
-from index import index_titles_urls_and_extracts
+from indexer.index import index_titles_urls_and_extracts
 from tinysearchengine.indexer import TinyIndex, TinyIndexer, Document
-from paths import TEST_INDEX_PATH, DATA_DIR, TEST_TERMS_PATH
+from indexer.paths import TEST_INDEX_PATH, DATA_DIR, TEST_TERMS_PATH
 NUM_DOCUMENTS = 30000
 NUM_PAGES_FOR_STATS = 10
--- a/indexer/init.py
+++ b/indexer/init.py
--- a/indexer/bootstrap.sh
+++ b/indexer/bootstrap.sh
--- a/indexer/crawl.py
+++ b/indexer/crawl.py
--- a/indexer/deploy.sh
+++ b/indexer/deploy.sh
--- a/indexer/domains.py
+++ b/indexer/domains.py
--- a/indexer/domains/init.py
+++ b/indexer/domains/init.py
--- a/indexer/domains/domain_titles.py
+++ b/indexer/domains/domain_titles.py
@ -8,8 +8,8 @@ from urllib.parse import urlsplit, urlunsplit
 import bs4
 import requests
-from fsqueue import FSQueue, ZstdJsonSerializer
+from indexer.fsqueue import FSQueue, ZstdJsonSerializer
-from paths import DATA_DIR, DOMAINS_QUEUE_NAME, DOMAINS_TITLES_QUEUE_NAME
+from indexer.paths import DATA_DIR, DOMAINS_QUEUE_NAME, DOMAINS_TITLES_QUEUE_NAME
 NUM_PROCESSES = 10
--- a/indexer/domains/queue_domains.py
+++ b/indexer/domains/queue_domains.py
@ -4,8 +4,8 @@ Add domains to the queue to be retrieved
 import csv
 import gzip
-from fsqueue import FSQueue, ZstdJsonSerializer
+from indexer.fsqueue import FSQueue, ZstdJsonSerializer
-from paths import DOMAINS_PATH, DOMAINS_QUEUE_NAME, DATA_DIR
+from indexer.paths import DOMAINS_PATH, DOMAINS_QUEUE_NAME, DATA_DIR
 BATCH_SIZE = 250
--- a/indexer/extract.py
+++ b/indexer/extract.py
--- a/indexer/extract_local.py
+++ b/indexer/extract_local.py
--- a/indexer/extract_process.py
+++ b/indexer/extract_process.py
--- a/indexer/fsqueue.py
+++ b/indexer/fsqueue.py
--- a/indexer/hn-top-domains-filtered.py
+++ b/indexer/hn-top-domains-filtered.py
--- a/indexer/index.py
+++ b/indexer/index.py
--- a/indexer/index_glob.py
+++ b/indexer/index_glob.py
--- a/indexer/index_queue.py
+++ b/indexer/index_queue.py
--- a/indexer/indexcc.py
+++ b/indexer/indexcc.py
--- a/indexer/paths.py
+++ b/indexer/paths.py
--- a/indexer/wiki.py
+++ b/indexer/wiki.py
@ -7,9 +7,9 @@ from urllib.parse import quote
 from spacy.lang.en import English
-from index import index_titles_urls_and_extracts
+from indexer.index import index_titles_urls_and_extracts
 from tinysearchengine.indexer import TinyIndexer, NUM_PAGES, PAGE_SIZE
-from paths import WIKI_TITLES_PATH, INDEX_PATH
+from indexer.paths import WIKI_TITLES_PATH, INDEX_PATH
 TEXT_TAGS = ['mediawiki', 'page', 'revision', 'text']
 TITLE_START = '<title>Wikipedia: '