3 years ago · 9ee6f37a60
--- a/analyse/inspect_index.py
+++ b/analyse/inspect_index.py
@@ -2,14 +2,18 @@ from index import TinyIndex, Document, NUM_PAGES, PAGE_SIZE
 
															 from paths import INDEX_PATH
														
 
															+def get_items():
														
 
															+    tiny_index = TinyIndex(Document, INDEX_PATH, NUM_PAGES, PAGE_SIZE)
														
 
															+    items = tiny_index.retrieve('soup')
														
 
															+    if items:
														
 
															+        for item in items:
														
 
															+            print("Items", item)
														
 
															+
														
 
															+
														
 
															 def run():
														
 
															     tiny_index = TinyIndex(Document, INDEX_PATH, NUM_PAGES, PAGE_SIZE)
														
 
															     for i in range(100):
														
 
															-        items = tiny_index.retrieve('eggless')
														
 
															-        # items = tiny_index.convert_items(page)
														
 
															-        if items:
														
 
															-            print("Items", items)
														
 
															-            break
														
 
															+        tiny_index.get_page(i)
														
 
															 if __name__ == '__main__':
														
--- a/create_app.py
+++ b/create_app.py
@@ -1,16 +1,13 @@
 
															 import re
														
 
															 from logging import getLogger
														
 
															 from operator import itemgetter
														
 
															-from typing import List
														
 
															-import Levenshtein
														
 
															 from fastapi import FastAPI
														
 
															-from starlette.responses import RedirectResponse, FileResponse, HTMLResponse
														
 
															+from starlette.responses import FileResponse
														
 
															 from starlette.staticfiles import StaticFiles
														
 
															 from index import TinyIndex, Document
														
 
															-
														
 
															 logger = getLogger(__name__)
														
@@ -62,10 +59,8 @@ def create(tiny_index: TinyIndex):
 
															     def order_results(terms: list[str], results: list[Document]):
														
 
															         results_and_scores = [(score_result(terms, result), result) for result in results]
														
 
															         ordered_results = sorted(results_and_scores, key=itemgetter(0), reverse=True)
														
 
															-        print("Ordered results", ordered_results)
														
 
															+        # print("Ordered results", ordered_results)
														
 
															         filtered_results = [result for score, result in ordered_results if score > SCORE_THRESHOLD]
														
 
															-        # ordered_results = sorted(results, key=lambda result: score_result(terms, result.title), reverse=True)
														
 
															-        # print("Order results", query, ordered_results, sep='\n')
														
 
															         return filtered_results
														
 
															     @app.get("/complete")
														
--- a/index.py
+++ b/index.py
@@ -89,11 +89,14 @@ class TinyIndexBase(Generic[T]):
 
															         Get the page at index i, decompress and deserialise it using JSON
														
 
															         """
														
 
															         page_data = self.mmap[i * self.page_size:(i + 1) * self.page_size]
														
 
															+        zeros = page_data.count(b'\x00\x00\x00\x00') * 4
														
 
															         try:
														
 
															             decompressed_data = self.decompressor.decompress(page_data)
														
 
															         except ZstdError:
														
 
															             return None
														
 
															-        return json.loads(decompressed_data.decode('utf8'))
														
 
															+        results = json.loads(decompressed_data.decode('utf8'))
														
 
															+        # print(f"Num results: {len(results)}, num zeros: {zeros}")
														
 
															+        return results
														
 
															     def convert_items(self, items) -> List[T]:
														
 
															         converted = [self.item_factory(*item) for item in items]
														
@@ -129,11 +132,6 @@ class TinyIndexer(TinyIndexBase[T]):
 
															         self.mmap.close()
														
 
															         self.index_file.close()
														
 
															-    # def index(self, documents: List[TokenizedDocument]):
														
 
															-    #     for document in documents:
														
 
															-    #         for token in document.tokens:
														
 
															-    #             self._index_document(document, token)
														
 
															-
														
 
															     def index(self, key: str, value: T):
														
 
															         # print("Index", value)
														
 
															         assert type(value) == self.item_factory, f"Can only index the specified type" \