mwmbl/performance.py

"""
Test the performance of the search in terms of compression and speed.
"""
import os
from datetime import datetime

import numpy as np
from spacy.lang.en import English
from starlette.testclient import TestClient

import create_app
from fsqueue import ZstdJsonSerializer
from index import TinyIndexer, index_titles_and_urls, Document, TinyIndex
from paths import TEST_INDEX_PATH, DATA_DIR, TEST_TERMS_PATH

NUM_DOCUMENTS = 30000
NUM_PAGES_FOR_STATS = 10
TEST_PAGE_SIZE = 512
TEST_NUM_PAGES = 1024
TEST_DATA_PATH = os.path.join(DATA_DIR, 'test-urls.zstd')
RECALL_AT_K = 3

NUM_QUERY_CHARS = 10


def get_test_pages():
    serializer = ZstdJsonSerializer()
    with open(TEST_DATA_PATH, 'rb') as data_file:
        data = serializer.deserialize(data_file.read())
        return [(row['title'], row['url']) for row in data if row['title'] is not None]


def query_test():
    titles_and_urls = get_test_pages()
    print(f"Got {len(titles_and_urls)} titles and URLs")
    tiny_index = TinyIndex(Document, TEST_INDEX_PATH, TEST_NUM_PAGES, TEST_PAGE_SIZE)

    app = create_app.create(tiny_index)
    client = TestClient(app)

    start = datetime.now()
    hits = 0
    count = 0
    for title, url in titles_and_urls:
        query = title[:NUM_QUERY_CHARS]
        result = client.get('/complete', params={'q': query})
        assert result.status_code == 200
        data = result.json()

        hit = False
        if data:
            for result in data[1][:RECALL_AT_K]:
                if url in result:
                    hit = True
                    break

        if hit:
            hits += 1
        else:
            print("Miss", data, title, url, sep='\n')

        count += 1

    end = datetime.now()
    print(f"Hits: {hits} out of {count}")
    print(f"Recall at {RECALL_AT_K}: {hits/count}")
    print("Query time:", (end - start).total_seconds() / NUM_DOCUMENTS)


def page_stats(indexer: TinyIndexer):
    pages_and_sizes = []
    for i in range(TEST_NUM_PAGES):
        page = indexer.get_page(i)
        if page is not None:
            pages_and_sizes.append((len(page), page))
    big_page_sizes, big_pages = zip(*sorted(pages_and_sizes, reverse=True)[:NUM_PAGES_FOR_STATS])
    return np.mean(big_page_sizes), np.std(big_page_sizes), big_pages


def performance_test():
    nlp = English()
    try:
        os.remove(TEST_INDEX_PATH)
    except FileNotFoundError:
        print("No test index found, creating")
    with TinyIndexer(Document, TEST_INDEX_PATH, TEST_NUM_PAGES, TEST_PAGE_SIZE) as indexer:
        titles_and_urls = get_test_pages()

        start_time = datetime.now()
        index_titles_and_urls(indexer, nlp, titles_and_urls, TEST_TERMS_PATH)
        stop_time = datetime.now()

        index_time = (stop_time - start_time).total_seconds()
        index_size = os.path.getsize(TEST_INDEX_PATH)

        page_size_mean, page_size_std, big_pages = page_stats(indexer)

    print("Indexed pages:", NUM_DOCUMENTS)
    print("Index time:", index_time)
    print("Index size:", index_size)
    print("Mean docs per page:", page_size_mean)
    print("Std err of docs per page:", page_size_std)
    print("Big pages")
    print_pages(big_pages)
    # print("Num tokens", indexer.get_num_tokens())

    query_test()


def print_pages(pages):
    for page in pages:
        print("Page", page)
        for title, url in page:
            print(title, url)
        print()


if __name__ == '__main__':
    performance_test()
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`"""`
			`Test the performance of the search in terms of compression and speed.`
			`"""`
			`import os`
			`from datetime import datetime`

Use a separate page size for testing 2021-04-16 22:01:01 +01:00			`import numpy as np`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`from spacy.lang.en import English`
Optimise queries 2021-03-25 08:38:09 +00:00			`from starlette.testclient import TestClient`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
Abstract index to allow storing anything 2021-06-05 22:22:31 +01:00			`import create_app`
Use top urls for performance test 2021-05-21 11:30:42 +01:00			`from fsqueue import ZstdJsonSerializer`
Abstract index to allow storing anything 2021-06-05 22:22:31 +01:00			`from index import TinyIndexer, index_titles_and_urls, Document, TinyIndex`
Count terms 2021-05-30 21:30:34 +01:00			`from paths import TEST_INDEX_PATH, DATA_DIR, TEST_TERMS_PATH`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
Record docs per page 2021-04-16 05:28:51 +01:00			`NUM_DOCUMENTS = 30000`
			`NUM_PAGES_FOR_STATS = 10`
Use a separate page size for testing 2021-04-16 22:01:01 +01:00			`TEST_PAGE_SIZE = 512`
Print big pages 2021-04-18 04:54:46 +01:00			`TEST_NUM_PAGES = 1024`
Use top urls for performance test 2021-05-21 11:30:42 +01:00			`TEST_DATA_PATH = os.path.join(DATA_DIR, 'test-urls.zstd')`
Order results by Levenshtein distance to improve recall 2021-05-23 22:14:07 +01:00			`RECALL_AT_K = 3`
Use top urls for performance test 2021-05-21 11:30:42 +01:00
Limit number of chars used in query 2021-06-11 21:43:12 +01:00			`NUM_QUERY_CHARS = 10`

Use top urls for performance test 2021-05-21 11:30:42 +01:00
			`def get_test_pages():`
			`serializer = ZstdJsonSerializer()`
			`with open(TEST_DATA_PATH, 'rb') as data_file:`
			`data = serializer.deserialize(data_file.read())`
Order results by Levenshtein distance to improve recall 2021-05-23 22:14:07 +01:00			`return [(row['title'], row['url']) for row in data if row['title'] is not None]`
Optimise queries 2021-03-25 08:38:09 +00:00

			`def query_test():`
Use top urls for performance test 2021-05-21 11:30:42 +01:00			`titles_and_urls = get_test_pages()`
Order results by Levenshtein distance to improve recall 2021-05-23 22:14:07 +01:00			`print(f"Got {len(titles_and_urls)} titles and URLs")`
Improve typing of indexer 2021-06-13 21:41:19 +01:00			`tiny_index = TinyIndex(Document, TEST_INDEX_PATH, TEST_NUM_PAGES, TEST_PAGE_SIZE)`
Optimise queries 2021-03-25 08:38:09 +00:00
Abstract index to allow storing anything 2021-06-05 22:22:31 +01:00			`app = create_app.create(tiny_index)`
Add a script for performance testing 2021-04-11 15:10:02 +01:00			`client = TestClient(app)`
Optimise queries 2021-03-25 08:38:09 +00:00
			`start = datetime.now()`
			`hits = 0`
Order results by Levenshtein distance to improve recall 2021-05-23 22:14:07 +01:00			`count = 0`
Use top urls for performance test 2021-05-21 11:30:42 +01:00			`for title, url in titles_and_urls:`
Limit number of chars used in query 2021-06-11 21:43:12 +01:00			`query = title[:NUM_QUERY_CHARS]`
			`result = client.get('/complete', params={'q': query})`
Add a script for performance testing 2021-04-11 15:10:02 +01:00			`assert result.status_code == 200`
Order results by Levenshtein distance to improve recall 2021-05-23 22:14:07 +01:00			`data = result.json()`
Optimise queries 2021-03-25 08:38:09 +00:00
Order results by Levenshtein distance to improve recall 2021-05-23 22:14:07 +01:00			`hit = False`
			`if data:`
			`for result in data[1][:RECALL_AT_K]:`
			`if url in result:`
			`hit = True`
			`break`

			`if hit:`
Optimise queries 2021-03-25 08:38:09 +00:00			`hits += 1`
Replace dots in query with spaces 2021-05-25 21:47:19 +01:00			`else:`
			`print("Miss", data, title, url, sep='\n')`
Optimise queries 2021-03-25 08:38:09 +00:00
Order results by Levenshtein distance to improve recall 2021-05-23 22:14:07 +01:00			`count += 1`

Optimise queries 2021-03-25 08:38:09 +00:00			`end = datetime.now()`
Order results by Levenshtein distance to improve recall 2021-05-23 22:14:07 +01:00			`print(f"Hits: {hits} out of {count}")`
			`print(f"Recall at {RECALL_AT_K}: {hits/count}")`
Index using compression 2021-04-12 18:37:33 +01:00			`print("Query time:", (end - start).total_seconds() / NUM_DOCUMENTS)`
Optimise queries 2021-03-25 08:38:09 +00:00

Record docs per page 2021-04-16 05:28:51 +01:00			`def page_stats(indexer: TinyIndexer):`
Print big pages 2021-04-18 04:54:46 +01:00			`pages_and_sizes = []`
Use a separate page size for testing 2021-04-16 22:01:01 +01:00			`for i in range(TEST_NUM_PAGES):`
Record docs per page 2021-04-16 05:28:51 +01:00			`page = indexer.get_page(i)`
			`if page is not None:`
Print big pages 2021-04-18 04:54:46 +01:00			`pages_and_sizes.append((len(page), page))`
			`big_page_sizes, big_pages = zip(*sorted(pages_and_sizes, reverse=True)[:NUM_PAGES_FOR_STATS])`
			`return np.mean(big_page_sizes), np.std(big_page_sizes), big_pages`
Record docs per page 2021-04-16 05:28:51 +01:00

Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`def performance_test():`
			`nlp = English()`
			`try:`
			`os.remove(TEST_INDEX_PATH)`
			`except FileNotFoundError:`
			`print("No test index found, creating")`
Abstract index to allow storing anything 2021-06-05 22:22:31 +01:00			`with TinyIndexer(Document, TEST_INDEX_PATH, TEST_NUM_PAGES, TEST_PAGE_SIZE) as indexer:`
Use top urls for performance test 2021-05-21 11:30:42 +01:00			`titles_and_urls = get_test_pages()`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
Index using compression 2021-04-12 18:37:33 +01:00			`start_time = datetime.now()`
Count terms 2021-05-30 21:30:34 +01:00			`index_titles_and_urls(indexer, nlp, titles_and_urls, TEST_TERMS_PATH)`
Index using compression 2021-04-12 18:37:33 +01:00			`stop_time = datetime.now()`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
Index using compression 2021-04-12 18:37:33 +01:00			`index_time = (stop_time - start_time).total_seconds()`
			`index_size = os.path.getsize(TEST_INDEX_PATH)`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
Print big pages 2021-04-18 04:54:46 +01:00			`page_size_mean, page_size_std, big_pages = page_stats(indexer)`
Record docs per page 2021-04-16 05:28:51 +01:00
Index using compression 2021-04-12 18:37:33 +01:00			`print("Indexed pages:", NUM_DOCUMENTS)`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`print("Index time:", index_time)`
Record docs per page 2021-04-16 05:28:51 +01:00			`print("Index size:", index_size)`
			`print("Mean docs per page:", page_size_mean)`
			`print("Std err of docs per page:", page_size_std)`
Print big pages 2021-04-18 04:54:46 +01:00			`print("Big pages")`
			`print_pages(big_pages)`
Index using compression 2021-04-12 18:37:33 +01:00			`# print("Num tokens", indexer.get_num_tokens())`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
Use top urls for performance test 2021-05-21 11:30:42 +01:00			`query_test()`
Print big pages 2021-04-18 04:54:46 +01:00

			`def print_pages(pages):`
			`for page in pages:`
Abstract index to allow storing anything 2021-06-05 22:22:31 +01:00			`print("Page", page)`
Print big pages 2021-04-18 04:54:46 +01:00			`for title, url in page:`
			`print(title, url)`
			`print()`

Optimise queries 2021-03-25 08:38:09 +00:00
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`if __name__ == '__main__':`
			`performance_test()`