mwmbl/index.py

"""
Create a search index
"""
import json
import os
from abc import ABC, abstractmethod
from collections import Counter
from dataclasses import dataclass, fields, asdict, astuple
from itertools import islice
from mmap import mmap, PROT_READ
from typing import List, Iterator, TypeVar, Generic, Iterable, Callable
from urllib.parse import unquote

import justext
import mmh3
import pandas as pd
from zstandard import ZstdCompressor, ZstdDecompressor, ZstdError

# NUM_PAGES = 8192
# PAGE_SIZE = 512
NUM_PAGES = 25600
PAGE_SIZE = 4096


NUM_INITIAL_TOKENS = 50

HTTP_START = 'http://'
HTTPS_START = 'https://'
BATCH_SIZE = 100


def is_content_token(nlp, token):
    lexeme = nlp.vocab[token.orth]
    return (lexeme.is_alpha or lexeme.is_digit) and not token.is_stop


def tokenize(nlp, cleaned_text):
    tokens = nlp.tokenizer(cleaned_text)
    content_tokens = [token for token in tokens[:NUM_INITIAL_TOKENS]
                      if is_content_token(nlp, token)]
    lowered = {nlp.vocab[token.orth].text.lower() for token in content_tokens}
    return lowered


def clean(content):
    text = justext.justext(content, justext.get_stoplist("English"))
    pars = [par.text for par in text if not par.is_boilerplate]
    cleaned_text = ' '.join(pars)
    return cleaned_text


@dataclass
class Document:
    title: str
    url: str
    extract: str


@dataclass
class TokenizedDocument(Document):
    tokens: List[str]


T = TypeVar('T')


class TinyIndexBase(Generic[T]):
    def __init__(self, item_factory: Callable[..., T], num_pages: int, page_size: int):
        self.item_factory = item_factory
        self.num_pages = num_pages
        self.page_size = page_size
        self.decompressor = ZstdDecompressor()
        self.mmap = None

    def retrieve(self, key: str) -> List[T]:
        index = self._get_key_page_index(key)
        page = self.get_page(index)
        if page is None:
            return []
        # print("REtrieve", self.index_path, page)
        return self.convert_items(page)

    def _get_key_page_index(self, key):
        key_hash = mmh3.hash(key, signed=False)
        return key_hash % self.num_pages

    def get_page(self, i):
        """
        Get the page at index i, decompress and deserialise it using JSON
        """
        page_data = self.mmap[i * self.page_size:(i + 1) * self.page_size]
        zeros = page_data.count(b'\x00\x00\x00\x00') * 4
        try:
            decompressed_data = self.decompressor.decompress(page_data)
        except ZstdError:
            return None
        results = json.loads(decompressed_data.decode('utf8'))
        # print(f"Num results: {len(results)}, num zeros: {zeros}")
        return results

    def convert_items(self, items) -> List[T]:
        converted = [self.item_factory(*item) for item in items]
        # print("Converted", items, converted)
        return converted


class TinyIndex(TinyIndexBase[T]):
    def __init__(self, item_factory: Callable[..., T], index_path, num_pages, page_size):
        super().__init__(item_factory, num_pages, page_size)
        # print("REtrieve path", index_path)
        self.index_path = index_path
        self.index_file = open(self.index_path, 'rb')
        self.mmap = mmap(self.index_file.fileno(), 0, prot=PROT_READ)


class TinyIndexer(TinyIndexBase[T]):
    def __init__(self, item_factory: Callable[..., T], index_path: str, num_pages: int, page_size: int):
        super().__init__(item_factory, num_pages, page_size)
        self.index_path = index_path
        self.compressor = ZstdCompressor()
        self.decompressor = ZstdDecompressor()
        self.index_file = None
        self.mmap = None

    def __enter__(self):
        self.create_if_not_exists()
        self.index_file = open(self.index_path, 'r+b')
        self.mmap = mmap(self.index_file.fileno(), 0)
        return self

    def __exit__(self, exc_type, exc_val, exc_tb):
        self.mmap.close()
        self.index_file.close()

    def index(self, key: str, value: T):
        # print("Index", value)
        assert type(value) == self.item_factory, f"Can only index the specified type" \
                                              f" ({self.item_factory.__name__})"
        page_index = self._get_key_page_index(key)
        current_page = self.get_page(page_index)
        if current_page is None:
            current_page = []
        value_tuple = astuple(value)
        # print("Value tuple", value_tuple)
        current_page.append(value_tuple)
        try:
            # print("Page", current_page)
            self._write_page(current_page, page_index)
        except ValueError:
            pass

    def _write_page(self, data, i):
        """
        Serialise the data using JSON, compress it and store it at index i.
        If the data is too big, it will raise a ValueError and not store anything
        """
        serialised_data = json.dumps(data)
        compressed_data = self.compressor.compress(serialised_data.encode('utf8'))
        page_length = len(compressed_data)
        if page_length > self.page_size:
            raise ValueError(f"Data is too big ({page_length}) for page size ({self.page_size})")
        padding = b'\x00' * (self.page_size - page_length)
        self.mmap[i * self.page_size:(i+1) * self.page_size] = compressed_data + padding

    def create_if_not_exists(self):
        if not os.path.isfile(self.index_path):
            file_length = self.num_pages * self.page_size
            with open(self.index_path, 'wb') as index_file:
                index_file.write(b'\x00' * file_length)


def prepare_url_for_tokenizing(url: str):
    if url.startswith(HTTP_START):
        url = url[len(HTTP_START):]
    elif url.startswith(HTTPS_START):
        url = url[len(HTTPS_START):]
    for c in '/._':
        if c in url:
            url = url.replace(c, ' ')
    return url


def get_pages(nlp, titles_urls_and_extracts) -> Iterable[TokenizedDocument]:
    for i, (title_cleaned, url, extract) in enumerate(titles_urls_and_extracts):
        title_tokens = tokenize(nlp, title_cleaned)
        prepared_url = prepare_url_for_tokenizing(unquote(url))
        url_tokens = tokenize(nlp, prepared_url)
        extract_tokens = tokenize(nlp, extract)
        print("Extract tokens", extract_tokens)
        tokens = title_tokens | url_tokens | extract_tokens
        yield TokenizedDocument(tokens=list(tokens), url=url, title=title_cleaned, extract=extract)

        if i % 1000 == 0:
            print("Processed", i)


def grouper(n: int, iterator: Iterator):
    while True:
        chunk = tuple(islice(iterator, n))
        if not chunk:
            return
        yield chunk


def index_titles_urls_and_extracts(indexer: TinyIndexer, nlp, titles_urls_and_extracts, terms_path):
    indexer.create_if_not_exists()

    terms = Counter()
    pages = get_pages(nlp, titles_urls_and_extracts)
    for page in pages:
        for token in page.tokens:
            indexer.index(token, Document(url=page.url, title=page.title, extract=page.extract))
        terms.update([t.lower() for t in page.tokens])

    term_df = pd.DataFrame({
        'term': terms.keys(),
        'count': terms.values(),
    })
    term_df.to_csv(terms_path)
Initial commit 2021-03-13 20:54:15 +00:00			`"""`
			`Create a search index`
			`"""`
Index using compression 2021-04-12 17:37:33 +00:00			`import json`
			`import os`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`from abc import ABC, abstractmethod`
Count terms 2021-05-30 20:30:34 +00:00			`from collections import Counter`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`from dataclasses import dataclass, fields, asdict, astuple`
Index queued items 2021-05-19 20:48:03 +00:00			`from itertools import islice`
Implement retrieval 2021-04-12 20:26:41 +00:00			`from mmap import mmap, PROT_READ`
Improve typing of indexer 2021-06-13 20:41:19 +00:00			`from typing import List, Iterator, TypeVar, Generic, Iterable, Callable`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`from urllib.parse import unquote`
Initial commit 2021-03-13 20:54:15 +00:00
			`import justext`
Index using compression 2021-04-12 17:37:33 +00:00			`import mmh3`
Count terms 2021-05-30 20:30:34 +00:00			`import pandas as pd`
Index using compression 2021-04-12 17:37:33 +00:00			`from zstandard import ZstdCompressor, ZstdDecompressor, ZstdError`
Initial commit 2021-03-13 20:54:15 +00:00
Add an error state 2021-12-14 19:59:31 +00:00			`# NUM_PAGES = 8192`
			`# PAGE_SIZE = 512`
			`NUM_PAGES = 25600`
			`PAGE_SIZE = 4096`

Index using compression 2021-04-12 17:37:33 +00:00
Create index 2021-03-13 22:21:50 +00:00			`NUM_INITIAL_TOKENS = 50`
Initial commit 2021-03-13 20:54:15 +00:00
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`HTTP_START = 'http://'`
			`HTTPS_START = 'https://'`
Index using compression 2021-04-12 17:37:33 +00:00			`BATCH_SIZE = 100`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
Initial commit 2021-03-13 20:54:15 +00:00
			`def is_content_token(nlp, token):`
			`lexeme = nlp.vocab[token.orth]`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`return (lexeme.is_alpha or lexeme.is_digit) and not token.is_stop`
Initial commit 2021-03-13 20:54:15 +00:00

			`def tokenize(nlp, cleaned_text):`
			`tokens = nlp.tokenizer(cleaned_text)`
Create index 2021-03-13 22:21:50 +00:00			`content_tokens = [token for token in tokens[:NUM_INITIAL_TOKENS]`
			`if is_content_token(nlp, token)]`
Initial commit 2021-03-13 20:54:15 +00:00			`lowered = {nlp.vocab[token.orth].text.lower() for token in content_tokens}`
			`return lowered`


			`def clean(content):`
			`text = justext.justext(content, justext.get_stoplist("English"))`
			`pars = [par.text for par in text if not par.is_boilerplate]`
			`cleaned_text = ' '.join(pars)`
			`return cleaned_text`


Speed up inserts 2021-03-24 21:55:35 +00:00			`@dataclass`
Index using compression 2021-04-12 17:37:33 +00:00			`class Document:`
Speed up inserts 2021-03-24 21:55:35 +00:00			`title: str`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`url: str`
Index extracts 2021-12-18 22:56:39 +00:00			`extract: str`
Speed up inserts 2021-03-24 21:55:35 +00:00

Index using compression 2021-04-12 17:37:33 +00:00			`@dataclass`
			`class TokenizedDocument(Document):`
			`tokens: List[str]`


Improve typing of indexer 2021-06-13 20:41:19 +00:00			`T = TypeVar('T')`


			`class TinyIndexBase(Generic[T]):`
			`def __init__(self, item_factory: Callable[..., T], num_pages: int, page_size: int):`
			`self.item_factory = item_factory`
Index using compression 2021-04-12 17:37:33 +00:00			`self.num_pages = num_pages`
			`self.page_size = page_size`
			`self.decompressor = ZstdDecompressor()`
			`self.mmap = None`

Improve typing of indexer 2021-06-13 20:41:19 +00:00			`def retrieve(self, key: str) -> List[T]:`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`index = self._get_key_page_index(key)`
			`page = self.get_page(index)`
			`if page is None:`
			`return []`
Limit number of chars used in query 2021-06-11 20:43:12 +00:00			`# print("REtrieve", self.index_path, page)`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`return self.convert_items(page)`
Implement retrieval 2021-04-12 20:26:41 +00:00
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`def _get_key_page_index(self, key):`
			`key_hash = mmh3.hash(key, signed=False)`
			`return key_hash % self.num_pages`
Implement retrieval 2021-04-12 20:26:41 +00:00
Record docs per page 2021-04-16 04:28:51 +00:00			`def get_page(self, i):`
Index using compression 2021-04-12 17:37:33 +00:00			`"""`
			`Get the page at index i, decompress and deserialise it using JSON`
			`"""`
			`page_data = self.mmap[i * self.page_size:(i + 1) * self.page_size]`
Analysis to confirm that 'leek and potato soup' page was really missing 2021-12-19 21:09:00 +00:00			`zeros = page_data.count(b'\x00\x00\x00\x00') * 4`
Index using compression 2021-04-12 17:37:33 +00:00			`try:`
			`decompressed_data = self.decompressor.decompress(page_data)`
			`except ZstdError:`
			`return None`
Analysis to confirm that 'leek and potato soup' page was really missing 2021-12-19 21:09:00 +00:00			`results = json.loads(decompressed_data.decode('utf8'))`
			`# print(f"Num results: {len(results)}, num zeros: {zeros}")`
			`return results`
Index using compression 2021-04-12 17:37:33 +00:00
Improve typing of indexer 2021-06-13 20:41:19 +00:00			`def convert_items(self, items) -> List[T]:`
			`converted = [self.item_factory(*item) for item in items]`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`# print("Converted", items, converted)`
			`return converted`

Index using compression 2021-04-12 17:37:33 +00:00
Improve typing of indexer 2021-06-13 20:41:19 +00:00			`class TinyIndex(TinyIndexBase[T]):`
			`def __init__(self, item_factory: Callable[..., T], index_path, num_pages, page_size):`
			`super().__init__(item_factory, num_pages, page_size)`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`# print("REtrieve path", index_path)`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`self.index_path = index_path`
Implement retrieval 2021-04-12 20:26:41 +00:00			`self.index_file = open(self.index_path, 'rb')`
			`self.mmap = mmap(self.index_file.fileno(), 0, prot=PROT_READ)`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
Index using compression 2021-04-12 17:37:33 +00:00
Improve typing of indexer 2021-06-13 20:41:19 +00:00			`class TinyIndexer(TinyIndexBase[T]):`
			`def __init__(self, item_factory: Callable[..., T], index_path: str, num_pages: int, page_size: int):`
			`super().__init__(item_factory, num_pages, page_size)`
Index using compression 2021-04-12 17:37:33 +00:00			`self.index_path = index_path`
			`self.compressor = ZstdCompressor()`
			`self.decompressor = ZstdDecompressor()`
			`self.index_file = None`
Implement retrieval 2021-04-12 20:26:41 +00:00			`self.mmap = None`
Index using compression 2021-04-12 17:37:33 +00:00
			`def __enter__(self):`
			`self.create_if_not_exists()`
			`self.index_file = open(self.index_path, 'r+b')`
			`self.mmap = mmap(self.index_file.fileno(), 0)`
			`return self`

			`def __exit__(self, exc_type, exc_val, exc_tb):`
			`self.mmap.close()`
			`self.index_file.close()`

Improve typing of indexer 2021-06-13 20:41:19 +00:00			`def index(self, key: str, value: T):`
Limit number of chars used in query 2021-06-11 20:43:12 +00:00			`# print("Index", value)`
Improve typing of indexer 2021-06-13 20:41:19 +00:00			`assert type(value) == self.item_factory, f"Can only index the specified type" \`
			`f" ({self.item_factory.__name__})"`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`page_index = self._get_key_page_index(key)`
Record docs per page 2021-04-16 04:28:51 +00:00			`current_page = self.get_page(page_index)`
Index using compression 2021-04-12 17:37:33 +00:00			`if current_page is None:`
			`current_page = []`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`value_tuple = astuple(value)`
Limit number of chars used in query 2021-06-11 20:43:12 +00:00			`# print("Value tuple", value_tuple)`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`current_page.append(value_tuple)`
Index using compression 2021-04-12 17:37:33 +00:00			`try:`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`# print("Page", current_page)`
Index using compression 2021-04-12 17:37:33 +00:00			`self._write_page(current_page, page_index)`
			`except ValueError:`
			`pass`

			`def _write_page(self, data, i):`
			`"""`
			`Serialise the data using JSON, compress it and store it at index i.`
			`If the data is too big, it will raise a ValueError and not store anything`
			`"""`
			`serialised_data = json.dumps(data)`
			`compressed_data = self.compressor.compress(serialised_data.encode('utf8'))`
			`page_length = len(compressed_data)`
			`if page_length > self.page_size:`
			`raise ValueError(f"Data is too big ({page_length}) for page size ({self.page_size})")`
			`padding = b'\x00' * (self.page_size - page_length)`
			`self.mmap[i * self.page_size:(i+1) * self.page_size] = compressed_data + padding`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
			`def create_if_not_exists(self):`
Index using compression 2021-04-12 17:37:33 +00:00			`if not os.path.isfile(self.index_path):`
			`file_length = self.num_pages * self.page_size`
			`with open(self.index_path, 'wb') as index_file:`
			`index_file.write(b'\x00' * file_length)`

Create index 2021-03-13 22:21:50 +00:00
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`def prepare_url_for_tokenizing(url: str):`
			`if url.startswith(HTTP_START):`
			`url = url[len(HTTP_START):]`
			`elif url.startswith(HTTPS_START):`
			`url = url[len(HTTPS_START):]`
			`for c in '/._':`
			`if c in url:`
			`url = url.replace(c, ' ')`
			`return url`


Index extracts 2021-12-18 22:56:39 +00:00			`def get_pages(nlp, titles_urls_and_extracts) -> Iterable[TokenizedDocument]:`
			`for i, (title_cleaned, url, extract) in enumerate(titles_urls_and_extracts):`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00			`title_tokens = tokenize(nlp, title_cleaned)`
			`prepared_url = prepare_url_for_tokenizing(unquote(url))`
			`url_tokens = tokenize(nlp, prepared_url)`
Index extracts 2021-12-18 22:56:39 +00:00			`extract_tokens = tokenize(nlp, extract)`
Show the extract 2021-12-19 20:48:28 +00:00			`print("Extract tokens", extract_tokens)`
Index extracts 2021-12-18 22:56:39 +00:00			`tokens = title_tokens \| url_tokens \| extract_tokens`
			`yield TokenizedDocument(tokens=list(tokens), url=url, title=title_cleaned, extract=extract)`
Improve indexing; measure performance 2021-03-23 22:03:48 +00:00
			`if i % 1000 == 0:`
			`print("Processed", i)`
Initial commit 2021-03-13 20:54:15 +00:00

Speed up inserts 2021-03-24 21:55:35 +00:00			`def grouper(n: int, iterator: Iterator):`
			`while True:`
			`chunk = tuple(islice(iterator, n))`
			`if not chunk:`
			`return`
			`yield chunk`


Index extracts 2021-12-18 22:56:39 +00:00			`def index_titles_urls_and_extracts(indexer: TinyIndexer, nlp, titles_urls_and_extracts, terms_path):`
Speed up inserts 2021-03-24 21:55:35 +00:00			`indexer.create_if_not_exists()`

Count terms 2021-05-30 20:30:34 +00:00			`terms = Counter()`
Index extracts 2021-12-18 22:56:39 +00:00			`pages = get_pages(nlp, titles_urls_and_extracts)`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`for page in pages:`
			`for token in page.tokens:`
Index extracts 2021-12-18 22:56:39 +00:00			`indexer.index(token, Document(url=page.url, title=page.title, extract=page.extract))`
Abstract index to allow storing anything 2021-06-05 21:22:31 +00:00			`terms.update([t.lower() for t in page.tokens])`
Count terms 2021-05-30 20:30:34 +00:00
			`term_df = pd.DataFrame({`
			`'term': terms.keys(),`
			`'count': terms.values(),`
			`})`
			`term_df.to_csv(terms_path)`