lambeq.tokeniser¶

class lambeq.tokeniser.SpacyTokeniser[source]¶

Tokeniser class based on SpaCy.

split_sentences(text: str) → list[str][source]¶

Split input text into a list of sentences.

Parameters:

Returns:

tokenise_sentence(sentence: str) → list[str]¶

Tokenise a sentence.

Parameters:

Returns:

tokenise_sentences(sentences: Iterable[str]) → list[list[str]][source]¶

Tokenise a list of sentences.

Parameters:

Returns:

list of list of str: A list of tokenised sentences, where each sentence is a list of tokens.

class lambeq.tokeniser.Tokeniser[source]¶

Bases: ABC

Base Class for all tokenisers

abstract split_sentences(text: str) → list[str][source]¶

Split input text into a list of sentences.

Parameters:

Returns:

tokenise_sentence(sentence: str) → list[str][source]¶

Tokenise a sentence.

Parameters:

Returns:

abstract tokenise_sentences(sentences: Iterable[str]) → list[list[str]][source]¶

Tokenise a list of sentences.

Parameters:

Returns:

list of list of str: A list of tokenised sentences, where each sentence is a list of tokens - strings