Upload folder using huggingface_hub

a8639ac verified 8 months ago

31.2 kB

	from collections import Counter
	import torchvision.datasets as dset
	from torch.utils.data import Dataset
	import torch
	from torch.utils.data import DataLoader
	import glob
	import os
	from torch.utils.data import Dataset, DataLoader, random_split
	from shutil import copyfile
	import subprocess
	import youtokentome as yttm
	import re
	import time
	from tqdm import trange, tqdm
	import numpy as np
	import matplotlib.pyplot as plt
	import inspect

	# Device for dataloading and dataloading only. Dataloading on MPS was slower

	DEVICE = "cpu" # "mps" if torch.backends.mps.is_available() else "cpu"


	class BPEModelManager:
	def __init__(self, root_dir, vocab_size=5000):
	self.root_dir = root_dir
	self.vocab_size = vocab_size
	self.model_path = os.path.join(root_dir, "bpe_model.model")

	try:
	self.bpe = yttm.BPE(model=self.model_path)
	if self.bpe.vocab_size() != vocab_size:
	print(
	f"Vocab size mismatch: Expected {vocab_size}, got {self.bpe.vocab_size()}. Retraining model."
	)
	self._backup_model()
	raise ValueError
	except ValueError:
	self._train_bpe_model()
	self.bpe = yttm.BPE(model=self.model_path)

	def _backup_model(self):
	backup_path = os.path.join(self.root_dir, "bpe_model.model.old")
	copyfile(self.model_path, backup_path)

	def _train_bpe_model(self):
	data_path = os.path.join(self.root_dir, "data/corpus.txt")
	processed_path = os.path.join(self.root_dir, "data/corpus_processed.txt")

	with open(data_path, "r", errors="ignore") as reader:
	raw_text = reader.read()

	processed_text = self.preprocess_text(raw_text)

	with open(processed_path, "w") as writer:
	writer.write(processed_text)

	yttm.BPE.train(
	data=processed_path,
	vocab_size=self.vocab_size,
	model=self.model_path,
	coverage=0.9999,
	)

	def preprocess_text(self, text):
	return text.lower()

	def encode(self, text: str):
	return self.bpe.encode([text], output_type=yttm.OutputType.ID)

	def decode(self, ids):
	return self.bpe.decode(ids.tolist())[0]

	@staticmethod
	def attention_mask(encoded_sequence, mask_token_ids=[0, 1, 2, 3]):
	mask_token_tensor = torch.tensor(mask_token_ids, dtype=torch.int).to(
	encoded_sequence.device
	)
	# print(mask_token_tensor)
	# print(encoded_sequence)
	return (encoded_sequence.unsqueeze(1) != mask_token_tensor).all(dim=1).int()


	class CodeBPEModelManager(BPEModelManager):
	mapping_dict = {
	" ": " <INDENT> ",
	"\n": " <NEWLINE> ",
	}

	def __init__(self, root_dir, vocab_size=5000):
	super().__init__(root_dir, vocab_size)

	def preprocess_text(self, text):
	print("Formatting....")
	processed_text = self.format_code(text)

	for key, value in CodeBPEModelManager.mapping_dict.items():
	processed_text = processed_text.replace(key, value)

	return processed_text

	def encode(self, text: str):
	processed_text = text
	for key, value in CodeBPEModelManager.mapping_dict.items():
	processed_text = processed_text.replace(key, value)

	return self.bpe.encode([processed_text], output_type=yttm.OutputType.ID)[0]

	def decode(self, ids):
	# print(ids)
	# print("ids^^")
	l = ids
	if isinstance(l, torch.Tensor):
	l = ids.tolist()
	if isinstance(l, int):
	l = [l]

	result = self.bpe.decode(l)[0]
	# print(result)
	for key, value in CodeBPEModelManager.mapping_dict.items():
	result = result.replace(value.strip(), key) # value, key

	return result

	def raw_decode(self, id: int):
	return self.bpe.decode([id])[0]

	def _train_bpe_model(self):
	print("Training (1)....")
	data_path = os.path.join(self.root_dir, "data/corpus.txt")
	processed_path = os.path.join(self.root_dir, "data/corpus_processed.txt")

	if input("Reformat? Will take time [y/N]") == "y":

	with open(data_path, "r", errors="ignore", encoding="utf-8") as reader:
	raw_text = reader.read()

	processed_text = self.preprocess_text(raw_text)

	with open(processed_path, "w", encoding="utf-8") as writer:
	writer.write(processed_text)

	print("removing temp file...")
	temp_file = os.path.join(self.root_dir, "temp_code.py") # dont ask
	os.remove(temp_file)

	print("Training....")
	yttm.BPE.train(
	data=processed_path,
	vocab_size=self.vocab_size,
	model=self.model_path,
	coverage=1,
	# coverage=0.995, # TODO: revert if you want
	)

	def format_code(self, code):
	try:
	temp_file = os.path.join(self.root_dir, "temp_code.py")
	with open(temp_file, "w") as file:
	file.write(
	code.replace("\t", " ")
	) # Hacky replacement, black freaks out otherwise

	subprocess.run(["black", temp_file, "--quiet"], check=True)
	subprocess.run(
	["autopep8", "--in-place", "--ignore=E402", temp_file], check=True
	)

	with open(temp_file, "r") as file:
	formatted_code = file.read()

	return formatted_code
	except Exception as e:
	print(f"Error during code formatting: {e}.")
	return code


	class CodeCustomTokenizerManager(BPEModelManager):
	reserved_keywords = [
	"false",
	"await",
	"else",
	"import",
	"pass",
	"none",
	"break",
	"except",
	"in",
	"raise",
	"true",
	"class",
	"finally",
	"is",
	"return",
	"and",
	"continue",
	"for",
	"lambda",
	"try",
	"as",
	"def",
	"from",
	"nonlocal",
	"while",
	"assert",
	"del",
	"global",
	"not",
	"with",
	"async",
	"elif",
	"if",
	"or",
	"yield",
	]
	symbols = [
	"(",
	")",
	"[",
	"]",
	"{",
	"}",
	".",
	",",
	":",
	";",
	"+",
	"-",
	"*",
	"/",
	"%",
	"=",
	"<",
	">",
	"&",
	"\|",
	"^",
	"~",
	"!",
	"==",
	"!=",
	"<=",
	">=",
	"**",
	"//",
	"@",
	"#",
	"\\",
	"'",
	'"',
	"`",
	"0",
	"1",
	"2",
	"3",
	"4",
	"5",
	"6",
	"7",
	"8",
	"9",
	"0x",
	"0d",
	"0o",
	]

	def __init__(
	self,
	root_dir,
	vocab_size=5000,
	cutoff_thresh=0.1,
	use_vocab_size_instead=False,
	use_whitespace=True, # haha
	): # keep 90% with thresh 0.1
	self.root_dir = root_dir

	self.token_to_id = {"<PAD>": 0}
	self.id_to_token = None

	self._token_freqs = {}
	self.total_num_tokens = 0
	print("This is CodeCustomTokenizerManager, vocab size will be disregarded.")

	print(f"Cutoff threshold: {cutoff_thresh}")
	self.cutoff_thresh = cutoff_thresh

	self.use_whitespace = use_whitespace

	if not use_whitespace:
	print("Not using whitespace! Important I guess")

	if use_vocab_size_instead:
	print("Nevermind! Using vocab size instead, no cutoff thresh")

	self.use_vocab_size_instead = use_vocab_size_instead

	self.vocab_size = vocab_size

	vocab_path = os.path.join(self.root_dir, "custom_tokens_vocab.txt")
	try:
	self.load_vocab(vocab_path)
	except FileNotFoundError:
	print("Making vocab!")
	self.make_vocab()
	self.save_vocab(vocab_path)

	print(f"Vocab size: {len(self.token_to_id)}")

	def make_vocab(self):
	data_path = os.path.join(self.root_dir, "data/corpus.txt")
	processed_path = os.path.join(self.root_dir, "data/corpus_processed.txt")

	with open(data_path, "r", errors="ignore") as reader:
	raw_text = reader.read()

	processed_text = self.preprocess_text(raw_text)

	with open(processed_path, "w") as writer:
	writer.write(" ".join(processed_text))

	for token in processed_text:
	if token not in self.token_to_id:
	if len(self.token_to_id) == 0:
	self.token_to_id = {"<PAD>": 0} # TODO: bad practice or something

	self.token_to_id[token] = len(self.token_to_id)

	print(f"Number of tokens: {len(self.token_to_id)}")

	def make_token_freqs(self):

	processed_path = os.path.join(self.root_dir, "data/corpus_processed.txt")
	with open(processed_path, "r", errors="ignore") as reader:
	raw_text = reader.read()
	tokens = raw_text.split(" ")

	token_freqs = {"<PAD>": 0}


	for token in tqdm(tokens, leave=False):
	if token not in token_freqs:
	token_freqs[token] = 1
	else:
	token_freqs[token] += 1

	self._token_freqs = token_freqs
	self.total_num_tokens = len(tokens)


	def preprocess_text(self, code):
	print("Preprocessing text...", code[:20])

	# print(code[:100])

	# comments
	code = code.replace("# <FILESEP>", "<FILESEP>")
	code = re.sub(r"#.*", "", code)
	code = re.sub(r'"""(.*?)"""', "", code, flags=re.DOTALL) # funny usage of re
	code = re.sub(r"'''(.*?)'''", "", code, flags=re.DOTALL)

	code = re.sub(r" ", " ", code)

	print("Filtered comments")

	# print(code[:100])

	# filter non-ascii
	# https://regexr.com/8bmfe
	code = re.sub(r"[^ -~\s]+", "", code)
	# print(code[:100])
	print("Filtered non-ascii")

	# # Handle hex/binary/octal sequences
	# def split_number_sequence(match):
	# prefix, digits = match.group(1), match.group(2)
	# return f"{prefix} " + " ".join(digits)

	# code = re.sub(r'(0x)([0-9a-f]+)', split_number_sequence, code)
	# code = re.sub(r'(0b)([01]+)', split_number_sequence, code)
	# code = re.sub(r'(0o)([0-7]+)', split_number_sequence, code)

	# print("Coped with hex")

	# each reserved word/symbol is a token. We split by space at the end, so this works.
	for word in self.reserved_keywords:
	code = re.sub(rf"\b{word}\b", f" {word} ", code)

	print("Reserved words")
	for symbol in self.symbols:
	code = code.replace(symbol, f" {symbol} ")

	print("Symbols")

	# print(code[:100])

	# Split identifiers by spaces, underscores, hyphens, or capitalization
	def split_token(token):
	if token.startswith("<") and token.endswith(
	">"
	): # preserve ✨special✨ tokens
	return [token.lower()]
	result = re.sub(r"([a-z])([A-Z])", r"\1 \2", token)
	result = re.sub(r"([_-])", r" \1 ", result)
	result = re.sub(r"([^a-zA-Z])", r" \1 ", result)
	return [part.lower() for part in result.split() if part.strip()]

	code = code.replace(" ", " <TAB> ").replace("\n", " <NEWLINE> ")
	if not self.use_whitespace:
	code = code.replace("<TAB>", "").replace("<NEWLINE>", "")
	print("Tabs + newlines")

	tokens = []
	for token in tqdm(code.split(" "), leave=False):
	if token.strip():
	tokens.extend(split_token(token))

	tokens = [tok.lower() for tok in tokens if tok.strip()]

	print("Split tokens")
	token_freqs = {"<PAD>": 0}
	for token in tqdm(tokens, leave=False):
	if token not in token_freqs:
	token_freqs[token] = 1
	else:
	token_freqs[token] += 1
	print("Counted freqs")

	# what statistics do we want to calculate?
	# Number of tokens that appear only once, and percentage.
	# Mean number of times any given token appears.
	# standard things: mean, std, q1, q3, median, min, max
	# Print out topk most frequent and their freqs

	total_num_tokens = len(tokens)

	counter = Counter(list(token_freqs.values()))
	num_ones = counter[1]
	print(
	f"Number of tokens that appear only once: {num_ones}. Percentage: {num_ones / total_num_tokens}"
	)

	print(f"Mean token count: {np.mean(list(token_freqs.values()))}")
	print(f"Median token count: {np.median(list(token_freqs.values()))}")

	print(
	f"Standard deviation of token count: {np.std(list(token_freqs.values()))}"
	)

	print(f"Min token count: {np.min(list(token_freqs.values()))}")
	print(f"Max token count: {np.max(list(token_freqs.values()))}")

	print(f"Top 30 most frequent tokens:")
	sorted_tokens = sorted(token_freqs.items(), key=lambda x: x[1], reverse=True)
	for token, freq in sorted_tokens[:30]:
	print(f"{token}: {freq}")

	print(f"Bottom 30 most frequent tokens:")
	for token, freq in sorted_tokens[-30:]:
	print(f"{token}: {freq}")

	self._token_freqs = token_freqs
	self.total_num_tokens = total_num_tokens

	# plt.figure(figsize=(15,6))
	# plt.bar(np.arange(len(sorted_tokens)), [freq for token, freq in sorted_tokens])
	# plt.xlabel("Token")
	# plt.ylabel("Frequency")

	# plt.title("Token frequency distribution")

	# plt.show()

	# breakpoint()

	# use cutoff thresh to replace tokens with UNK
	cutoff_thresh = self.cutoff_thresh
	if self.use_vocab_size_instead:
	print("Using vocab size instead")
	print("deprecated")
	print("cope")
	exit()
	sorted_tokens = sorted(
	token_freqs.items(), key=lambda x: x[1], reverse=True
	)
	allowed_tokens = set(
	token for token, _ in sorted_tokens[: self.vocab_size - 1]
	) # -1 for PAD
	for i in range(len(tokens)):
	if tokens[i] not in allowed_tokens and tokens[i] != "<PAD>":
	print(f"Replacing token with UNK: {tokens[i]}")
	tokens[i] = "<UNK>"

	else:
	cutoff_amt = (
	10 # np.percentile(list(token_freqs.values()), (1-cutoff_thresh) * 100)
	)
	print(f"Cuttoff amount: {cutoff_amt}") # using threshold {cutoff_thresh}")

	# llm-optimized
	low_freq_tokens = [
	token
	for token, freq in token_freqs.items()
	if freq < cutoff_amt and token != "<PAD>"
	]
	low_freq_tokens_set = set(low_freq_tokens)
	tokens = [
	"<UNK>" if token in low_freq_tokens_set else token
	for token in tqdm(tokens)
	]

	print(tokens[500:700])

	print("500-700")

	return [tok for tok in tokens if tok.strip()]

	def encode(self, code):
	tokens = code.split(" ")
	ids = []

	for token in tokens:
	# New token
	if token not in self.token_to_id:
	self.token_to_id[token] = len(self.token_to_id)
	ids.append(self.token_to_id[token])

	return ids

	def decode(self, ids):
	result = ""
	for id in ids.tolist():
	for token, id_iterator in self.token_to_id.items():
	if id_iterator == id:
	result += token
	result += " "

	return result

	def raw_decode(self, id: int):
	for token, id_iterator in self.token_to_id.items():
	if id_iterator == id:
	return token

	def format_code(self, code):
	try:
	temp_file = os.path.join(self.root_dir, "temp_code.py")
	with open(temp_file, "w") as file:
	file.write(
	code.replace("\t", " ")
	) # Hacky replacement, black freaks out otherwise

	subprocess.run(["black", temp_file, "--quiet"], check=True)
	subprocess.run(
	["autopep8", "--in-place", "--ignore=E402", temp_file], check=True
	)

	with open(temp_file, "r") as file:
	formatted_code = file.read()

	return formatted_code
	except Exception as e:
	print(f"Error during code formatting: {e}.")
	return code

	def save_vocab(self, file_path):
	with open(file_path, "w") as file:
	for token, id in self.token_to_id.items():
	file.write(f"{token}\t{id}\n")

	def load_vocab(self, file_path):
	self.token_to_id = {}
	with open(file_path, "r") as file:
	for line in file.read().split("\n"):
	try:
	token, id = line.strip().split("\t")
	self.token_to_id[token] = int(id)
	except ValueError:
	# print(line)
	# print("^^ is error")
	pass # Should be fine, ends up being blank lines

	@staticmethod
	def attention_mask(encoded_sequence, mask_token_ids=[0]):
	mask_token_tensor = torch.tensor(mask_token_ids, dtype=torch.int)
	# print(mask_token_tensor)
	# print(encoded_sequence)
	return (encoded_sequence.unsqueeze(1) != mask_token_tensor).all(dim=1).int()

	def get_rarity_score(self, sequence):
	scores = np.zeros_like(sequence)
	for idx, token in enumerate(sequence):
	# get token count in entire corpus
	# get TOTAL token count in entire corpus
	# divide
	# recriprocal
	# rarity score for individual token in THIS sequence
	# average? max? median?
	if self._token_freqs == {}:
	self.make_token_freqs()
	if not self.id_to_token:
	self.id_to_token = {v: k for k, v in self.token_to_id.items()}
	token_count = self._token_freqs.get(self.id_to_token[token.item()], 0)
	rarity_score = self.total_num_tokens / token_count if token_count > 0 else 0
	scores[idx] = rarity_score

	return np.float32(np.median(scores))

	def get_entropy_score(self, sequence):
	if len(sequence) == 0:
	return 0.0

	unique, counts = np.unique(sequence, return_counts=True)

	probs = counts / counts.sum()
	entropy = -np.sum(probs * np.log2(probs))

	if len(unique) > 1:
	entropy /= np.log2(len(unique))

	return np.float32(entropy)


	class DummySequentialDataManager:
	def __init__(self, root_dir, vocab_size=5000):
	print("init")
	self.root_dir = root_dir
	self.vocab_size = vocab_size
	with open(os.path.join(root_dir, "data/corpus_processed.txt"), "w+") as f:
	f.write("dummy")

	def encode(self, text: str):
	return [list(range(50))]

	def decode(self, ids):
	l = ids
	if isinstance(l, torch.Tensor):
	l = ids.tolist()
	if isinstance(l, int):
	l = [l]

	return " ".join([str(id) for id in l])

	@staticmethod
	def attention_mask(encoded_sequence, mask_token_ids=[]):
	mask_token_tensor = torch.tensor(mask_token_ids, dtype=torch.int).to(
	encoded_sequence.device
	)
	# print(mask_token_tensor)
	# print(encoded_sequence)
	return (encoded_sequence.unsqueeze(1) != mask_token_tensor).all(dim=1).int()


	class TextCorpusDataset(Dataset):
	def __init__(
	self,
	root_dir="./test-data",
	train=False,
	max_length=512,
	vocab_size=10000,
	IS_DUMMY=False,
	IS_CODE=False,
	IS_CUSTOM=False,
	sliding_window=False,
	stride=1,
	get_rarity_score=False,
	get_entropy_score=False,
	):
	print(root_dir)

	# legendary code
	print("[TextCorpusDataset]")
	frame = inspect.currentframe()
	args, _, _, values = inspect.getargvalues(frame)
	print("Arguments passed:")
	for arg in args[1:]: # skip 'self'
	print(f" {arg} = {values[arg]}")

	self.root = root_dir
	self.sliding_window = sliding_window
	self.window_size = max_length
	self.stride = stride
	self.get_rarity_score = get_rarity_score
	self.get_entropy_score = get_entropy_score

	if IS_DUMMY:
	self.manager = DummySequentialDataManager(root_dir=root_dir)
	elif IS_CODE:
	if IS_CUSTOM:
	self.manager = CodeCustomTokenizerManager(root_dir=root_dir)
	else:
	self.manager = CodeBPEModelManager(
	root_dir=root_dir, vocab_size=vocab_size
	)
	else:
	self.manager = BPEModelManager(root_dir=root_dir, vocab_size=vocab_size)

	self.max_length = max_length
	self.cache_file = os.path.join(root_dir, "encoded_chunked.pt")
	self.rarity_cache_file = os.path.join(root_dir, "rarity_scores.pt")
	self.entropy_cache_file = os.path.join(root_dir, "entropy_scores.pt")

	start_t = time.time()
	if os.path.exists(self.cache_file):
	self.chunks = torch.load(self.cache_file, weights_only=True)
	if self.chunks.size(-1) != self.max_length:
	if (
	input(
	"Attempting to fix and re-chunk data to correct length. Continue? [y/N]: "
	)
	== "y"
	):
	self._chunk_and_save(torch.flatten(self.chunks).tolist())
	print("Re-chunked successfully!")
	else:
	print("Operation aborted.")
	else:
	with open(
	os.path.join(root_dir, "data/corpus_processed.txt"),
	"r",
	errors="ignore",
	) as file:
	text = file.read()
	encoded = self.manager.encode(text)

	self._chunk_and_save(encoded)

	# Load or compute cached scores
	self._load_or_compute_scores()

	end_t = time.time()
	print(f"Dataset loading took {end_t - start_t} seconds.")

	# TODO: more "optimization"
	self.chunks = self.chunks.to(DEVICE)
	if self.get_rarity_score:
	self.rarity_scores = self.rarity_scores.to(DEVICE)
	if self.get_entropy_score:
	self.entropy_scores = self.entropy_scores.to(DEVICE)
	self.dummy = torch.tensor([1], device=DEVICE)

	def _chunk_and_save(self, encoded):
	chunked_data = []
	if self.sliding_window:
	print("sliding!")
	for i in trange(
	0, len(encoded) - self.window_size + 1, self.stride, leave=False
	):
	chunked_data.append(
	torch.tensor(encoded[i : i + self.window_size], dtype=torch.int)
	)
	else:
	for i in trange(0, len(encoded), self.max_length, leave=False):
	chunked_data.append(
	torch.tensor(encoded[i : i + self.max_length], dtype=torch.int)
	)

	# me when the last item is not necessarily of length self.max_length
	padded_chunk = torch.zeros(self.max_length, dtype=torch.int)
	padded_chunk[: len(chunked_data[-1])] = chunked_data[-1]
	chunked_data[-1] = padded_chunk

	self.chunks = torch.stack(chunked_data)
	torch.save(self.chunks, self.cache_file)

	def _load_or_compute_scores(self):
	"""Load cached scores or compute them if not available"""
	if self.get_rarity_score:
	if os.path.exists(self.rarity_cache_file):
	print("Loading cached rarity scores...")
	self.rarity_scores = torch.load(self.rarity_cache_file, weights_only=True)
	if len(self.rarity_scores) != len(self.chunks):
	print("Rarity cache size mismatch, recomputing...")
	self._compute_and_cache_rarity_scores()
	else:
	print("Computing rarity scores...")
	self._compute_and_cache_rarity_scores()

	if self.get_entropy_score:
	if os.path.exists(self.entropy_cache_file):
	print("Loading cached entropy scores...")
	self.entropy_scores = torch.load(self.entropy_cache_file, weights_only=True)
	if len(self.entropy_scores) != len(self.chunks):
	print("Entropy cache size mismatch, recomputing...")
	self._compute_and_cache_entropy_scores()
	else:
	print("Computing entropy scores...")
	self._compute_and_cache_entropy_scores()

	def _compute_and_cache_rarity_scores(self):
	"""Compute rarity scores for all chunks and cache them"""
	rarity_scores = []
	print("Computing rarity scores for all chunks...")
	for i in trange(len(self.chunks), desc="Computing rarity scores"):
	score = self.manager.get_rarity_score(self.chunks[i])
	rarity_scores.append(score)

	self.rarity_scores = torch.tensor(rarity_scores, dtype=torch.float32)
	torch.save(self.rarity_scores, self.rarity_cache_file)
	print(f"Cached rarity scores to {self.rarity_cache_file}")

	def _compute_and_cache_entropy_scores(self):
	"""Compute entropy scores for all chunks and cache them"""
	entropy_scores = []
	print("Computing entropy scores for all chunks...")
	for i in trange(len(self.chunks), desc="Computing entropy scores"):
	score = self.manager.get_entropy_score(self.chunks[i])
	entropy_scores.append(score)

	self.entropy_scores = torch.tensor(entropy_scores, dtype=torch.float32)
	torch.save(self.entropy_scores, self.entropy_cache_file)
	print(f"Cached entropy scores to {self.entropy_cache_file}")

	# unused
	# def _sliding_window(self, sequence, window_size, stride):
	# windows = []
	# for i in range(0, len(sequence) - window_size + 1, stride):
	# windows.append(sequence[i : i + window_size])
	# return torch.stack(windows)

	def __len__(self):
	return len(self.chunks)

	def __getitem__(
	self, idx
	):
	seq = self.chunks[idx]
	if self.get_rarity_score:
	return seq, self.rarity_scores[idx]
	if self.get_entropy_score:
	return seq, self.entropy_scores[idx]
	return seq, self.dummy # self.manager.attention_mask(seq)


	class Datasplit_chunker(Dataset):
	def __init__(self, root, name, subset, slide=False, stride=1, length=512):
	super().__init__()

	self.root = root
	if os.path.exists(os.path.join(root, f"encoded_chunked_{name}.pt")):
	self.items = torch.load(
	os.path.join(root, f"encoded_chunked_{name}.pt"), weights_only=True
	)

	else:
	self.items = torch.cat([subset.dataset[idx][0] for idx in subset.indices])

	if slide:
	self.items = self._sliding_window(
	self.items, window_size=length, stride=stride
	)

	torch.save(self.items, os.path.join(root, f"encoded_chunked_{name}.pt"))
	print("saved!")
	self.chunks = self.items
	self.dummy = torch.tensor([1], device=DEVICE)

	def _sliding_window(self, sequence, window_size, stride):
	num_windows = (len(sequence) - window_size) // stride + 1
	windows = torch.as_strided(
	sequence, size=(num_windows, window_size), stride=(stride, 1)
	)
	return windows

	def __len__(self):
	return len(self.items)

	def __getitem__(self, idx):
	return self.chunks[idx], self.dummy


	# print("Running....")
	dataset = TextCorpusDataset(
	root_dir=os.path.expanduser(
	# "./dummy-data-dir"
	# "./smaller-er-test-data"
	# "./smaller-test-data"
	# "~/torch_datasets/github-python/all_trains_subset_corpus/all_trains_TRAINSPLIT"
	#"~/torch_datasets/github-python/all_trains_subset_corpus"
	# "~/torch_datasets/github-python/corpus"
	# "~/torch_datasets/github-python/mega_corpus"
	"~/torch_datasets/github-python/mega_licensed_corpus"
	), # os.path.expanduser("~/torch_datasets/wikitext/train")
	vocab_size=33819, # 3645, # edited by me
	IS_CODE=True, # Remember to change!
	IS_CUSTOM=True,
	# IS_DUMMY=True,
	max_length=256,
	sliding_window=False,
	stride=10,
	get_rarity_score=True,
	)

	dset_size = int(len(dataset))
	train_size = int(0.8 * dset_size) # int(dset_size - 2)
	test_size = int(dset_size - train_size)
	if test_size == 2:
	print("alert! test size is 2 or whatever. Change this back please.")

	torch.manual_seed(3407) # https://arxiv.org/pdf/2109.08203

	train_dataset, test_dataset, _ = random_split(
	dataset, [train_size, test_size, len(dataset) - train_size - test_size]
	)


	# train_dataset = Datasplit_chunker(dataset.root,"TRAIN", train_dataset, slide=False, stride=10, length=256)
	# test_dataset = Datasplit_chunker(dataset.root,"TEST", test_dataset, slide=False, stride=10, length=256)


	# test_dataset = train_dataset # to test if the overfitting is real

	# train_dataset = dataset # TODO change


	def get_train_dataset():
	return train_dataset


	def get_test_dataset():

	return test_dataset


	def get_dataloader(dataset, batch_size=64):

	return DataLoader(dataset, batch_size=batch_size, shuffle=True)


	def fromDataset(dataset):
	dset_size = int(len(dataset))
	train_size = int(0.8 * dset_size) # int(dset_size - 2)
	test_size = int(dset_size - train_size)
	if test_size == 2:
	print("alert! test size is 2 or whatever. Change this back please.")

	torch.manual_seed(3407) # https://arxiv.org/pdf/2109.08203

	train_dataset, test_dataset, _ = random_split(
	dataset, [train_size, test_size, len(dataset) - train_size - test_size]
	)

	return train_dataset, test_dataset


	if __name__ == "__main__":
	d = get_train_dataset()
	print("Number of samples: ", len(d))
	for a, b in d:
	# a, b = d[-1]
	manager = dataset.manager
	print(a)
	print(manager.decode(a))
	# print(a)
	print("--- sep batch --- ")

	print(f"Number of tokens used: {len(dataset.manager.token_to_id)}")
	break # lazy