diff --git a/benchmark.py b/benchmark.py new file mode 100644 index 0000000..356c6ae --- /dev/null +++ b/benchmark.py @@ -0,0 +1,40 @@ +from textdatasetcleaner.loaders import Loader +from textdatasetcleaner.helpers import load_config +import time + +#These files needed for the test + +files = ["config1.yml", "config2.yml"] +input_file = "input_file.txt" +output_file = "output_file.txt" + +#name_prefix for output_file +name_prefix = 1 + +with open(input_file) as f: + line_count = 0 + for line in f: + line_count +=1 +f.close() + +for filename in files: + + output_file = str(name_prefix) + output_file + + config = load_config(filename) + ldr = Loader(config, input_file, output_file) + + #get start_time + start_time = time.time() + + # ldr.file_processing('PRE_PROCESSING') + ldr.line_processing() + ldr.file_processing('POST_PROCESSING') + ldr.finish() + + #get finish_time + finish_time = time.time() + print("Time for " + filename + " = %s seconds" % (finish_time - start_time)) + print("Processing speed for " + filename + " = %s line/seconds" % (line_count/(finish_time - start_time))) + + name_prefix = name_prefix + 1 diff --git a/config1.yml b/config1.yml new file mode 100644 index 0000000..1a4d30d --- /dev/null +++ b/config1.yml @@ -0,0 +1,30 @@ +PRE_PROCESSING: + - unique +PROCESSING: + - line_strip + - clean_html: + or_condition: False + - detect_language: + language_code: ru + delimiter: '~' + delimited_position: -1 + model_path: '/tmp/fasttext-lid.176.bin' + - remove_accents + - filter_stop_words: + language_code: ru + mode: replace + - normalize_hyphenated_words + - normalize_quotation_marks + - remove_profanity: + threshold: 0.9 + - clean_symbols + - normalize_whitespace + - add_prefix: + text: '<|startoftext|>' + - add_postfix: + text: '<|endoftext|>' +POST_PROCESSING: + - unique + - shuffle + +CACHE_DIR: '/tmp/tdc' diff --git a/config2.yml b/config2.yml new file mode 100644 index 0000000..831de00 --- /dev/null +++ b/config2.yml @@ -0,0 +1,31 @@ +PRE_PROCESSING: + - unique +PROCESSING: + - line_strip + - clean_html: + or_condition: False + - detect_language: + language_code: ru + delimiter: '~' + delimited_position: -1 + model_path: '/tmp/fasttext-lid.176.bin' + - remove_accents + - filter_stop_words: + language_code: ru + mode: replace + - filter_currency_symbols + - filter_hashtags + - filter_numbers + - remove_profanity: + threshold: 0.9 + - clean_symbols + - normalize_whitespace + - add_prefix: + text: '<|startoftext|>' + - add_postfix: + text: '<|endoftext|>' +POST_PROCESSING: + - unique + - shuffle + +CACHE_DIR: '/tmp/tdc' diff --git a/input_file.txt b/input_file.txt new file mode 100644 index 0000000..2ab8c9c --- /dev/null +++ b/input_file.txt @@ -0,0 +1,25 @@ +В Назрани обстреляна машина с милиционерами: Россия +Отравление в московской школе: 13 человек госпитализированы: Россия +Вслед за поддержкой акционера «Русский стандарт» получил деньги от правительства: Деловой климат: Бизнес +"Авианова" отказалась от переезда в "Пулково": Экономика +Владимира Путина не выдвинули в совет директоров "Газпрома": Экономика +США запретили Ирану вмешиваться в дела Ирака: Мир +Как в Киеве подменяют войну словесной агрессией: Украина: Бывший СССР +Как разводились российские миллиардеры: Деловой климат: Бизнес +Франция выплатит 10 миллионов евро жертвам ядерных испытаний: Мир +Анастасия Мыскина стала победительницей Brazil Open: Спорт +Украинский суд признал незаконным "геройство" Бандеры: Бывший СССР +Дементьевой предложили пост заместителя Тарпищева: Спорт +Учитель Сергей Волков о ЕГЭ, идейных ярлыках и скрепах в школьном образовании: Общество: Россия +Ученые в сотни раз увеличили число морских микроорганизмов: Наука и техника +Названа причина крушения Су-24 в Курганской области: Россия +Грузия усмотрела в визите Медведева в Абхазию "советский цинизм": Бывший СССР +"Рубин" прошел в финал Кубка России по футболу: Спорт +Махинациями с LIBOR занялась американская прокуратура: Экономика +Сумма долговых выплат России на 2003 год снизилась до 16 миллиардов долларов: Экономика +Человечество теряет лицо последние 10 тысяч лет: Наука и техника +Сердюкова обвинили в уклонении от явки на допрос: Россия +Власти Индии выслали немца из-за протестов против АЭС: Мир +Линор Горалик о паучьей любви и русской литературе +В Подмосковье пассажирский состав столкнулся с товарняком: Катастрофы: Россия +LiveJournal запустил виртуальные деньги: Медиа