From e32f69f02642df11c4b847f6c83388701375356e Mon Sep 17 00:00:00 2001 From: lekksha_ <33218023+lekksha@users.noreply.github.com> Date: Wed, 3 Feb 2021 20:52:54 +0900 Subject: [PATCH 1/4] trying to pull-request --- README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README.md b/README.md index 5034c61..30748be 100644 --- a/README.md +++ b/README.md @@ -1,2 +1,3 @@ # benchmark Тестирование производительности процессоров (текстовых обработчиков) TDC +12345 \ No newline at end of file From 0cf52008c58f2d37b2a843fdc26f012cbed9ae9c Mon Sep 17 00:00:00 2001 From: lekksha Date: Sat, 6 Feb 2021 17:44:49 +0900 Subject: [PATCH 2/4] Python Config Customization alpha --- ConfigCustomization.py | 10 ++++++++++ 1 file changed, 10 insertions(+) create mode 100644 ConfigCustomization.py diff --git a/ConfigCustomization.py b/ConfigCustomization.py new file mode 100644 index 0000000..17d8932 --- /dev/null +++ b/ConfigCustomization.py @@ -0,0 +1,10 @@ +from textdatasetcleaner import Loader +files = ["configs/custom-config.yml", "/configs/config-filter.yml"] + +for filename in files: + ldr = Loader(filename, "input/input_file.txt", "output/output_file.txt") + ldr.file_processing('PRE_PROCESSING') + ldr.line_processing() + ldr.file_processing('POST_PROCESSING') + + ldr.finish() From 05ac28826b67b80c0030c3cddf4eaffb7055d5fa Mon Sep 17 00:00:00 2001 From: lekksha Date: Sat, 6 Feb 2021 21:26:06 +0900 Subject: [PATCH 3/4] Final --- ConfigCustomization.py | 10 ---------- benchmark.py | 40 ++++++++++++++++++++++++++++++++++++++++ config1.yml | 30 ++++++++++++++++++++++++++++++ config2.yml | 31 +++++++++++++++++++++++++++++++ input_file.txt | 25 +++++++++++++++++++++++++ 5 files changed, 126 insertions(+), 10 deletions(-) delete mode 100644 ConfigCustomization.py create mode 100644 benchmark.py create mode 100644 config1.yml create mode 100644 config2.yml create mode 100644 input_file.txt diff --git a/ConfigCustomization.py b/ConfigCustomization.py deleted file mode 100644 index 17d8932..0000000 --- a/ConfigCustomization.py +++ /dev/null @@ -1,10 +0,0 @@ -from textdatasetcleaner import Loader -files = ["configs/custom-config.yml", "/configs/config-filter.yml"] - -for filename in files: - ldr = Loader(filename, "input/input_file.txt", "output/output_file.txt") - ldr.file_processing('PRE_PROCESSING') - ldr.line_processing() - ldr.file_processing('POST_PROCESSING') - - ldr.finish() diff --git a/benchmark.py b/benchmark.py new file mode 100644 index 0000000..a2e0889 --- /dev/null +++ b/benchmark.py @@ -0,0 +1,40 @@ +from textdatasetcleaner.loaders import Loader +from textdatasetcleaner.helpers import load_config +import time + +#These files needed for the test + +files = ["config1.yml", "config2.yml"] +input_file = "input_file.txt" +output_file = "output_file.txt" + +#name_prefix for output_file +name_prefix = 1 + +with open(input_file) as f: + line_count = 0 + for line in f: + line_count +=1 +f.close() + +for filename in files: + + output_file = str(name_prefix) + output_file + + config = load_config(filename) + ldr = Loader(config, input_file, output_file) + + #get start_time + start_time = time.time() + + # ldr.file_processing('PRE_PROCESSING') + ldr.line_processing() + ldr.file_processing('POST_PROCESSING') + ldr.finish() + + #get finish_time + finish_time = time.time() + print("Time for " + filename + " = %s seconds" % (start_time - finish_time) + "\n") + print("Processing speed for " + filename + " = %s line/seconds" % (line_count/(start_time - finish_time)) + "\n") + + name_prefix = name_prefix + 1 diff --git a/config1.yml b/config1.yml new file mode 100644 index 0000000..1a4d30d --- /dev/null +++ b/config1.yml @@ -0,0 +1,30 @@ +PRE_PROCESSING: + - unique +PROCESSING: + - line_strip + - clean_html: + or_condition: False + - detect_language: + language_code: ru + delimiter: '~' + delimited_position: -1 + model_path: '/tmp/fasttext-lid.176.bin' + - remove_accents + - filter_stop_words: + language_code: ru + mode: replace + - normalize_hyphenated_words + - normalize_quotation_marks + - remove_profanity: + threshold: 0.9 + - clean_symbols + - normalize_whitespace + - add_prefix: + text: '<|startoftext|>' + - add_postfix: + text: '<|endoftext|>' +POST_PROCESSING: + - unique + - shuffle + +CACHE_DIR: '/tmp/tdc' diff --git a/config2.yml b/config2.yml new file mode 100644 index 0000000..831de00 --- /dev/null +++ b/config2.yml @@ -0,0 +1,31 @@ +PRE_PROCESSING: + - unique +PROCESSING: + - line_strip + - clean_html: + or_condition: False + - detect_language: + language_code: ru + delimiter: '~' + delimited_position: -1 + model_path: '/tmp/fasttext-lid.176.bin' + - remove_accents + - filter_stop_words: + language_code: ru + mode: replace + - filter_currency_symbols + - filter_hashtags + - filter_numbers + - remove_profanity: + threshold: 0.9 + - clean_symbols + - normalize_whitespace + - add_prefix: + text: '<|startoftext|>' + - add_postfix: + text: '<|endoftext|>' +POST_PROCESSING: + - unique + - shuffle + +CACHE_DIR: '/tmp/tdc' diff --git a/input_file.txt b/input_file.txt new file mode 100644 index 0000000..2ab8c9c --- /dev/null +++ b/input_file.txt @@ -0,0 +1,25 @@ +В Назрани обстреляна машина с милиционерами: Россия +Отравление в московской школе: 13 человек госпитализированы: Россия +Вслед за поддержкой акционера «Русский стандарт» получил деньги от правительства: Деловой климат: Бизнес +"Авианова" отказалась от переезда в "Пулково": Экономика +Владимира Путина не выдвинули в совет директоров "Газпрома": Экономика +США запретили Ирану вмешиваться в дела Ирака: Мир +Как в Киеве подменяют войну словесной агрессией: Украина: Бывший СССР +Как разводились российские миллиардеры: Деловой климат: Бизнес +Франция выплатит 10 миллионов евро жертвам ядерных испытаний: Мир +Анастасия Мыскина стала победительницей Brazil Open: Спорт +Украинский суд признал незаконным "геройство" Бандеры: Бывший СССР +Дементьевой предложили пост заместителя Тарпищева: Спорт +Учитель Сергей Волков о ЕГЭ, идейных ярлыках и скрепах в школьном образовании: Общество: Россия +Ученые в сотни раз увеличили число морских микроорганизмов: Наука и техника +Названа причина крушения Су-24 в Курганской области: Россия +Грузия усмотрела в визите Медведева в Абхазию "советский цинизм": Бывший СССР +"Рубин" прошел в финал Кубка России по футболу: Спорт +Махинациями с LIBOR занялась американская прокуратура: Экономика +Сумма долговых выплат России на 2003 год снизилась до 16 миллиардов долларов: Экономика +Человечество теряет лицо последние 10 тысяч лет: Наука и техника +Сердюкова обвинили в уклонении от явки на допрос: Россия +Власти Индии выслали немца из-за протестов против АЭС: Мир +Линор Горалик о паучьей любви и русской литературе +В Подмосковье пассажирский состав столкнулся с товарняком: Катастрофы: Россия +LiveJournal запустил виртуальные деньги: Медиа From a31b2e24b1986c4c0bb3c78d741c9b657e528663 Mon Sep 17 00:00:00 2001 From: lekksha Date: Sat, 6 Feb 2021 21:28:11 +0900 Subject: [PATCH 4/4] final2 --- README.md | 1 - benchmark.py | 4 ++-- 2 files changed, 2 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 30748be..5034c61 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,2 @@ # benchmark Тестирование производительности процессоров (текстовых обработчиков) TDC -12345 \ No newline at end of file diff --git a/benchmark.py b/benchmark.py index a2e0889..356c6ae 100644 --- a/benchmark.py +++ b/benchmark.py @@ -34,7 +34,7 @@ #get finish_time finish_time = time.time() - print("Time for " + filename + " = %s seconds" % (start_time - finish_time) + "\n") - print("Processing speed for " + filename + " = %s line/seconds" % (line_count/(start_time - finish_time)) + "\n") + print("Time for " + filename + " = %s seconds" % (finish_time - start_time)) + print("Processing speed for " + filename + " = %s line/seconds" % (line_count/(finish_time - start_time))) name_prefix = name_prefix + 1