Skip to content
This repository was archived by the owner on Oct 26, 2021. It is now read-only.

Python custom configuration #6

Open
wants to merge 5 commits into
base: main
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
40 changes: 40 additions & 0 deletions benchmark.py
Original file line number Diff line number Diff line change
@@ -0,0 +1,40 @@
from textdatasetcleaner.loaders import Loader
from textdatasetcleaner.helpers import load_config
import time

#These files needed for the test

files = ["config1.yml", "config2.yml"]
input_file = "input_file.txt"
output_file = "output_file.txt"

#name_prefix for output_file
name_prefix = 1

with open(input_file) as f:
line_count = 0
for line in f:
line_count +=1
f.close()

for filename in files:

output_file = str(name_prefix) + output_file

config = load_config(filename)
ldr = Loader(config, input_file, output_file)

#get start_time
start_time = time.time()

# ldr.file_processing('PRE_PROCESSING')
ldr.line_processing()
ldr.file_processing('POST_PROCESSING')
ldr.finish()

#get finish_time
finish_time = time.time()
print("Time for " + filename + " = %s seconds" % (finish_time - start_time))
print("Processing speed for " + filename + " = %s line/seconds" % (line_count/(finish_time - start_time)))

name_prefix = name_prefix + 1
30 changes: 30 additions & 0 deletions config1.yml
Original file line number Diff line number Diff line change
@@ -0,0 +1,30 @@
PRE_PROCESSING:
- unique
PROCESSING:
- line_strip
- clean_html:
or_condition: False
- detect_language:
language_code: ru
delimiter: '~'
delimited_position: -1
model_path: '/tmp/fasttext-lid.176.bin'
- remove_accents
- filter_stop_words:
language_code: ru
mode: replace
- normalize_hyphenated_words
- normalize_quotation_marks
- remove_profanity:
threshold: 0.9
- clean_symbols
- normalize_whitespace
- add_prefix:
text: '<|startoftext|>'
- add_postfix:
text: '<|endoftext|>'
POST_PROCESSING:
- unique
- shuffle

CACHE_DIR: '/tmp/tdc'
31 changes: 31 additions & 0 deletions config2.yml
Original file line number Diff line number Diff line change
@@ -0,0 +1,31 @@
PRE_PROCESSING:
- unique
PROCESSING:
- line_strip
- clean_html:
or_condition: False
- detect_language:
language_code: ru
delimiter: '~'
delimited_position: -1
model_path: '/tmp/fasttext-lid.176.bin'
- remove_accents
- filter_stop_words:
language_code: ru
mode: replace
- filter_currency_symbols
- filter_hashtags
- filter_numbers
- remove_profanity:
threshold: 0.9
- clean_symbols
- normalize_whitespace
- add_prefix:
text: '<|startoftext|>'
- add_postfix:
text: '<|endoftext|>'
POST_PROCESSING:
- unique
- shuffle

CACHE_DIR: '/tmp/tdc'
25 changes: 25 additions & 0 deletions input_file.txt
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
В Назрани обстреляна машина с милиционерами: Россия
Отравление в московской школе: 13 человек госпитализированы: Россия
Вслед за поддержкой акционера «Русский стандарт» получил деньги от правительства: Деловой климат: Бизнес
"Авианова" отказалась от переезда в "Пулково": Экономика
Владимира Путина не выдвинули в совет директоров "Газпрома": Экономика
США запретили Ирану вмешиваться в дела Ирака: Мир
Как в Киеве подменяют войну словесной агрессией: Украина: Бывший СССР
Как разводились российские миллиардеры: Деловой климат: Бизнес
Франция выплатит 10 миллионов евро жертвам ядерных испытаний: Мир
Анастасия Мыскина стала победительницей Brazil Open: Спорт
Украинский суд признал незаконным "геройство" Бандеры: Бывший СССР
Дементьевой предложили пост заместителя Тарпищева: Спорт
Учитель Сергей Волков о ЕГЭ, идейных ярлыках и скрепах в школьном образовании: Общество: Россия
Ученые в сотни раз увеличили число морских микроорганизмов: Наука и техника
Названа причина крушения Су-24 в Курганской области: Россия
Грузия усмотрела в визите Медведева в Абхазию "советский цинизм": Бывший СССР
"Рубин" прошел в финал Кубка России по футболу: Спорт
Махинациями с LIBOR занялась американская прокуратура: Экономика
Сумма долговых выплат России на 2003 год снизилась до 16 миллиардов долларов: Экономика
Человечество теряет лицо последние 10 тысяч лет: Наука и техника
Сердюкова обвинили в уклонении от явки на допрос: Россия
Власти Индии выслали немца из-за протестов против АЭС: Мир
Линор Горалик о паучьей любви и русской литературе
В Подмосковье пассажирский состав столкнулся с товарняком: Катастрофы: Россия
LiveJournal запустил виртуальные деньги: Медиа