 |
|
LearnWords - сортировка по частоте |
Пункт меню "Сортировать по частоте", редактора LearnWords Editor, упорядочивает словарь
по списку "lemma_num.txt" (распространяется вместе с программой) и делает оценку по
окончании - какой процент языковой базы Британского английского охвачен.
Для расчета частот использовался разговорный и письменный
Британский английский British National Corpus (BNC).
Объем языковой базы - 100 миллионов слов.
Список слов "lemma_num.txt" - первые 6318 слов, упорядоченные по убыванию частоты.
Составил файл Adam Kilgarriff, работа осуществлялась по гранту
(см. http://www.itri.brighton.ac.uk/~Adam.Kilgarriff/bnc-readme.html)
Определение 'слова' учитывает различные значения, так индекс для "help" - сумма значений 'help', 'helps', 'helping', 'helped'.
Числа, имена исключены, только простые слова.
Первый столбец - слово, второй - часть речи в сокращении, последний столбц -абсолютное значение частоты.
Слова, упорядочить которые не удалось, добавляются в конец таблицы.
Оценка списка "lemma_num.txt" - 95,07% языковой базы.
Обозначение частей речи:
conj (conjunction) - союз
adv (adverb) - наречие
v (verb) - глагол
det (determiner) - детерминатив
pron (pronoun) - местоимение
interjection - междометие
a (adjective) - прилагательное
n (noun) - существительное
prep (preposition) - предлог
modal - модальный
infinitive-marker - инфинитивный маркер
© LearnWords Software, 2002-2005. Все права защищены.
E-mail: author@learnwords.com