какая буква русского алфавита является самой распространенной
Номер по частоте употребления | Буква | Частотность | Частотность % |
1 | о | 0,10983 | 10,983% |
2 | е | 0,08483 | 8,483% |
3 | а | 0,07998 | 7,998% |
4 | и | 0,07367 | 7,367% |
5 | н | 0,067 | 6,7% |
6 | т | 0,06318 | 6,318% |
7 | с | 0,05473 | 5,473% |
8 | р | 0,04746 | 4,746% |
9 | в | 0,04533 | 4,533% |
10 | л | 0,04343 | 4,343% |
11 | к | 0,03486 | 3,486% |
Номер по частоте употребления | Буква | Частотность | Частотность % |
12 | м | 0,03203 | 3,203% |
13 | д | 0,02977 | 2,977% |
14 | п | 0,02804 | 2,804% |
15 | у | 0,02615 | 2,615% |
16 | я | 0,02001 | 2,001% |
17 | ы | 0,01898 | 1,898% |
18 | ь | 0,01735 | 1,735% |
19 | г | 0,01687 | 1,687% |
20 | з | 0,01641 | 1,641% |
21 | б | 0,01592 | 1,592% |
Номер по частоте употребления | Буква | Частотность | Частотность % |
22 | ч | 0,0145 | 1,45% |
23 | й | 0,01208 | 1,208% |
24 | х | 0,00966 | 0,966% |
25 | ж | 0,0094 | 0,94% |
26 | ш | 0,00718 | 0,718% |
27 | ю | 0,00639 | 0,638% |
28 | ц | 0,00486 | 0,486% |
29 | щ | 0,00361 | 0,361% |
30 | э | 0,00331 | 0,331% |
31 | ф | 0,00267 | 0,267% |
32 | ъ | 0,00037 | 0,037% |
33 | ё | 0,00013 | 0,013% |
Номер по частоте употребления | Буква | Частотность | Частотность % |
Консультации и техническая
поддержка сайта: Zavarka Team
LiveInternetLiveInternet
—Метки
—Музыка
—Рубрики
—Поиск по дневнику
—Подписка по e-mail
—Статистика
Частота применения букв в русском языке
Частота применения букв в русском языке
А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных. Причем частота употребляемости гласных букв в языке выше, чем согласных.
Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?
Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования.
Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.
о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%
Русская буква, имеющая наибольшую частотность в использовании – это гласная «О», как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти» (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».
А в самом начале слов чаще всего встречается согласная буква «П». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.
Частота использования букв основа криптоанализа.
Частота букв в русском языке
Написал забавный php-скрипт. Погонял через него все тексты на « Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов — определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом « Спектатора».
Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:
о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%
Тем, кто поедет на « Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая « привычная» буква « б» употребляется реже, чем « редкая» буква « ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните: « **а**и*е» и « ср*вн*т*». И в том и в другом случае — это слово « сравните».
И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу — о том и пою. А смысл. Как часто вы в нормальной жизни говорите слово « карандаш»? Если задача — научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.
Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке « случайных» четырехбуквенных слов выскочило « осел». В следующей полсотне — слова « мчим» и « нато». Но, увы, очень много неблагозвучных комбинаций, таких, как « блтт» или « нрро».
Поэтому — следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на « нормальные». Например: « коивдиот», « воабма», « апый», « депоид», « дебяко», « орфа», « поеснавы», « озза», « ченя», « риторя», « урдеед», « утоичи», « стых», « сапоть», « гравда», « абабап», « обарто», « еелует», « лярезы», « мыни», « бромомер» и даже « тодебыст».
Куда применить. есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа, « мемолисо» или « уторорерто». Или — генератор футуристических стихов « Бурлюк-php»: « опелдиий миатон, линоаз окмиая. деесопен одесон».
И есть еще один вариант. Надо попробовать.
Некоторые статистические данные об использовании русских слов:
После заметки мне пришло вот такое письмо:
Проанализировав статью « Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для « Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта — определение порядка букв при программировании кнопок для мобильных устройств. Да, да — именно в мобильниках и нужно все это.
Я распределил это по волнам (см. рисунок)
Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).
Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:
А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.
Заранее большое спасибо.
Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.
Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая — служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые « популярные» слова: « и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.
Возвращаясь к клавиатурам — очевидно, что в клавиатуре буквосочетания « не», « что», « он», « на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые « удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.
Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?
Запятая употребляется в 2 раза чаще, чем точка. А точка на стандартной русской клавиатуре расположена удобней.
Статистика по приведенным выше текстам:
По уникальным словам:
о — 9.36%
а — 8.40%
е — 8.08%
и — 6.91%
н — 6.12%
с — 5.67%
т — 5.49%
р — 5.30%
л — 5.00%
в — 4.67%
п — 3.38%
у — 3.17%
к — 3.14%
м — 2.97%
д — 2.72%
я — 2.50%
ь — 2.08%
ы — 2.06%
з — 1.85%
б — 1.61%
г — 1.47%
ш — 1.32%
ч — 1.22%
й — 1.21%
ж — 1.01%
ю — 0.99%
х — 0.97%
щ — 0.48%
ц — 0.37%
ф — 0.20%
э — 0.06%
ъ — 0.05%
По текстам в целом:
о — 11.35%
е — 8.93%
а — 8.23%
н — 6.71%
и — 6.48%
т — 6.17%
с — 5.22%
л — 4.95%
в — 4.47%
р — 4.17%
к — 3.35%
д — 2.97%
м — 2.93%
у — 2.86%
п — 2.39%
я — 2.17%
ь — 2.09%
ы — 1.90%
г — 1.811%
б — 1.77%
ч — 1.67%
з — 1.65%
ж — 1.14%
й — 1.09%
ш — 0.89%
х — 0.79%
ю — 0.66%
э — 0.33%
ц — 0.29%
щ — 0.29%
ф — 0.10%
ъ — 0.02%