какая буква чаще других встречается в русском языке
LiveInternetLiveInternet
—Метки
—Музыка
—Рубрики
—Поиск по дневнику
—Подписка по e-mail
—Статистика
Частота применения букв в русском языке
Частота применения букв в русском языке
А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных. Причем частота употребляемости гласных букв в языке выше, чем согласных.
Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?
Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования.
Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.
о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%
Русская буква, имеющая наибольшую частотность в использовании – это гласная «О», как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти» (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».
А в самом начале слов чаще всего встречается согласная буква «П». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.
Частота использования букв основа криптоанализа.
Новое в блогах
Какая русская буква употребляется чаще других?
Номер по частоте употребления | Буква | Частотность | Частотность % |
1 | о | 0,10983 | 10,983% |
2 | е | 0,08483 | 8,483% |
3 | а | 0,07998 | 7,998% |
4 | и | 0,07367 | 7,367% |
5 | н | 0,067 | 6,7% |
6 | т | 0,06318 | 6,318% |
7 | с | 0,05473 | 5,473% |
8 | р | 0,04746 | 4,746% |
9 | в | 0,04533 | 4,533% |
10 | л | 0,04343 | 4,343% |
11 | к | 0,03486 | 3,486% |
Номер по частоте употребления | Буква | Частотность | Частотность % |
12 | м | 0,03203 | 3,203% |
13 | д | 0,02977 | 2,977% |
14 | п | 0,02804 | 2,804% |
15 | у | 0,02615 | 2,615% |
16 | я | 0,02001 | 2,001% |
17 | ы | 0,01898 | 1,898% |
18 | ь | 0,01735 | 1,735% |
19 | г | 0,01687 | 1,687% |
20 | з | 0,01641 | 1,641% |
21 | б | 0,01592 | 1,592% |
Номер по частоте употребления | Буква | Частотность | Частотность % |
22 | ч | 0,0145 | 1,45% |
23 | й | 0,01208 | 1,208% |
24 | х | 0,00966 | 0,966% |
25 | ж | 0,0094 | 0,94% |
26 | ш | 0,00718 | 0,718% |
27 | ю | 0,00639 | 0,638% |
28 | ц | 0,00486 | 0,486% |
29 | щ | 0,00361 | 0,361% |
30 | э | 0,00331 | 0,331% |
31 | ф | 0,00267 | 0,267% |
32 | ъ | 0,00037 | 0,037% |
33 | ё | 0,00013 | 0,013% |
Номер по частоте употребления | Буква | Частотность | Частотность % |
Частота встречаемости букв в английском языке
Вот наглядная таблица английского алфавита
Буква | Частота встречаемости |
Aa | 8,17 % |
Bb | 1,49 % |
Cc | 2,78 % |
Dd | 4,25 % |
Ee | 12,70 % |
Ff | 2,23 % |
Gg | 2,02 % |
Hh | 6,09 % |
Ii | 6,97 % |
Jj | 0,15 % |
Kk | 0,77 % |
Ll | 4,03 % |
Mm | 2,41 % |
Nn | 6,75 % |
Oo | 7,51 % |
Pp | 1,93 % |
0,10 % | |
Rr | 5,99 % |
Ss | 6,33 % |
Tt | 9,06 % |
Uu | 2,76 % |
Vv | 0,98 % |
Ww | 2,36 % |
Xx | 0,15 % |
Yy | 1,97 % |
Zz | 0,07 % |
Всего | 100,02 %* |
* Сумма показана с погрешностью округления
Ee 12,70 %
Tt 9,06 %
Aa 8,17 %
Oo 7,51 %
Ii 6,97 %
Nn 6,75 %
Ss 6,33 %
Hh 6,09 %
Rr 5,99 %
Dd 4,25 %
Ll 4,03 %
Cc 2,78 %
Uu 2,76 %
Mm 2,41 %
Ww 2,36 %
Ff 2,23 %
Gg 2,02 %
Yy 1,97 %
Pp 1,93 %
Bb 1,49 %
Vv 0,98 %
Kk 0,77 %
Jj 0,15 %
Xx 0,15 %
Qq 0,10 %
Zz 0,07 %
Горелов Валерий # написал комментарий 9 января 2021, 08:20 Однажды осенью отец Онуфрий очнулся, опохмелился оставшимися огурчиками, отрезвел, оделся, оставил опочивальню, отслужил обедню, окрестил отрока. Отвинтил, открутил, откупорил, отхлебнул — опьянел опять. Отведал окрошки, откушал орешков, отпробовал осетринки, окорочков, окуньков, оладушек, овощей — объевшийся отец отобедал основательно.
Отдохнув, отец Онуфрий отправился осматривать окрестности Онежского озера. Обойдя оврагом огороженный от овец овин, он основательно остолбенел. Обитательница окрестной окраины, обнаженная отроковица Ольга осторожно отмывала опыленные одежды около отдаленной осиновой опушки.
Озаренные огнями осени Онежские озера! Оправив оловянный ободок огромных очков, овдовевший отец Онуфрий обстоятельно оглядел оную отуманившую очи особу. Окстись, отче, окаянный опутал!
— О, Ольга! Околдовала, обольстила. обласкай одинокого отшельника! — ораторствовал онежский орел, охваченный огнем отец Онуфрий.
— Отойдите, отец Онуфрий! Оторву окаянный отросток! — отвечала ошарашенная Ольга.
— Отдайся! Осчастливлю! — околдовывал обуреваемый охальник.
— Ого? Охотно! Однако обязан оплатить оное, — обдумав, ответствовала обаятельная отроковица.
Горелов Валерий # ответил на комментарий Горелов Валерий 9 января 2021, 08:22 — Озолочу, осыплю охапками ожерелий! Обещаю отары овец, ондатровые одежды! — обманывал Ольгу одержимый.
— Отрадно, отче! Отлично, обдумаем-обсудим, — обрадовалась она.
Отец Онуфрий обаял, обнял, обвил, обхватил. Ольга обмякла, обворожительно опрокинулась, отчаянно отдалась. Однако, окончив оплодотворение, отдышавшийся отец отказался оплачивать обещанное.
— Облысевший, ожиревший, обнищавший остолоп! Обесславил, обездолил, ограбил одинокую овечку! Отдавай обещанную ондатру, оборотень окаянный! Одичавший осел! Обсчитал, обчистил, обесчестил! Ослеплю, отравлю, оцарапаю, ославлю! — озверела Ольга.
— Очумела, озорница? Отвали отсюда, — отрешенно отмахнулся от Ольги остывший отец Онуфрий.
Частота букв в русском языке
Написал забавный php-скрипт. Погонял через него все тексты на « Спектаторе» на предмет языка. Всего в текстах употребляется 39110 разных словоформ. Сколько именно разных слов — определить довольно сложно. Чтобы хоть как-то приблизиться к этой цифре, я брал только первые 5 букв слова и сравнивал их. Получилось 14373 таких комбинаций. С большой натяжкой это можно назвать словарным запасом « Спектатора».
Потом я взял слова и иследовал их на предмет частоты повторения букв. В идеале надо брать какой-нибудь словарь, для полноты картины. Прогонять тексты нельзя, нужно только уникальные слова. В тексте же одни слова повторяются чаще, чем другие. Итак, получились следующие результаты:
о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%
Тем, кто поедет на « Поле чудес», советую заучить эту таблицу наизусть. И называть слова в таком порядке. Так, например, казалось бы, такая « привычная» буква « б» употребляется реже, чем « редкая» буква « ы». Помнить надо также и то, что в слове не одни гласные. И что если вы угадали одну гласную, то нужно начинать идти по согласным. И кроме того, слово угадывается именно по согласным. Сравните: « **а**и*е» и « ср*вн*т*». И в том и в другом случае — это слово « сравните».
И еще одно соображение. Как вы учили английский? Помните? Э пен, э пенсил, э тэйбл. Что вижу — о том и пою. А смысл. Как часто вы в нормальной жизни говорите слово « карандаш»? Если задача — научить говорить как можно быстрее и эффективнее, то и учить надо соответствующе. Проводим анализ языка, выделяем самые употребимые слова. И учить начинаем именно с них. Чтобы более-менее говорить на английском языке, достаточно всего полторы тысячи слов.
Еще одно баловство: составлять слова из букв случайным образом, но учитывая частоту появления, чтобы было похоже на нормальные слова. В первой же десятке « случайных» четырехбуквенных слов выскочило « осел». В следующей полсотне — слова « мчим» и « нато». Но, увы, очень много неблагозвучных комбинаций, таких, как « блтт» или « нрро».
Поэтому — следующий шаг. Я разбил все слова на двухбуквенные сочетания и начал случайным образом (но с учетом частоты повторения) комбинировать их. Стали в больших количествах получатся слова, похожие на « нормальные». Например: « коивдиот», « воабма», « апый», « депоид», « дебяко», « орфа», « поеснавы», « озза», « ченя», « риторя», « урдеед», « утоичи», « стых», « сапоть», « гравда», « абабап», « обарто», « еелует», « лярезы», « мыни», « бромомер» и даже « тодебыст».
Куда применить. есть варианты. Например, написать генератор красивых фирменных игривых имен. Для йогуртов. Типа, « мемолисо» или « уторорерто». Или — генератор футуристических стихов « Бурлюк-php»: « опелдиий миатон, линоаз окмиая. деесопен одесон».
И есть еще один вариант. Надо попробовать.
Некоторые статистические данные об использовании русских слов:
После заметки мне пришло вот такое письмо:
Проанализировав статью « Язык до Киева доведет» и ту ее часть, где Вы описываете свою программу, возникла идея.
Вами написанный скрипт кажется мне предназначенным абсолютно не для « Поля чудес» в большей мере, а для другого.
Первое самое разумное применение результатов работы Вашего скрипта — определение порядка букв при программировании кнопок для мобильных устройств. Да, да — именно в мобильниках и нужно все это.
Я распределил это по волнам (см. рисунок)
Далее распределение по кнопкам:
1. Все буквы из первой волны уходят на 4 кнопки в первый ряд
2. Все буквы из второй волны тоже на остальные 4 кнопки в тот же первый ряд
3. Все буквы из третьей волны туда же на оставшиеся две кнопки
4. 4,5 и 6 волны уходят во второй ряд
5. 7,8,9 волны уходят на третий ряд, причем 9-я волна уходит вся полностью (не смотря на кажущееся большое количество букв) в третий ряд 9-й кнопки, что-бы 10 кнопку оставить под всякие там знаки препинания (точка, запятая и прочее).
Я думаю все понятно и так, без детальных обьяснений. Но все же не могли бы Вы обработать Вашим скриптом (включая знаки припинания) тексты следующего содержания:
А потом выложить статистику? Мне показалось? что тексты максимально отражают нашу современную речь, а ведь мы как говорим, так и пишем sms.
Заранее большое спасибо.
Итак, анализировать частоту повторения букв можно двумя способами. Способ 1. Взять текст, найти в нем уникальные (не повторяющиеся) словоформы и анализировать их. Способ хорош для построения статистики по словам русского языка, а не по текстам. Способ 2. Не искать в тексте уникальные слова, а сразу перейти к подсчету частоты повторения букв. Получаем частоту букв в русском тексте, а не в русских словах. Для создания клавиатур и прочего нужно использовать именно этот способ: на клавиатуре набираются именно тексты.
Клавиатуры должны учитывать не только частоту букв, но и самые упортебимые слова (словоформы). Не так уж и трудно догадаться, какие именно слова самые употребимые: это, во-первых, служебные части речи, ибо роль у них такая — служить всегда и везде, и местоимения, роль у которых не менее важная: заменять в речи любую вещь/человека (это, он, она). Ну и основные глаголы (быть, сказать). По результатам анализа перечисленных выше текстов я получил такие самые « популярные» слова: « и, не, в, что, он, я, на, с, она, как, но, его, это, к, а, все, ее, было, так, же, то, сказал, за, ты, о, у, ему, мне, только, по, меня, бы, да, вы, от, был, когда, из, для, еще, теперь, они, сказала, уже, него, нет, была, ей, быть, ну, ни, если, очень, ничего, вот, себя, чтобы, себе, этого, может, того, до, мы, их, ли, были, есть, чем, или, ней» и так далее.
Возвращаясь к клавиатурам — очевидно, что в клавиатуре буквосочетания « не», « что», « он», « на» идругие должны находится как можно ближе друг к другу, или если не вплотную, то каким-то наиболее оптимальным образом. Нужно провести исследования, каким именно образом пальцы движутся по клавиатуре, найти самые « удобные» позиции и поместить в них самые употребляемые буквы, не забывая, однако, про буквосочетания.
Проблема, как всегда, одна: даже если и получиться создать Уникальную Клавиатуру, куда деть миллионы людей, которые уже привыкли к qwerty/йцукен?
Запятая употребляется в 2 раза чаще, чем точка. А точка на стандартной русской клавиатуре расположена удобней.
Статистика по приведенным выше текстам:
По уникальным словам:
о — 9.36%
а — 8.40%
е — 8.08%
и — 6.91%
н — 6.12%
с — 5.67%
т — 5.49%
р — 5.30%
л — 5.00%
в — 4.67%
п — 3.38%
у — 3.17%
к — 3.14%
м — 2.97%
д — 2.72%
я — 2.50%
ь — 2.08%
ы — 2.06%
з — 1.85%
б — 1.61%
г — 1.47%
ш — 1.32%
ч — 1.22%
й — 1.21%
ж — 1.01%
ю — 0.99%
х — 0.97%
щ — 0.48%
ц — 0.37%
ф — 0.20%
э — 0.06%
ъ — 0.05%
По текстам в целом:
о — 11.35%
е — 8.93%
а — 8.23%
н — 6.71%
и — 6.48%
т — 6.17%
с — 5.22%
л — 4.95%
в — 4.47%
р — 4.17%
к — 3.35%
д — 2.97%
м — 2.93%
у — 2.86%
п — 2.39%
я — 2.17%
ь — 2.09%
ы — 1.90%
г — 1.811%
б — 1.77%
ч — 1.67%
з — 1.65%
ж — 1.14%
й — 1.09%
ш — 0.89%
х — 0.79%
ю — 0.66%
э — 0.33%
ц — 0.29%
щ — 0.29%
ф — 0.10%
ъ — 0.02%
Какая буква в словах русского языка встречается чаще всего?
Когда мы в школе играли в «Виселицу», всегда начинали с буквы «Е» и вероятность попадания была самой высокой. Судя же по раскладке клавиатуры, «А» и «О», находящиеся под указательными пальцами, должны быть самыми востребованными.
Поэтому, абсолютно точно никто не может сказать, какая буква чаще всего в употреблении, но если провести объемные подсчеты, можно ее приблизительно определить.
Ниже данные двух таких исследований
Согласно им самая употребляемая буква это буква «О».
Второе и третье места у букв «Е» и «А».
На четвертом месте буква «И».
Дальше идут согласные
На мой взгляд, в словах великого и могучего русского языка чаще всего встречаются гласные А и О. Даже есть отдельные части языка из одних только этих букв, я имею ввиду предлоги: а и о.
Интересно, а проводились ли какие-нибудь статистические исследования по частоте «встречания» различных гласных и согласных в словах русского языка.
Чаще всего в русском языке встречается буква «О». И да, если обратить внимание на клавиатуру, то буква «О» находится под указательным пальцем правой руки, т.е. в самом удобном месте, для самой часто набираемой буквы.
Самой распространенной буквой в огромном изобилии русских слов является буква «о». Процент частоты данной гласной буквы составляет 9,28 процентов. Данные результаты были получены в результате исследований вот здесь.
У Ульяны уполз уж. (Некоторые держат ужей как домашних животных)
Учитель учит учеников. Ученики учат уроки.
У уязвлённого умника утащили уху, украли утюг, уволокли удлинитель. (Даже не пытайтесь найти здесь логику)
Ульрих умыкнул унцию угрей у ухаря.
У Улиты удрал ухажёр.
электрофотополупроводникового девять букв «о»
Примеры предложений со всеми словами, начинающимися с буквы «В»
В значении «музыкальный жанр, разновидность рок-музыки» слово метал следует писать с одной буквой Л.
Соответственно, и во всех производных словах тоже одна Л: хеви-метал, метал-группа и так далее.
По этому поводу есть, например, соответствующий ответ справочной службы русского языка. Этот ответ подтверждает написание «метал» в значении «жанр музыки».
В Википедии это слово пишется точно так же, с одной Л на конце.
Вероятно, так принято писать, чтобы на письме можно было отличить метал от металла — вещества с металлическими свойствами.
Бука «Щ» не такая распространенная буква русского алфавита, как, например буква «А» или «К» следовательно слов начинающихся на букву «Щ» ограниченное количество.
Какая буква в русском языке встречается чаще остальных?
Тем не менее, букву А расположили в средней строчке клавиатуры.
Кстати, если проанализировать на частотность букв этот ответ, то выйдет такая статистика:
Русская буква, имеющая наибольшую частотность в использовании – это гласная «О», как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти» (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».
А в самом начале слов чаще всего встречается согласная буква «П». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.
Все давно посчитано. Данные в таблице приведенной ниже.
Частота использования букв основа криптоанализа.
Поэтому, чтобы запутать дешифратора надо как можно меньше использовать самые употребляемые буквы.
А вот из согласных букв, на первом месте стоит буква «т»
а на третьем месте стоит буква «с».
А вот среди звуков она уступит звуку А, потому, что часто люди произносят букву О звуком А.
Например, колбаса. Пишем О, говорим А.
Тоже как-то размышлял на эту тему.
Нашёл интересную информацию в интернете, как оказалось на первом месте буква «О», а вот буква «А» только вторую позицию занимает.
Далее идёт буква «Е», после буквы «Е», идёт «И», по популярности.
Я не знаю, где предыдущий оратор встречал фамилию Лукьянов в той форме, в которой она приведена в его ответе, одно следует оговорить сразу: если при работник ЗАГСа ошибся и написал какую угодно букву в каком угодно месте, то так её носителю и жить, если он в судебном порядке не изменит фамилию. Так что возможны даже варианты, при которых с Ъ фамилия начитается, хотя это противоречит всем нормам и принципам русского правописания.
Поскольку правила написания Ъ касаются стыка приставки, заканчивающейся на согласную букву и корня, начинающегося на йотированную гласную, то правописание фамилий, образованных от этих слов, подчиняется тем же принципам. В ряде иноязычных слов Ъ пишется в корне. То есть теоретически возможны фамилии «Адъютантов», «Субъектов», «Объездов» или «Панъевропейский». На практике мне такие фамилии не встречались даже в юмористических рассказах.
Молодой, но уже проявивший себя на международных конкурсах гобоист Иван Подъёмов достоин того, чтобы его упомянули не только из-за редкой фамилии. Давайте послушаем его игру.
В четырёх из перечисленных Вами словах букв больше, чем звуков. Эти слова: пень, ночь, коньки, метель. А всё потому, что в каждом из этих слов есть мягкий знак, который звука не обозначает, а используется для обозначения мягкости предшествующего ему согласного (а в словах «метель» и «ночь» ещё и является признаком существительного 3 склонения). Остальные буквы в каждом из этих четырёх слов обозначают по одному звуку.