WikiDer > Частота арабских букв
Эта статья нужны дополнительные цитаты для проверка. (Январь 2018) (Узнайте, как и когда удалить этот шаблон сообщения) |
В частота писем в тексте часто изучается для использования в криптоанализ, и частотный анализ особенно.
Ни в одном языке нет точного частотного распределения букв, поскольку все авторы пишут немного по-разному. Как правило, тексты на разных языках с использованием Арабский шрифт (например. арабский, Османский Турецкий, Персидский и Урду) будет иметь разную частоту букв, что наиболее очевидно в случае букв, которые используются только в некоторых языках (например, персидские буквы پ, چ, گ, которые не используются для письма на арабском языке).
Методы кодирования наиболее часто встречающихся букв самыми короткими символами были впервые применены в телеграфных кодах и используются в современных методах сжатия данных, таких как Кодирование Хаффмана.
Что учитывается при вводе арабского текста?
Арабский алфавит состоит из 28 основных букв, это буквы с 1 по 28 в таблице 1. Восемь измененных букв, перечисленных в позициях с 29 по 36 в той же таблице, используются точно так же.[требуется разъяснение]. Если эти 8 модифицированных форм сложить в основной список на основе формы или фонетического сходства, результат будет таким, как показано в таблице 2. Для точного частотного анализа частота каждой из 36 букв таблицы 1 подсчитывается независимо.
Порядок алфавита, показанный в таблицах, более логичен.[нужна цитата] чем используется Unicode стандарт.
Хотя полный набор арабских символов включает около десяти диакритических знаков, как показано на рисунке 1, частотный анализ арабских символов касается только вычисления частоты букв алфавита, показанной в таблице 2.
Источники с более чем пятью миллионами писем
Следующие известные арабские источники используются для получения приемлемого количества данных, по которым проводится статистика частоты.
- Первые семь томов серии البداية والنهاية (Начало и конец)[1] из Ибн Касир, с 2 855 страницами, содержащими 1 096 047 слов, содержащих 4 326 031 букву.
- Книга الرحيق المختوم (Запечатанный нектар)[2] Алмубаракфури, с 284 страницами, содержащими 134 662 слова, содержащие 553 740 букв.
- Книга تحفة العروسين (Шедевр невест)[3] Аль-шури, с 239 страницами, содержащими 66 550 слов, содержащих 242 361 букву.
В совокупности эти источники составляют 3378 страниц, содержащих 1 297 259 слов и 5 122 132 буквы.
На следующих графиках показано распределение частоты букв для подсчитанных букв; На рисунке 2 показаны данные гистограммы, отсортированные по Unicode ценить. На рисунке 3 показаны данные гистограммы, отсортированные по частоте.
| Письмо | Относительная частота в арабском языке | |
|---|---|---|
| ء | 0.2% | |
| ؤ | 0.05% | |
| ئ | 0.18% | |
| ا | 12.5% | |
| آ | 0.1% | |
| أ | 3% | |
| إ | 1% | |
| ب | 4.5% | |
| ة | 3.2% | |
| ت | 0.8% | |
| ث | 1.1% | |
| ج | 1.8% | |
| ح | 0.8% | |
| خ | 0.9% | |
| د | 2.5% | |
| ذ | 0.8% | |
| ر | 4.1% | |
| ز | 0.4% | |
| س | 2.3% | |
| ش | 0.7% | |
| ص | 0.9% | |
| ض | 0.4% | |
| ط | 0.5% | |
| ظ | 0.1% | |
| ع | 3.9% | |
| غ | 0.3% | |
| ف | 2.7% | |
| ق | 2.6% | |
| ك | 1.9% | |
| ل | 12% | |
| م | 6.3% | |
| ن | 6.4% | |
| ه | 5% | |
| و | 5.8% | |
| ى | 1% | |
| ي | 6.2% | |
Рекомендации
- ^ Ибн Касир, Исмаил (13 ??). Начало и конец (по-арабски). Получено 23 января 2011. Проверить значения даты в:
| год =(помощь) - ^ Альмубаракфури, Сафийюррахман (2002). Запечатанный нектар (по-арабски). ISBN 978-1591440710. Получено 24 января 2011.
- ^ Аш-сюри, Маджди (19 ??). Шедевр невесты (по-арабски). Получено 24 января 2011. Проверить значения даты в:
| год =(помощь)