WikiDer > Кентерберийский корпус

Canterbury corpus

В Кентерберийский корпус это собрание файлы предназначен для использования в качестве эталона для тестирования сжатие данных без потерь алгоритмы. Создан в 1997 г. Кентерберийский университет, Новая Зеландия и предназначен для замены Калгари корпус. Файлы были отобраны на основе их способности обеспечивать репрезентативные результаты производительности.[1]

Содержание

В своей наиболее часто используемой форме корпус состоит из 11 файлов, выбранных в качестве «средних» документов из 11 классов документов,[2] всего 2 810 784 байта следующим образом.

Размер (байты)Имя файлаОписание
152,089Алиса29.txtАнглийский текст
125,179Асюлик.текстШекспир
24,603cp.htmlHTML источник
11,150fields.cC источник
3,721grammar.lspLISP источник
1,029,744kennedy.xlsЭлектронная таблица Excel
426,754lcet10.txtТехническое письмо
481,861plrabn12.txtПоэзия (потерянный рай)
513,216ptt5CCITT набор тестов
38,240суммаSPARC исполняемый файл
4,227xargs.1GNU страница руководства

Смотрите также

Рекомендации

  1. ^ Ян Х. Виттен; Алистер Моффат; Тимоти С. Белл (1999). Управление гигабайтами: сжатие и индексирование документов и изображений. Морган Кауфманн. п. 92. ISBN 9781558605701.
  2. ^ Саломон, Дэвид (2007). Сжатие данных: полный справочник (Четвертое изд.). Springer. п. 12. ISBN 9781846286032.

внешняя ссылка