WikiDer > Кривая Z-порядка
В математический анализ и Информатика, функции которые Z-порядок, Кривая Лебега, Кривая заполнения пространства Мортона,[1] Приказ Мортона или же Код Мортона сопоставлять многомерные данные с одним измерением, сохраняя при этом локальность точек данных. Он назван в честь Гай Макдональд Мортон, который первым применил порядок для секвенирования файлов в 1966 году.[2] Z-значение точки в многомерном пространстве просто вычисляется путем чередования двоичный представления его значений координат. После того как данные отсортированы в этом порядке, можно использовать любую одномерную структуру данных, например деревья двоичного поиска, B-деревья, пропустить списки или (с усеченными младшими значащими битами) хеш-таблицы. Результирующий порядок можно эквивалентно описать как порядок, который можно получить при обходе в глубину квадродерево.
Значения координат
На рисунке ниже показаны Z-значения для двумерного случая с целыми координатами 0 ≤Икс ≤ 7, 0 ≤ у ≤ 7 (отображается как в десятичном, так и в двоичном формате). Чередование двоичные значения координат дают двоичные z-значения, как показано. Подключение z-значения в их числовом порядке дают рекурсивную Z-образную кривую. Двумерные Z-значения также называются квадратичными.
Z-значения x описываются как двоичные числа из Последовательность Мозера – де Брейна, имея ненулевые биты только в их четных позициях:
x [] = {0b000000, 0b000001, 0b000100, 0b000101, 0b010000, 0b010001, 0b010100, 0b010101}
Сумма и разность двух x рассчитываются с использованием побитовые операции:
x [i + j] = ((x [i] | 0b10101010) + x [j]) & 0b01010101x [i-j] = ((x [i] & 0b01010101) - x [j]) & 0b01010101, если i> = j
Это свойство можно использовать для смещения Z-значения, например, в двух измерениях, координаты вверху (уменьшение y), внизу (увеличение y), влево (уменьшение x) и вправо (увеличение x) от текущего значения Z z находятся:
top = (((z & 0b10101010) - 1) & 0b10101010) | (z & 0b01010101) bottom = (((z | 0b01010101) + 1) & 0b10101010) | (z & 0b01010101) left = (((z & 0b01010101) - 1) & 0b01010101) | (z & 0b10101010) right = (((z | 0b10101010) + 1) & 0b01010101) | (z & 0b10101010)
И вообще добавить два двумерных Z-значения ш и z:
сумма = ((z | 0b10101010) + (w & 0b01010101) & 0b01010101) | ((z | 0b01010101) + (w & 0b10101010) & 0b10101010)
Эффективное построение квадродеревьев
Z-упорядочение можно использовать для эффективного построения квадродерева для набора точек.[3] Основная идея состоит в том, чтобы отсортировать входной набор в соответствии с Z-порядком. После сортировки точки могут быть сохранены в двоичном дереве поиска и использованы напрямую, что называется линейным деревом квадрантов,[4] или их можно использовать для построения дерева квадрантов на основе указателя.
Входные точки обычно масштабируются в каждом измерении, чтобы быть положительными целыми числами, либо как представление с фиксированной точкой в диапазоне единиц [0, 1], либо в соответствии с размером машинного слова. Оба представления эквивалентны и позволяют находить ненулевой бит высшего порядка за постоянное время. Каждый квадрат в дереве квадрантов имеет длину стороны, равную степени двойки, и координаты углов, кратные длине стороны. Учитывая любые две точки, производный квадрат для двух точек - наименьший квадрат, покрывающий обе точки. Чередование битов из компонентов x и y каждой точки называется тасовать x и y, и может быть расширен до более высоких измерений.[3]
Точки можно сортировать в соответствии с их перемешиванием без явного чередования битов. Для этого для каждого измерения старший бит Эксклюзивный или координат двух точек для этого измерения. Затем измерение, для которого наиболее значимый бит является наибольшим, используется для сравнения двух точек для определения их порядка перемешивания.
Операция исключающее или маскирует биты более высокого порядка, для которых две координаты идентичны. Поскольку при перемешивании биты чередуются от более высокого порядка к более низкому порядку, идентифицируя координату с самым большим старшим значащим битом, идентифицирует первый бит в порядке перемешивания, который отличается, и эта координата может использоваться для сравнения двух точек.[5] Это показано в следующем коде Python:
def cmp_zorder(lhs, rhs) -> bool: "" "Сравните z-упорядочение." "" # Предположим, что объекты индексов lhs и rhs похожи на массивы. утверждать len(lhs) == len(rhs) # Будет содержать наиболее значимое измерение. MSD = 0 # Переберите другие измерения. за тусклый в классифицировать(1, len(lhs)): # Проверить, является ли текущий размер более значимым # сравнивая старшие биты. если less_msb(lhs[MSD] ^ rhs[MSD], lhs[тусклый] ^ rhs[тусклый]): MSD = тусклый возвращаться lhs[MSD] < rhs[MSD]
Один из способов определить, является ли самый старший бит меньшим, - это сравнить нижний предел логарифма с основанием 2 для каждой точки. Оказывается, следующая операция эквивалентна и требует только эксклюзивных операций или:[5]
def less_msb(Икс: int, у: int) -> bool: возвращаться Икс < у и Икс < (Икс ^ у)
Также можно сравнивать числа с плавающей запятой, используя ту же технику. В less_msb функция модифицируется, чтобы сначала сравнить показатели. Только когда они равны, стандарт less_msb функция, используемая на мантиссах.[6]
Как только точки расположены в отсортированном порядке, два свойства упрощают построение квадродерева: Первое - точки, содержащиеся в квадрате квадродерева, образуют непрерывный интервал в отсортированном порядке. Во-вторых, если более одного дочернего элемента квадрата содержат входную точку, квадрат является производный квадрат для двух соседних точек в отсортированном порядке.
Для каждой смежной пары точек вычисляется производный квадрат и определяется длина его стороны. Для каждого производного квадрата интервал, содержащий его, ограничен первым большим квадратом справа и слева в отсортированном порядке.[3] Каждый такой интервал соответствует квадрату в дереве квадрантов. Результатом этого является сжатое квадродерево, в котором присутствуют только узлы, содержащие входные точки или два или более дочерних элемента. При желании несжатое дерево квадрантов может быть построено путем восстановления отсутствующих узлов.
Вместо построения дерева квадрантов на основе указателя точки можно поддерживать в отсортированном порядке в структуре данных, такой как двоичное дерево поиска. Это позволяет добавлять и удалять точки за время O (log n). Два квадродерева можно объединить, объединив два отсортированных набора точек и удалив дубликаты. Местоположение точки может быть выполнено путем поиска точек, предшествующих и следующих за точкой запроса в отсортированном порядке. Если дерево квадрантов сжато, найденный узел-предшественник может быть произвольным листом внутри сжатого интересующего узла. В этом случае необходимо найти предшественника наименее общего предка точки запроса и найденного листа.[7]
Использование с одномерными структурами данных для поиска диапазона
Несмотря на хорошее сохранение местоположения, для эффективного поиска по диапазону необходим алгоритм для вычисления, исходя из точки, встречающейся в структуре данных, следующего Z-значения, которое находится в диапазоне многомерного поиска:
В этом примере запрашиваемый диапазон (Икс = 2, ..., 3, у = 2, ..., 6) обозначен пунктирным прямоугольником. Его максимальное значение по оси Z (MAX) равно 45. В этом примере значение F = 19 встречается при поиске структуры данных в направлении увеличения Z-значения, поэтому нам пришлось бы искать в интервале между F и MAX (заштрихованная область). Чтобы ускорить поиск, нужно вычислить следующее Z-значение, которое находится в диапазоне поиска, названное BIGMIN (36 в примере), и искать только в интервале между BIGMIN и MAX (значения, выделенные жирным шрифтом), таким образом пропуская большую часть заштрихованных площадь. Поиск в убывающем направлении аналогичен LITMAX, который является самым высоким Z-значением в диапазоне запроса ниже F. Проблема BIGMIN была впервые сформулирована, и ее решение показано в Tropf и Herzog.[8] Это решение также используется в UB-деревья ("GetNextZ-адрес"). Поскольку подход не зависит от выбранной одномерной структуры данных, по-прежнему существует свободный выбор структурирования данных, поэтому для работы с динамическими данными могут использоваться хорошо известные методы, такие как сбалансированные деревья (в отличие, например, от R-деревья где необходимы особые соображения). Точно так же эта независимость упрощает включение метода в существующие базы данных.
Иерархическое применение метода (в соответствии с имеющейся структурой данных), необязательно как в направлении увеличения, так и уменьшения, дает высокоэффективный поиск многомерного диапазона, который важен как для коммерческих, так и для технических приложений, например как процедура, лежащая в основе поиска ближайшего соседа. Z-порядок - один из немногих методов многомерного доступа, который нашел свое применение в коммерческих системах баз данных (База данных Oracle 1995,[9] Transbase 2000 [10]).
Еще в 1966 году Г. М. Мортон предложил Z-порядок для упорядочивания файлов статической двухмерной географической базы данных. Единицы площадных данных содержатся в одном или нескольких квадратичных кадрах, представленных их размерами и Z-значениями нижнего правого угла, размеры которых соответствуют иерархии Z-порядка в угловой позиции. С большой вероятностью переход к соседнему кадру выполняется за один или несколько относительно небольших шагов сканирования.
Связанные структуры
В качестве альтернативы Кривая Гильберта был предложен, поскольку он лучше сохраняет порядок и фактически использовался в оптимизированном индексе, S2-геометрии.[11] До S2 этого избегали, потому что вычисления несколько сложнее, что приводило к значительным накладным расходам процессора. Исходный код BIGMIN как для Z-кривой, так и для кривой Гильберта был описан в патенте H. Tropf.[12]
Для недавнего обзора многомерной обработки данных, включая, например, поиск ближайшего соседа, см. Ханан Саметучебник.[13]
Приложения
Линейная алгебра
В Алгоритм Штрассена умножение матриц основано на разделении матриц на четыре блока, а затем рекурсивном разделении каждого из этих блоков на четыре меньших блока, пока блоки не станут одиночными элементами (или, что более практично: до достижения матриц настолько малых, что последовательность Мозера – де Брейна тривиальна алгоритм быстрее). Расположение элементов матрицы в Z-порядке улучшает локальность и дает дополнительное преимущество (по сравнению с упорядочением по строкам или столбцам), заключающееся в том, что подпрограмме умножения двух блоков не требуется знать общий размер матрицы, а нужно знать только ее размер. размер блоков и их расположение в памяти. Эффективное использование умножения Штрассена с Z-порядком было продемонстрировано, см. Статью Валсалама и Скьеллума 2002 года.[14]
Buluç и другие. представить разреженная матрица структура данных, которая Z упорядочивает свои ненулевые элементы, чтобы включить параллельно умножение матрицы на вектор.[15]
Отображение текстуры
Немного GPU хранить карты текстур в Z-порядке для увеличения пространственного местонахождение ссылки в течение растеризация с отображением текстуры. Это позволяет строки кеша для представления прямоугольных плиток, увеличивая вероятность того, что доступ к нему находится в кэше. В большем масштабе это также снижает вероятность дорогостоящих, так называемых «разрывов страниц» (т. Е. стоимость смены строк) в SDRAM / DDRAM. Это важно, потому что 3D-рендеринг включает произвольные преобразования (вращение, масштабирование, перспективу и искажение анимированными поверхностями).
Эти форматы часто называют взбитые текстуры или же закрученные текстуры. Также могут использоваться другие плиточные форматы.
Смотрите также
- Кривая заполнения пространства
- УБ-дерево
- Кривая Гильберта
- R-дерево Гильберта
- Пространственный индекс
- Geohash
- Местоположение ссылки
- Хеширование с сохранением местоположения
- Матричное представление
- Линейная алгебра
Рекомендации
- ^ "Абстрактная спецификация дискретных глобальных сетевых систем" (PDF). Открытый геопространственный консорциум. 2017.
- ^ Мортон, Г. М. (1966), Компьютерная база геодезических данных; и новый метод упорядочивания файлов (PDF), Технический отчет, Оттава, Канада: IBM Ltd.
- ^ а б c Bern, M .; Эппштейн, Д.; Тенг, С.-Х. (1999), «Параллельное построение квадродеревьев и качественных триангуляций», Int. J. Comput. Геом. Appl., 9 (6): 517–532, CiteSeerX 10.1.1.33.4634, Дои:10.1142 / S0218195999000303.
- ^ Гаргантини, I. (1982), "Эффективный способ представления квадродеревьев", Коммуникации ACM, 25 (12): 905–910, Дои:10.1145/358728.358741, S2CID 14988647.
- ^ а б Чан, Т. (2002), "Проблемы ближайших точек, упрощенные в ОЗУ", Симпозиум ACM-SIAM по дискретным алгоритмам.
- ^ Коннор, М .; Кумар, П. (2009), "Быстрое построение графов k-ближайших соседей для облаков точек", IEEE Transactions по визуализации и компьютерной графике (PDF)
- ^ Хар-Пелед, С. (2010), Структуры данных для геометрического приближения (PDF)
- ^ Tropf, H .; Герцог, Х. (1981), «Поиск многомерного диапазона в динамически сбалансированных деревьях» (PDF), Angewandte Informatik, 2: 71–77.
- ^ Gaede, Volker; Гюнтер, Оливер (1998), «Методы многомерного доступа» (PDF), Опросы ACM Computing, 30 (2): 170–231, CiteSeerX 10.1.1.35.3473, Дои:10.1145/280277.280279, S2CID 7075919.
- ^ Рамсак, Франк; Маркл, Фолькер; Фенк, Роберт; Циркель, Мартин; Эльхардт, Клаус; Байер, Рудольф (2000), "Интеграция UB-дерева в ядро системы баз данных", Int. Конф. на очень больших базах данных (VLDB) (PDF), стр. 263–272, архивировано с оригинал (PDF) на 2016-03-04.
- ^ "S2 Геометрия".
- ^ США 7321890, Тропф, Х., "Система баз данных и метод организации элементов данных в соответствии с кривой Гильберта", выпущенный 22 января 2008 г..
- ^ Самет, Х. (2006), Основы многомерных и метрических структур данных, Сан-Франциско: Морган-Кауфманн.
- ^ Винод Валсалам, Энтони Скьеллум: структура для высокопроизводительного умножения матриц на основе иерархических абстракций, алгоритмов и оптимизированных низкоуровневых ядер. Параллелизм и вычисления: практика и опыт 14 (10): 805-839 (2002).[1][2]
- ^ Булуч, Айдын; Fineman, Джереми Т .; Фриго, Маттео; Гилберт, Джон Р .; Лейзерсон, Чарльз Э. (2009). Параллельное умножение разреженных матриц-векторов и матриц-транспонированных векторов с использованием сжатых разреженных блоков (PDF). ACM Symp. по параллелизму в алгоритмах и архитектурах. CiteSeerX 10.1.1.211.5256.
внешняя ссылка
- STANN: библиотека для приблизительного поиска ближайшего соседа с использованием кривой Z-порядка.
- Способы программирования битового чередования, Шон Эрон Андерсон, Стэнфордский университет