WikiDer > Машиночитаемый документ
А машиночитаемый документ это документ чей контент может быть легко обработан компьютеры. Такие документы отличаются от машиночитаемые данные в силу наличия достаточной структуры для обеспечения необходимого контекста для поддержки бизнес-процессов, для которых они созданы.
Определение
Данные без контекст (использование языка) бессмысленна и лишена четырех основных характеристик заслуживающего доверия деловые записи указано в ISO 15489 Информация и документация - Управление записями:[1]
- Надежность
- Подлинность
- Честность
- Удобство использования
Подавляющая часть информации неструктурированные данные и, с точки зрения бизнеса, это означает, что он «незрелый», т. е. Уровень 1 (хаотичный) Модель зрелости возможностей. Такая незрелость ведет к неэффективности, снижает качество и ограничивает эффективность. Неструктурированная информация также не подходит для ведение документации функции, предоставляет неадекватные свидетельство в юридических целях увеличивает стоимость открытие в судебный процесс, и делает доступ и использование излишне обременительным в рутинной, постоянной деловые процессы.
Машиночитаемость имеет как минимум четыре аспекта:
- Во-первых, слова или фразы должны быть дискретно разграничены (помечены), чтобы компьютерное программное обеспечение и / или логику оборудования можно было применить к ним как к отдельным концептуальным элементам.
- Во-вторых, следует указать семантику каждого элемента, чтобы компьютеры могли помочь людям достичь общего понимания их значений и потенциальных возможностей использования.
- В-третьих, если также указаны отношения между отдельными элементами, компьютеры могут автоматически применять к ним выводы, тем самым еще больше освобождая людей от бремени попыток понять их, особенно в целях исследования, открытия и анализа.
- В-четвертых, если также указаны структуры документов, в которых присутствуют элементы, человеческое понимание еще больше улучшится, и данные станут более надежными для юридических и деловых целей.
Еще в 1983 году США Счетная палата правительства (GAO) начал подчеркивать преимущества машиночитаемой информации.[2] Еще раньше, в 1981 году, GAO начало сообщать о проблеме неадекватной практики ведения документации в федеральном правительстве США.[3] Такие недостатки присущи не только правительству, а достижения в области информационных технологий означают, что большая часть информации теперь «рождается в цифровом виде» и, следовательно, потенциально гораздо легче управлять с помощью автоматизированных средств.[4] Тем не менее, в показаниях Конгрессу в 2010 году GAO подчеркнуло проблемы с управлением электронными записями, и совсем недавно, в 2015 году, GAO продолжало сообщать о несоответствиях в деятельности агентств исполнительной ветви в выполнении требований к управлению записями.[5][6] Более того, более чем через два десятилетия после крупной и ранее весьма уважаемой аудиторской фирмы, Артур Андерсен, встретил свою кончину из-за скандала с уничтожением документации, практика ведения документации стала центральной проблемой на президентских выборах 2016 года.
4 января 2011 года президент Обама подписал H.R. 2142, Закон о деятельности и результатах правительства (GPRA) Закон о модернизации 2010 г. (GPRAMA), ставший законом P.L. 111-352. Раздел 10 GPRAMA требует, чтобы федеральные агентства США публиковали свои стратегические планы и планы производительности и отчеты в машиночитаемом формате с возможностью поиска.[7]Дополнительно в 2013 году он выпустил Распоряжение 13642, Сделать открытую и машиночитаемую - новый стандарт для правительственной информации в целом.[8]28 июля 2016 г. Управление управления и бюджета (OMB) после включения в пересмотренный выпуск Циркуляра A-130 указание агентствам использовать открытые машиночитаемые форматы,[9] и публиковать «общедоступную информацию в Интернете таким образом, чтобы способствовать ее анализу и повторному использованию для максимально широкого диапазона целей»,[10] Это означает, что информация является общедоступной и машиночитаемой. 14 января 2019 года президент Трамп подписал закон HR 4174,[11] то ОТКРЫТЫЙ Закон о государственных данных (OGDA), который кодифицирует в законе требование к агентствам предоставлять свои общедоступные данные в машиночитаемом формате. 28 июня 2019 г. в Циркуляре A-11[12] OMB выразило намерение начать соблюдать раздел 10 GPRAMA.[13]
В поддержку такого направления политики технический прогресс делает возможным более эффективное управление и использование машиночитаемых электронных записей. Документно-ориентированные базы данных были разработаны для хранения, извлечения и управления документно-ориентированной информацией, также известной как полуструктурированные данные. Расширяемый язык разметки (XML) является консорциумом World Wide Web (W3C) Рекомендация устанавливая правила кодирования документов в формате, который одновременно человек читаемый и машиночитаемый. Много Редактор XML были разработаны инструменты, и большинство, если не все основные приложения информационных технологий, в большей или меньшей степени поддерживают XML. Тот факт, что XML сам по себе является открытым стандартным машиночитаемым форматом, позволяет разработчикам приложений сделать это относительно легко.
Прилагаемая W3C схема XML (XSD) Рекомендация определяет, как формально описывать элементы в документе XML. Что касается спецификации схем XML, Организация по развитию стандартов структурированной информации (ОАЗИС) - ведущий организация по разработке стандартов. Однако многие технические разработчики предпочитают работать с JSON, а также для определения структуры данных JSON для проверки, документирования и контроля взаимодействия, Схема JSON был разработан Инженерная группа Интернета (IETF).
В Формат переносимого документа (PDF) - это формат файла, используемый для представления документов способом, независимым от прикладного программного обеспечения, оборудования и операционных систем. Каждый PDF-файл инкапсулирует полное описание представления документа, включая текст, шрифты, графику и другую информацию, необходимую для его отображения. PDF / A является стандартизированной ISO версией PDF, специально предназначенной для использования при архивировании и долгосрочном хранении электронных документов. PDF / A-3 позволяет встраивать другие форматы файлов, включая XML, в документы, соответствующие PDF / A, тем самым потенциально обеспечивая лучшую читаемость как для человека, так и для машины. W3C's XSL-FO (Объекты форматирования XSL) язык разметки обычно используется для создания файлов PDF.
Метаданные, данные о данных, могут использоваться для организации электронных ресурсов, обеспечения цифровой идентификации и поддержки архивирования и сохранения ресурсов. В хорошо структурированных, машиночитаемых электронных записях содержание может быть перепрофилированный как данные, так и метаданные. В контексте систем электронного учета термины «управление» и «метаданные» практически синонимичны. При наличии надлежащих метаданных функции управления записями можно автоматизировать, тем самым снижая риск кража доказательств и другие мошеннические манипуляции с записями. Более того, такие записи можно использовать для автоматизации процесса аудиторская проверка данные хранятся в базы данных, тем самым снижая риск возникновения единичных точек отказа, связанных с Макиавеллианский концепция единственный источник истины.
Блокчейн (база данных) это новая технология для ведения постоянно растущих списков записей, защищенных от подделки и изменения. Ключевой особенностью является то, что каждый узел в децентрализованной системе имеет копию блокчейна, поэтому нет единая точка отказа подвергается манипуляциям и мошенничество.
Смотрите также
- Будапештская декларация о машиносчитываемых проездных документах
- Сравнение редакторов XML
- Четыре угла (закон)
- Честность и особенно Целостность данных
- Связанные данные
- Машиночитаемый паспорт
- Язык разметки
- Открытые данные
- Надежность (статистика), Целостность данных, Надежность (компьютерные сети), и Надежность (методы исследования)
- Язык разметки стратегии (StratML)
- Структурированный документ
- Тег (метаданные)
- Универсальный деловой язык (UBL)
- XBRL (Расширяемый язык бизнес-отчетности)
Рекомендации
- ^ «Руководство NARA по управлению веб-записями». Национальный архив. 15 августа 2016 г.
- ^ «Лучшее использование информационных технологий может снизить нагрузку на федеральные документы» (PDF). gao.gov. 1983-04-11. Получено 2019-07-25.
- ^ «ФЕДЕРАЛЬНОЕ УПРАВЛЕНИЕ ЗАПИСЬМИ: История пренебрежения». gao.gov. 1981-02-24. Получено 2016-09-08.
- ^ «Определение« рожденных цифровыми »: эссе Рики Эрвея, OCLC Research» (PDF). oclc.org. 2010-11-30. Получено 2016-09-08.
- ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: проблемы управления электронными записями, заявление Валери К. Мелвин, директора по вопросам управления информацией и человеческого капитала» (PDF). gao.gov. 2010-06-17. Получено 2016-09-08.
- ^ «УПРАВЛЕНИЕ ИНФОРМАЦИЕЙ: необходимы дополнительные действия для выполнения требований Директивы об управлении государственными записями». gao.gov. 2015-05-14. Получено 2016-09-08.
- ^ «GPRAMA SEC. 10. ФОРМАТ ПЛАНОВ И ОТЧЕТОВ». congress.gov. 2011-01-04. Архивировано из оригинал на 2016-04-13. Получено 2016-09-08.
- ^ «Исполнительное распоряжение 13642 в открытом стандартном машиночитаемом формате языка стратегической разметки». whitehouse.gov. 2013-05-09. Архивировано из оригинал на 2016-03-03. Получено 2016-09-08.
- ^ "Циркуляр StrategicPlan № A-130, Управление информацией как стратегическим ресурсом, цель d.5.a: совместимость, API и машиночитаемость".
- ^ «Циркуляр Стратегического плана № A-130, Управление информацией как стратегическим ресурсом, цель e.2.a: публикация».
- ^ Райан, Пол Д. (14 января 2019 г.). "Текст - H.R.4174 - 115-й Конгресс (2017-2018 гг.): Закон 2018 г. об основах разработки политики на основе фактов". www.congress.gov.
- ^ «ПОДГОТОВКА, ПОДАЧА И ИСПОЛНЕНИЕ БЮДЖЕТА» (PDF). whitehouse.gov. 2019-06-28. Получено 2019-07-25.
- ^ "Циркуляр StrategicPlan № A-130, Управление информацией как стратегическим ресурсом, объективная машиночитаемость".
Внешняя ссылка
- ОМБ М-13-13, Политика открытых данных: управление информацией как активом, которая требует от агентств использовать открытые, машиночитаемые стандарты формата данных.
- Руководство NARA по управлению веб-записями, Январь 2005 г., в котором описаны характеристики достоверных записей.
- Как сделать ставку в основе метода управления записями Capone Consultancy: передовые методы исправления нонсенс, не связанных с политикой, 9 марта 2015 г.
- Кодекс США, который включает термин "машиночитаемый" более 50 раз по состоянию на 10 сентября 2016 г.