Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save anonymous/7592cac0d8c1d467932582729ed4f393 to your computer and use it in GitHub Desktop.
Save anonymous/7592cac0d8c1d467932582729ed4f393 to your computer and use it in GitHub Desktop.
Таблица фактических измерений

Таблица фактических измерений - Требования по ГОСТ 6564-84, ГОСТ 6782.1-75, ГОСТ 6782.2-75, ОСТ 13-24-86



Только полноправные пользователи могут оставлять комментарии. TM Feed Хабрахабр Geektimes Тостер Мой круг Фрилансим. Хабрахабр Публикации Пользователи Хабы Компании Песочница. Итак, давайте попробуем создать свою первую OLAP систему. Но, прежде чем, потирая руки, запускать Business Intelligence Studio, предлагаю вначале создать хранилище данных хабра-голосов, так называемый Data Warehouse. Причин в этом несколько: Даже наоборот, денормализировав некоторые данные можно добиться более понятной схемы для построения куба, а также скорости загрузки данных в куб Немного теории. По сути, Data Warehouse может быть: Каким же должен быть Data Warehouse? Все очень просто — ваш Data Warehouse должен иметь структуру формы звездочки star model или снежинки snowflake model и состоять из фактов facts и измерений dimensions. Факты — это фактические записи records о каком-то процессе, который мы хотим анализировать, например, процесс голосования на Хабра, или процесс изменения цены товара на бирже. Очень часто факты содержат какие-нибудь числовые данные, например, фактическое значение голоса или цены. Измерения — это определяющие атрибуты фактов, и обычно отвечают на всякие вопросы: В основном, измерения имеют более описательный то есть текстовый характер, например, имя пользователя или название месяца, так как конечному пользователю будет намного легче воспринимать результаты описанные текстом например, название месяца , нежели цифрами номер месяца в году. Определив где у нас факты, а где измерения — очень просто построить модель звезды. В центре указываем нашу таблицу фактов, а лучами выводим измерения. Снежинка — это та же звезда , только измерения могут зависеть от измерений следующего уровня, а те в свою очередь могут включать еще уровни. Каждая из этих моделей имеет свои достоинства и недостатки и собственно выбор модели должен базироваться на требованиях к дизайну куба, скорости загрузки данных, дискового пространства и т. Естественно, конечные Data Warehouse обычно намного сложнее и состоят из нескольких звезд или снежинок, которые могут совместно использовать общие измерения. Перейдем к собственно разработке нашего Data Warehouse-а. Наша цель — анализ тенденций голосования на Хабре, нахождение закономерностей и трендов. Основные тенденции, которые мы хотим определить: Для наглядности, наша первая модель будет абсолютно простой — включим только то, что относится к голосованию и исключим все лишнее, включая время регистрации пользователей и факт того, кто именно запостил статью, а также время голосования только дата и остальные атрибуты все эти данные можно будет включить в следующих статьях и попробовать анализировать более сложные вещи. В итоге, имеем следующие таблицы: Таблица фактов FactHabravote — определяет кто, когда, за что и как именно проголосовал. Итоговая схема нашей звезды будет такой. А здесь исходный SQL скрипт, который создает и наполняет пока что только случайными данными наше хранилище. Ну вот, теперь все готово, чтобы загрузить данные в куб. До встречи в следующей статье. OLAP , Data Warehouse. Анализ и проектирование систем авторов , публикаций. Программирование 2,9k авторов , 6,5k публикаций. Python авторов , 1,8k публикаций. Open source 1k авторов , 2,3k публикаций. Разработка игр 1,2k авторов , 2,9k публикаций. Разработка под Windows авторов , публикации. Математика авторов , 1,1k публикаций. Разработка под Android 1k авторов , 2,2k публикаций. Разработка мобильных приложений 1k авторов , 2,8k публикаций. JavaScript 1,9k авторов , 4,1k публикаций. Такси и Uber поедут вместе 9k Добавить в закладки Vitalii Vitko Vitko карма. Жаль что данные случайны — думаю многим было бы интересно пOLAPать реальную статистику Хабра. OLAP — это тип информационных систем. SQL — язык такой. OLAP система вполне может выполнять sql- запросы. Очередной раз спасибо за просвещение… теперь хоть в вики заглянул чтобы посмотреть что такое OLAP. Это не есть хороший метод, ИМХО. Да и, думаю, вообще неинтересно и уныло использовать такие методы. Я хочу сказать, что много лучше было бы строить кубы на основе метаданных измерений, количество которых может быть произвольным, без использования таблицы для каждого измерения. А данные банально храняться в одной таблице, к которой обращаемся с помощью сгенерированных на основе взаимного расположения измерений и выбранных в них элементах SQL запросов. И при каждом запросе субд выполняет full scan одной большой таблицы? Забегая наперед, скажу, что, как минимум, начиная с Analysis Services — это стало возможно. Другое дело, что не зная наперед о структуре ваших данных, куб не сможет преагрегировать значения, а также вы не сможете эфективно использовать кэш сервера. Но насколько этот подход рационален? Смотря с какой стороны посмотреть. Это, однозначно, экономит вам дисковое пространство, но лимитирует вас в гибкости и скорости загрузки данных в куб. Или если само представление будет очень сложным с точки зрения запроса, загрузка данных в куб будет занимать много времени. Еще как аргумент — очень часто данные в куб берутся из нескольких источников, что делает невозможным использование только представлений. Например DBA какого нибудь ораклового сервера, где АБС-ка крутиться вам просто не разрешит создавать на реальной базе свои вьюшки и вообще выполнять какие-либо запросы. Мало ли чё вы там сджойните и как, а потом банк не сможет целый день работать. В таком случае можнл выгружать новые данные в плоские файлы, а оттуда забирать в хранилище. Я честно говоря тоже не понял смысла сферического коня в вакууме — где же здесь куб. Представляю, как быстро ляжет сервак, если данные о голосовании сделать из трех таблиц включая отдельную таблицу для таймстампа на 8 полей. А куб на картинке хорошо просматривается. Метки лучше разделять запятой. Сейчас Вчера Неделя ядерный CPU, а я не могу сдвинуть курсор 59,1k Интересные публикации Хабрахабр Geektimes. Микроконтроллеры в импульсных источниках питания GT. Linux Foundation представила бесплатный вводный онлайн-курс по Kubernetes. Такси и Uber поедут вместе. Google Developer Days приходит в Европу. В менеджере дополнений Mozilla Firefox используется Google Analytics GT. Hyperloop One впервые разогнала левитирующее шасси в техническом вакууме GT. Разделы Публикации Хабы Компании Пользователи Песочница. Информация О сайте Правила Помощь Соглашение Конфиденциальность. Услуги Реклама Тарифы Контент Семинары.


Статья 229 налогового кодекса рф
Друзья для свободных отношений
Номинальные и фактические размеры необработанной мягкой древесины. (США).
Люксор малина рязань расписание
Детский мир липецк каталог до 29 июня
Чем лечить кашель у грудничка отзывы
Ставится ли точка после кг
Получить перевод близко в москве адреса
Делаем магазин в контакте
Nautic spirit перевод
Санлайт каталог саратов
Оптические силы трех линз таковы 0 5
Номинальные и фактические размеры необработанной мягкой древесины. (США).
Расписание автобусов татышлы янаул
Аквамарис спрей для носа инструкция по применению
Причины отклонения от нормы поведения
Доступ к sd карте android 4.4
Типовые учебные планына 2016 учебный год
Требования по ГОСТ 6564-84, ГОСТ 6782.1-75, ГОСТ 6782.2-75, ОСТ 13-24-86
Нашли диму фото
Какая погода завтра вельск
Ебей айфон 6
Флажки на день рождения своими руками фото
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment