Лекція Загальний алгоритм аналізу Data Mining icon

Лекція Загальний алгоритм аналізу Data Mining




Скачати 119.62 Kb.
НазваЛекція Загальний алгоритм аналізу Data Mining
Дата конвертації30.03.2014
Розмір119.62 Kb.
ТипЛекція

Лекція 2. Загальний алгоритм аналізу Data Mining


Методика аналізу з використанням Data Mining базується на різних алгоритмах видобутку закономірностей у вхідних даних. Таких алгоритмів є багато, але вони не можуть гарантувати якісного кінцевого результату, бо існує багато чинників, що можуть вплинути на сам хід аналізу.

Для якісного аналізу будь-яких даних слід дотримуватися загальної схеми використання DM


  1. Висування гіпотез

  2. Збір та систематизація даних

  3. Підбір адекватної моделі

  4. Тестування та інтерпретація отриманих даних

  5. Використання у реальних умовах

Ця схема не залежить від предметної області та сфери діяльності. Вона є універсальної.

1. Висування гіпотез


Гіпотезою тут будемо вважати припущення про вплив певних факторів на процес, що досліджується.

Автоматизувати процес висування гіпотез є вкрай складно, тому, цю задачу мають вирішувати експерти – фахівці в предметній області.

Слід довіритися їх досвіду та здоровому глузду, максимально використати ці знання про предмет досліджень і зібрати як найбільше гіпотез/припущень.

Зазвичай, добрі результати надають тактики «круглого столу» або «мозкової атаки». На початку слід зібрати та систематизувати всі ідеї, а оцінювати їх пізніше. В результаті повинен бути складений перелік з описів всіх факторів досліджуваного об’єкту.

Наприклад, Для задачі прогнозування попиту товару потрібно скласти перелік факторів, що впливатимуть на об’єкт і експертно оцінити суттєвість кожного з них. Така оцінка не є вирішальною, але від неї починають відштовхуватися.

Сезон 100

День тижня 80

Об’єм продажів за попередні тижні 100

Об’єм продажів за аналогічний період минулого року 95

Рекламна компанія 60

Маркетингові заходи 40

Якість продукції 50

Бренд 25

Коливання ціни від середньо ринкової 60

Наявність подібного товару в конкурентів 15

Згодом, під час аналізу, може з’ясуватися, що фактор, який експерти оцінили як важливий, буде мати незначний вплив на процес і навпаки.

2. Збір та систематизація даних

2.1. Збір даних


Для аналізу потрібно як найбільше даних, бо це надає можливість оцінити вплив максимальної кількості показників. Згодом, простіше відхилити певну частину даних, аніж розпочинати новий збір.

Методи збору

1. Отримання даних з внутрішніх джерел


Це не складно, бо така інформація зазвичай зберігається в облікових системах у табличній формі, де існують різні механізми отримання звітів та експортування даних.

2. Отримання відомостей з непрямих даних.


Наприклад, потрібно оцінити реальний фінансовий стан мешканців певного регіону. Існує кілька категорій товару (авто), що різняться за ціною – для незаможних, середнього класу, заможних. Якщо отримати звіт про продажі товару в цьому районі і проаналізувати пропорції, то робиться висновок: чим більшим є відсоток продажів дорогого товару, тим заможнішими є мешканці.

3. Використання відкритих джерел


До широкого загалу надаються статистичні збірники, звіти корпорацій, результати маркетингових досліджень, соціологічні опитування.

4. Влаштування власних маркетингових досліджень та подібних заходів по збору даних


Це зазвичай є дорогим заходом, але доволі ефективним.

5. Наповнення даних згідно експертних оцінок співробітниками організації


Слід оцінити вартість збору даних, що потрібні для аналізу. Одні дані беруться з публічних інформаційних джерел, інші мають бути оплачені, дані про діяльність конкурентів можуть бути доволі дорогими.

Вартість збору інформації різними методами суттєво різниться за ціною та витраченим часом, тому, слід вважати на співвідношення теперішніх витрат з майбутніми результатами.

Від даних, які експерти вважають несуттєвими, певна річ, можна відмовитися, але від значущих даних не можна, бо аналіз буде базуватися у цьому випадку на другорядних факторах і відповідно, отримана модель буде надавати нестабільні та невірні результати.

2.2. Сховища даних


Для збереження зібраних даних в DM широко використовуються сховища даних, куди з певною заданою регулярністю надходить вся необхідна інформація, яка є попередньо систематизованою ті відфільтрованою.

^ Сховище даних – це предметно-орієнтований, інтегрований, прив’язаний до часу, незмінний збір даних для підтримки процесу прийняття рішень.

  • Предметна орієнтація – дані об’єднуються у категорії

  • Інтегрованість – дані задовольняють вимогам всього підприємства, а не лише певним гілкам бізнесу. Отже, звіти, що генеруються для різних аналітиків будуть містити однакові результати.

  • Прив’язка до часу – всі дані мають бути історичними. Параметр часу є обов’язковим для сховища даних.

  • Незмінність – дані у сховище лише долучаються і в подальшому не змінюються



Для організації та експлуатації інформаційного сховища створюють спеціальне ПЗ, що полегшує наповнення та систематизацію даних.

Створення сховища даних є доволі тривалим та дорогим процесом, але воно того варто. Збільшення додаткової інформації про реальний процес дозволяє значно покращити якість отриманих результатів.

Хоча в сховищі даних не реалізуються технології аналізу, воно є тою базою, на якій потрібно будувати аналітичну систему.

За відсутності сховища даних на збір та систематизацію потрібної для аналізу інформації буде витрачено велику частину часу, що зрештою знецінить всі переваги аналізу. Бо, одною з ключових ознак будь-якої аналітичної системи є можливість швидко отримати результат.

2.3. Формалізація даних


Для закладання даних у сховище слід визначити спосіб їх представлення, тобто вибрати один з чотирьох видів:

  • Число

  • Символьний рядок

  • Дата

  • Логічна змінна (так/ні)

Деякі дані доволі просто формалізуються, наприклад, об’єм продажів у гривнях – це певне число

Але, іноді представити фактор доволі складно, наприклад у випадку з якісними характеристиками. Якість – поняття складне, і якщо цей фактор є важливим, то варто обрати доцільний спосіб формалізації.

Наприклад, оцінювати якість за кількістю бракованих виробів на 1000 одиниць продукції або зробити кілька категорій якості відмінно/добре/задовільно/незадовільно

Зібрані дані перетворюються до єдиного формату (dbf або txt з розділенням). Дані мають бути уніфікованими і інформація повинна описуватися однаково.

Оскільки дані надходять з різних джерел, слід вважати на наступне:

  • Різні формати представлених чисел (цілі, дробові)

  • Різні формати дати (день/місяць/рік або рік/місяць/день)

  • Різні одиниці вимірювання (дюйми/метри або кілограми/тони)

2.4. Очищення даних


Є важливим етапом перед закладанням у сховище

Типи помилок


  • Протиріччя інформації

  • Пропущені дані

  • Аномальні значення

  • Шум

  • Помилки при введенні даних

Самим надійним способом є звичайне виправлення конкретної помилки особисто людиною, але за великих обсягів даних це буде проблематичним. Тому, варто приділити більшої уваги вирішенню таких проблем в автоматичному режимі за мінімальної участі людини.

Протиріччя інформації


Наприклад,

Ніжна Любов Петрівна - чоловік

Для виправлення можна застосувати 2 підходи:

  • При виявленні такого запису його знищують

  • Виправляють

Можна обчислити ймовірність появи хибних даних і обрати відповідний підхід

Пропущені дані


Це доволі серйозна проблема для сховищ. Для виправлення можна застосовувати

а) ^ Апроксимація чи екстраполяція. Якщо в певній точці немає даних, то береться її окіл і за відповідними формулами обчислюється значення у цій точці. Добре спрацьовує для впорядкованих даних (наприклад, щоденні продажі продуктів).

б) ^ Визначення най вірогіднішого значення. Для цього береться не окіл точки, а всі дані. Добре працює для невпорядкованих даних, коли не можна визначити, що є околом для точки.

Аномальні значення


Доволі часто в житті відбуваються надзвичайні події, які не є притаманними для повсякденного процесу. Тому, такі значення краще скорегувати, бо будь яка аномалія під час аналізу буде сприйматися як цілком нормальне значення, а результат буде спотворено.

Для усунення аномалій використовують методи, які є стабільними до сильних збурень. Існуючі дані набувають певних меж і при виході з них:

  • Значення вилучається (разом з рядком)

  • Змінюється на найближче граничне значення

Шум


Майже завжди у реальному житті є присутнім шум, він не надає жодної корисної інформації і заважає чіткому відображенню справжнього значення. Для усунення шуму застосовують

а) ^ Спектральний аналіз. Можна вилучити високочастотні складові даних (часті та незначні коливання навколо основного сигналу). Ширина спектру регулюється.

б) ^ Авторегресійні методи. Активно застосовуються при аналізі часових рядів, там знаходиться функція, що описує процес + шум. Після цього шум можна забрати і залишити основний сигнал.

Помилки при введенні даних


Це й описки й невідповідність форматів й пропущені коми або інше спотворення.

  • а) Перед внесенням даних до сховищ відбувається перевірка форматів.

  • б) Застосування систем перевірки орфографії

Отже, Забруднені дані є доволі великою проблемою


На вході сміття – На виході сміття

Тому, в цьому напрямку має бути постійна робота. В ідеалі, на вході до сховища мав би бути певний шлюз з реалізацією кількох фільтрів.

Методи очищення суттєво залежать від предметної області. Для прикладу, що для одних завдань є шумом, для інших цінною інформацією

2.5 Представлення та мінімальні об’єми даних


Для аналізу предметної області дані мають бути впорядкованими.

Впорядковані дані


Таки дані потрібні для вирішення задач прогнозування. Однією з ознак даних має бути час, тобто це мають бути історичні дані



Дата

Частота закупівель

Об’єм продажів (грн.)

1

01.09.2012

256

10 000

2

02.09.2012

270

10 500

Кожному стовпцю відповідає один фактор, в кожен рядок заносяться події з єдиним інтервалом між рядками. Якщо для процесу притаманна сезонність/циклічність, тоді потрібно мати дані принаймні за один повний сезон/цикл.

Максимальний час прогнозування залежить від об’єму даних

  • Дані за 1-2 роки – прогноз максимум на 1 місяць

  • Дані за 2-3 роки – прогноз максимум на 3 місяць

Невпорядковані дані


Потрібні для задач, де часовий фактор не є важливим і ситуація є статичною. Наприклад, для оцінювання кредитоспроможності, діагностики, сегментації споживачів.



Стаж роботи

Наявність авто

Кредит (грн)

1

> 5 РОКІВ

Є

15 000

2

< 5 РОКІВ

Немає

10 000

Кількість прикладів має бути значно більшою від кількості факторів. Інакше, є ймовірність, що випадковий фактор буде мати суттєвий вплив на отриманий результат. Якщо немає можливості збільшити кількість прикладів, тоді слід зменшити кількість факторів і лишити самі суттєві.

Бажано, щоб дані охоплювали різні ситуації реального процесу, а пропорції різних прикладів (прецендентів) мають відповідати реальному процесу. Наприклад, системи діагностики мають мати відомості і про здорових людей, інакше система буде вважати, що існують лише хворі люди.

Транзакційні дані


Використовують в алгоритмах пошуку асоціативних правил. Такий метод часто називають «аналізом споживчого кошику». Транзакція, це кілька об’єктів або даних, що згруповані в логічно пов’язану одиницю. Часто даний підхід використовується для аналізу покупок (чеків) в супермаркетах. Такж, це може бути продажа туристичних турів з набором відповідних послуг (візи, трансфер, гід тощо).

При такому методі знаходяться залежності типу

Якщо відбулася подія А, то з певною ймовірністю відбудеться подія Б

Транзакційні дані для аналізу слід сформувати наступним чином

Код транзакції

Товар

10200

Йогурт «Гармонія», 0.5

10200

Батон «Сихівський»

10201

Вода «Моршинська», 1.5л.

10201

Цукор, 1 кг.

10201

Хліб «Карпатський»

Код транзакції відповідає коду чеку, рахунку чи накладної. Товари з однаковим кодом вважаються разовою покупкою.

Таке представлення використовують для роботи звичайних асоціативних правил, де існують зв’язки між різними об’єктами.

Якщо купили йогурт «Гармонія», то куплять й батон «Сихівський».

Існує ще алгоритм пошуку узагальнених асоціативних правил, коли шукається зв’язок не лише між об’єктами, але і між групами об’єктів. Наприклад,

Якщо купили батон «Сихівський», то куплять щось з йогуртів.

Для пошуку узагальнених асоціативних правил потрібно підготувати додаткову інформацію з деревом відношень між об’єктами – ієрархією груп

ІД

ІД предка

Об’єкт

1




Хлібобулочні вироби

2

1

Хліб

3

1

Булки

4

2

Батон «Сихівський»

5

2

Хліб «Карпатський»

6




Молочні продукти

7

6

Молоко

8

6

Йогурти

9

8

Йогурт «Гармонія»

10

8

Йогурт «Молокія»

  • ІД – унікальний номер об’єкту

  • ІД предка – номер батьківського об’єкту.

Якщо об’єкт є кореневим, то це поле буде пустим. В полі об’єкти знаходяться як групи, так і товари

Таблицю ієрархії можна представити у вигляді графіку



Аналіз транзакцій доцільно проводити на великому обсязі даних, інакше можуть траплятися статистично необґрунтовані правила.

Алгоритми пошуку асоціативних зв’язків мають добрі властивості щодо масштабованості і спроможні обробляти величезні об’єми даних.

Приблизне відношення між кількістю об’єктів та об’ємом даних

  • 300-500 об’єктів – більше за 10 00транзакцій

  • 500- 1000 об’єктів – більше за 30 000 транзакцій

Якщо кількість транзакцій є недостатньою, можна зменшити кількість об’єктів аналізу, наприклад, їх можна згрупувати.

3. Побудова та підбір адекватної моделі


Існує багато алгоритмів побудови моделей, кожен з них має свої обмеження і вирішує певний клас задач, тому на практиці цілком є прийнятним комбінування різних алгоритмів.

Але, чим швидше отриману модель можна застосувати практично, тим швидше можна оцінити її якість.

Загальні рекомендації щодо аналізу


  • Приділити більшої уваги до очищення даних. Якнайповніше застосовувати попередню обробку

  • Комбінувати різні алгоритми для побудови моделей. Це дозволяє ширше розглядати поставлену проблему.

  • Не намагатися відразу досягнути абсолютної точності. Модель варто використовувати відразу після отримання перших позитивних результатів, бо все одно ідеальних результатів досягнути неможливо. Це дозволяє швидше мати практичну віддачу. Реальний результат можна оцінити лише на практиці. Модель можна вдосконалювати й далі, але вже враховувати отримані результати

  • Якщо прийнятні результати не досягаються, слід повернутися на попередні кроки аналізу. Помилки можна зробити на будь-якому кроці, наприклад, некоректно сформульовано гіпотезу або виникли проблеми зі збором даних.

4. Тестування та інтерпретація отриманих результатів


Для оцінювання адекватності отриманих результатів слід залучати експертів з предметної області. Як і висування гіпотез, так і інтерпретація моделі повинні робитися експертами, що мають глибинне розуміння процесу, яке є значно ширшим ніж зібрані дані для аналізу.

Можна скористатися формальними способами оцінювання якості моделі, зокрема: тестування отриманої моделі на різних вибірках, де можна спостерігати:

  • Результати будуть якісними при тестуванні даних, на яких модель побудована.

  • На інших, нових даних, які модель не використовувала для навчання (побудови) губляться властивості узагальнення і можна отримати погані результати.

5. Використання у реальних умовах


Потрібно чим раніше після досягнення прийнятних результатів, використовувати модель в реальних умовах.

На цьому DM-проект не завершується, бо модель вдосконалюється, дані оновлюються, а вимоги до точності підвищуються.





Схожі:

Лекція Загальний алгоритм аналізу Data Mining icon7. Технологія інтелектуального аналізу даних Data Mining
Комп'ютерні технології з організацією інтелектуальних обчислень переживають свій розквіт. Data Mining – це автоматизований процес...
Лекція Загальний алгоритм аналізу Data Mining iconЛекція Що таке Data Mining?
«За останні роки, коли, прагнучи до підвищення ефективності І прибутковості бізнесу, при створенні бд всі стали користуватися засобами...
Лекція Загальний алгоритм аналізу Data Mining iconДокументи
1. /DATA/10_ДАД.txt
2. /DATA/10_САД.txt
Лекція Загальний алгоритм аналізу Data Mining iconАлгоритм и его свойства Алгоритм
Каждый алгоритм предполагает наличие некоторых входных данных и приводит за ограниченное время к определённым
Лекція Загальний алгоритм аналізу Data Mining iconТема Теоретичні основи фінансового аналізу Необхідність та сутність фінансового аналізу. Завдання фінансового аналізу. Напрямки та принципи фінансового аналізу. Види аналізу (зовнішній та внутрішній)
Методи та прийоми фінансового аналізу: горизонтальний, вертикальний, трендовий аналіз, аналіз відносних показників порівняльний та...
Лекція Загальний алгоритм аналізу Data Mining iconАлгоритм решения задач. Расчёты по химическим уравнениям
Составьте уравнение реакции, о которой идёт речь в условии, используя алгоритм написания уравнений реакций
Лекція Загальний алгоритм аналізу Data Mining iconІнтерактивні технології на уроках інформатики на тему: I. Мотивація навчальної діяльності учнів
Учитель пропонує учням сформулювати алгоритм "Ранок школяра". Спільними зусиллями учні формулюють орієнтовний алгоритм
Лекція Загальний алгоритм аналізу Data Mining iconЛекція Empresarios y ejecutivos españoles. 2 Лекція Punto com
Громова Н. М., Деева Т. М. Ваш зарубежный партнер (переписка, документация, контракты), Москва, 1992. 234с
Лекція Загальний алгоритм аналізу Data Mining iconГод рождения Data of birth

Лекція Загальний алгоритм аналізу Data Mining icon1- data Prosesi Kullanan işçiler

Додайте кнопку на своєму сайті:
Документи


База даних захищена авторським правом ©te.zavantag.com 2000-2017
При копіюванні матеріалу обов'язкове зазначення активного посилання відкритою для індексації.
звернутися до адміністрації
Документи