Вступ до Data Mining. Технології Data Mining Методи дослідження даних у Data Mining

Data Mining поділяються на дві великі групи за принципом роботи з вихідними навчальними даними. У цій класифікації верхній рівень визначається на підставі того, зберігаються дані після Data Mining або вони дистилюються для подальшого використання.

1. Безпосереднє використання даних, або збереження даних.

У цьому випадку вихідні дані зберігаються в явному деталізованому вигляді та безпосередньо використовуються на стадіях та/або аналізу винятків. Проблема цієї групи методів - за її використанні можуть виникнути складності аналізу надвеликих баз даних.

Методи цієї групи: кластерний аналіз, метод найближчого сусіда, метод k-найближчого сусіда, міркування за аналогією.

2. Виявлення та використання формалізованих закономірностей, або дистиляція шаблонів.

За технології дистиляції шаблонівОдин зразок (шаблон) інформації витягується з вихідних даних і перетворюється на деякі формальні конструкції, вид яких залежить від використовуваного методу Data Mining. Цей процес виконується на стадії вільного пошуку, У першої групи методів дана стадія в принципі відсутня. На стадіях прогностичного моделюванняі аналізу винятківвикористовуються результати стадії вільного пошуку, вони значно компактніші за самі бази даних. Нагадаємо, що конструкції цих моделей можуть бути трактованими аналітиком або нетрактовані ("чорними ящиками").

Методи цієї групи: логічні методи; методи візуалізації; методи крос-табуляції; методи, засновані на рівняннях.

Логічні методи, або методи логічної індукції, включають: нечіткі запити та аналізи; символьні правила; дерева рішень; генетичні алгоритми.

Методи цієї групи є, мабуть, найбільш интерпретируемыми - вони оформляють знайдені закономірності , здебільшого, у досить прозорому вигляді з погляду користувача. Отримані правила можуть включати безперервні та дискретні змінні. Слід зазначити, що дерева рішень можуть бути легко перетворені на набори символьних правил шляхом генерації одного правила шляхом від кореня дерева до його термінальної вершини. Дерева рішень та правила фактично є різними способами вирішення одного завдання та відрізняються лише за своїми можливостями. З іншого боку, реалізація правил здійснюється повільнішими алгоритмами , ніж індукція дерев рішень.

Методи крос-табуляції: агенти, баєсовські (довірчі) мережі, крос-таблична візуалізація. Останній метод не зовсім відповідає одній із властивостей Data Mining - самостійному пошуку закономірностейаналітичною системою. Однак, надання інформації у вигляді крос-таблиць забезпечує реалізацію основного завдання Data Mining - пошук шаблонів, тому цей метод можна вважати одним із методів Data Mining.

Методи з урахуванням рівнянь.

Методи цієї групи висловлюють виявлені закономірності як математичних виразів - рівнянь. Отже, можуть працювати лише з чисельними змінними, і змінні інших типів мають бути закодовані відповідним чином. Це обмежує застосування методів цієї групи, проте вони широко використовуються при вирішенні різних завдань, особливо завдань прогнозування.

Основні методи цієї групи: статистичні методи та нейронні мережі

Статистичні методи найчастіше застосовуються на вирішення завдань прогнозування. Існує безліч методів статистичного аналізу даних, у тому числі, наприклад, кореляційно-регресійний аналіз, кореляція рядів динаміки, виявлення тенденцій динамічних рядів, гармонійний аналіз.

Інша класифікація поділяє все різноманіття методів Data Mining на дві групи: статистичні та кібернетичні методи. Ця схема поділу ґрунтується на різних підходах до навчання математичних моделей.

Слід зазначити, що є два підходи віднесення статистичних методів до Data Mining. Перший протиставляє статистичні методи і Data Mining , його прибічники вважають класичні статистичні методи окремим напрямом аналізу даних. Відповідно до другого підходу, статистичні методи аналізу є частиною математичного інструментарію Data Mining. Більшість авторитетних джерел дотримується другого підходу.

У цій класифікації розрізняють дві групи методів:

  • статистичні методи, засновані на використанні усередненого накопиченого досвіду, який відображений у ретроспективних даних;
  • кібернетичні методи, що включають безліч різноманітних математичних підходів.

Недолік такої класифікації: і статистичні, і кібернетичні алгоритми тим чи іншим чином спираються зіставлення статистичного досвіду з результатами моніторингу поточної ситуації.

Перевагою такої класифікації є її зручність для інтерпретації - вона використовується в описах математичних засобів сучасного підходу до вилучення знаньз масивів вихідних спостережень (оперативних та ретроспективних), тобто. у завданнях Data Mining.

Розглянемо докладніше представлені вище групи.

Статистичні методи Data mining

У ці методи є чотири взаємопов'язані розділи:

  • попередній аналіз природи статистичних даних (перевірка гіпотез стаціонарності, нормальності, незалежності, однорідності, оцінка виду функції розподілу, її параметрів тощо);
  • виявлення зв'язків та закономірностей(лінійний та нелінійний регресійний аналіз, кореляційний аналіз та ін.);
  • багатовимірний статистичний аналіз (лінійний та нелінійний дискримінантний аналіз, кластерний аналіз, компонентний аналіз, факторний аналізта ін.);
  • динамічні моделіта прогноз на основі тимчасових рядів.

Арсенал статистичних методів Data Mining класифікований на чотири групи методів:

  1. Дескриптивний аналіз та опис вихідних даних.
  2. Аналіз зв'язків (кореляційний та регресійний аналіз, факторний аналіз, дисперсійний аналіз).
  3. Багатомірний статистичний аналіз (компонентний аналіз, дискримінантний аналіз, багатовимірний регресійний аналіз, канонічні кореляції та ін.).
  4. Аналіз часових рядів ( динамічні моделіта прогнозування).

Кібернетичні методи Data Mining

Другий напрямок Data Mining - це безліч підходів, об'єднаних ідеєю комп'ютерної математики та використання теорії штучного інтелекту.

data mining ) і на "грубий" розвідувальний аналіз, що становить основу оперативної аналітичної обробки даних (OnLine Analytical Processing, OLAP), тоді як одне з основних положень Data Mining - пошук неочевидних закономірностей. Інструменти Data Mining можуть знаходити такі закономірності самостійно і самостійно будувати гіпотези про взаємозв'язки. Оскільки саме формулювання гіпотези щодо залежностей є найскладнішим завданням, перевага Data Mining, порівняно з іншими методами аналізу, є очевидною.

Більшість статистичних методів виявлення взаємозв'язків у даних використовують концепцію усереднення за вибіркою, що веде до операціям над неіснуючими величинами, тоді як Data Mining оперує реальними значеннями.

OLAP більше підходить для розуміння ретроспективних даних, Data Mining спирається на ретроспективні дані для отримання відповідей на питання про майбутнє.

Перспективи технології Data Mining

Потенціал Data Mining дає "зелене світло" для розширення меж застосування технології. Щодо перспектив Data Mining можливі такі напрямки розвитку:

  • виділення типів предметних областей із відповідними їм евристиками, формалізація яких полегшить вирішення відповідних завдань Data Mining, що належать до цих областей;
  • створення формальних мов та логічних засобів, за допомогою яких будуть формалізовані міркування та автоматизація яких стане інструментом вирішення завдань Data Mining у конкретних предметних галузях;
  • створення методів Data Mining, здатних як витягувати з даних закономірності, а й формувати деякі теорії, що спираються на емпіричні дані;
  • подолання суттєвого відставання можливостей інструментальних засобів Data Mining від теоретичних досягнень у цій галузі.

Якщо розглядати майбутнє Data Mining у короткостроковій перспективі, то очевидно, що розвиток цієї технології найбільш спрямований до областей, пов'язаних із бізнесом.

У короткостроковій перспективі продукти Data Mining можуть стати такими ж звичайними та необхідними, як електронна пошта, і, наприклад, використовуватись користувачами для пошуку найнижчих цін на певний товар або найдешевших квитків.

У довгостроковій перспективі майбутнє Data Mining є справді захоплюючим – це може бути пошук інтелектуальними агентами як нових видів лікування різних захворювань, так і нового розуміння природи всесвіту.

Однак Data Mining таїть у собі і потенційну небезпеку - адже все більша кількість інформації стає доступною через всесвітню мережу, у тому числі і відомості приватного характеру, і все більше знань можна видобути з неї:

Нещодавно найбільший онлайновий магазин "Amazon" опинився в центрі скандалу з приводу отриманого ним патенту "Методи та системи допомоги користувачам при купівлі товарів", який є не що інше як черговий продукт Data Mining, призначений для збору персональних даних про відвідувачів магазину. Нова методика дозволяє прогнозувати майбутні запити на підставі фактів покупок, а також робити висновки щодо їх призначення. Мета даної методики - те, про що говорилося вище - отримання якомога більшої кількості інформації про клієнтів, у тому числі й приватного характеру (стаття, вік, переваги і т.д.). Таким чином, збираються дані про приватне життя покупців магазину, а також членів їхніх сімей, включаючи дітей. Останнє заборонено законодавством багатьох країн – збір інформації про неповнолітніх можливий там лише з дозволу батьків.

Дослідження відзначають, що існують як успішні рішення, що використовують Data Mining, так і невдалий досвід застосування цієї технології. Області, де застосування технології Data Mining, швидше за все, будуть успішними, мають такі особливості:

  • вимагають рішень, заснованих на знаннях;
  • мають навколишнє середовище, що змінюється;
  • мають доступні, достатні та значущі дані;
  • забезпечують високі дивіденди від правильних рішень.

Існуючі підходи до аналізу

Досить довго дисципліна Data Mining не визнавалася повноцінною самостійною областю аналізу даних, іноді її називають "задвірками статистики" (Pregibon, 1997).

На сьогоднішній день визначилося кілька точок зору на Data Mining. Прибічники однієї з них вважають його міражем, що відволікає увагу від класичного аналізу

Міністерство освіти та науки РФ

Федеральна державна бюджетна освітня установа вищої професійної освіти

«НАЦІОНАЛЬНИЙ ДОСЛІДНИЙ ТОМСЬКИЙ ПОЛІТЕХНІЧНИЙ УНІВЕРСИТЕТ»

Інститут Кібернетики

Напрямок Інформатика та обчислювальна техніка

Кафедра ВТ

Контрольна робота

з дисципліни інформатика та обчислювальна техніка

Тема: Методи Data Mining

Вступ

Data Mining. Основні поняття та визначення

1 Етапи у процесі інтелектуального аналізу даних

2 Компоненти систем інтелектуального аналізу

3 Методи дослідження даних у Data Mining

Методи Data Mining

1 Висновок асоціативних правил

2 Нейромережні алгоритми

3 Методи найближчого сусіда та k-найближчих сусідів

4 Дерева рішень

5 Алгоритми кластеризації

6 Генетичні алгоритми

Сфера застосування

Виробники засобів Data Mining

Критика методів

Висновок

Список літератури

Вступ

Результатом розвитку інформаційних технологій є колосальний обсяг даних, накопичених в електронному вигляді, зростаючий швидкими темпами. При цьому дані, як правило, мають різнорідну структуру (тексти, зображення, аудіо, відео, гіпертекстові документи, реляційні бази даних). Накопичені за тривалий термін дані можуть містити в собі закономірності, тенденції та взаємозв'язки, що є цінною інформацією під час планування, прогнозування, прийняття рішень, контролю за процесами. Однак людина фізично не здатна ефективно аналізувати такі обсяги неоднорідних даних. Методи традиційної математичної статистики тривалий час претендували на роль основного інструменту аналізу даних. Однак вони не дозволяють синтезувати нові гіпотези, а можуть використовуватися лише для підтвердження заздалегідь сформульованих гіпотез та “грубого” розвідувального аналізу, що є основою оперативної аналітичної обробки даних (online analytical processing, OLAP). Нерідко саме формулювання гіпотези виявляється найскладнішим завданням при проведенні аналізу для подальшого прийняття рішень, оскільки далеко не всі закономірності даних очевидні з першого погляду. Тому технології інтелектуального аналізу даних (Data mining) розглядаються як одна з найважливіших та перспективних тем для досліджень та застосування в галузі інформаційних технологій. Під інтелектуальним аналізом даних у разі розуміється процес визначення нових, коректних і потенційно корисних знань з урахуванням великих масивів даних. Так, MIT Technology Review охарактеризував Data Mining як одну з десяти технологій, що розвиваються, які змінять світ.

1. Data Mining. Основні поняття та визначення

Data Mining - це процес виявлення в «сирих» даних раніше невідомих, нетривіальних, практично корисних і доступних інтерпретації знань, необхідних прийняття рішень у різних сферах людської діяльності.

Суть і ціль технології Data Mining можна сформулювати так: це технологія, яка призначена для пошуку у великих обсягах даних неочевидних, об'єктивних та корисних на практиці закономірностей.

Неочевидні закономірності - це закономірності, які можна виявити стандартними методами обробки інформації чи експертним шляхом.

Під об'єктивними закономірностями слід розуміти закономірності, що повністю відповідають дійсності, на відміну від експертної думки, яка завжди є суб'єктивною.

Ця концепція аналізу даних передбачає, що:

§ дані можуть бути неточними, неповними (містити пропуски), суперечливими, різнорідними, непрямими, і при цьому мати гігантські обсяги; тому розуміння даних у конкретних додатках потребує значних інтелектуальних зусиль;

§ самі алгоритми аналізу даних можуть мати «елементи інтелекту», зокрема, здатність навчатися за прецедентами, тобто робити загальні висновки на основі приватних спостережень; розробка таких алгоритмів також потребує значних інтелектуальних зусиль;

§ процеси переробки сирих даних на інформацію, а інформації на знання не можуть бути виконані вручну, і вимагають автоматизації.

В основу технології Data Mining покладено концепцію шаблонів (паттернів), що відображають фрагменти багатоаспектних взаємин у даних. Ці шаблони є закономірності, властиві підвиборкам даних, які можуть бути компактно виражені у зрозумілій людині формі.

Пошук шаблонів проводиться методами, не обмеженими рамками апріорних припущень про структуру вибірки та вид розподілів значень аналізованих показників.

Важливою особливістю Data Mining є нестандартність і неочевидність шаблонів, що розшукуються. Іншими словами, засоби Data Mining відрізняються від інструментів статистичної обробки даних та засобів OLAP тим, що замість перевірки заздалегідь передбачуваних користувачами взаємозалежностей вони на підставі наявних даних здатні знаходити такі взаємозалежності самостійно та будувати гіпотези про їх характер. Виділяють п'ять стандартних типів закономірностей, що виявляються методами Data Mining:

· Асоціація - висока ймовірність зв'язку подій один з одним. Прикладом асоціації є товари в магазині, які часто купуються разом;

· Послідовність - висока ймовірність ланцюжка пов'язаних у часі подій. Прикладом послідовності є ситуація, коли протягом певного терміну після придбання одного товару буде з високим ступенем ймовірності придбано інший;

· Класифікація - є ознаки, що характеризують групу, до якої належить та чи інша подія або об'єкт;

· Кластеризація - закономірність, подібна до класифікації і відрізняється від неї тим, що самі групи при цьому не задані - вони виявляються автоматично в процесі обробки даних;

· тимчасові закономірності - наявність шаблонів у динаміці поведінки тих чи інших даних. Характерний приклад тимчасової закономірності - сезонні коливання попиту ті чи інші товари чи послуги.

1.1 Етапи у процесі інтелектуального аналізу даних

Традиційно виділяються такі етапи у процесі інтелектуального аналізу даних:

1. Вивчення предметної галузі, у якого формулюються основні мети аналізу.

2. Збір даних.

Попередня обробка даних:

a. Очищення даних - виключення протиріч та випадкових "шумів" з вихідних даних

b. Інтеграція даних - об'єднання даних із кількох можливих джерел у одному сховищі. Перетворення даних. На даному етапі дані перетворюються на форму, придатну для аналізу. Часто застосовується агрегація даних, дискретизація атрибутів, стиснення даних та скорочення розмірності.

4. Аналіз даних. У рамках цього етапу застосовуються алгоритми інтелектуального аналізу з метою вилучення патернів.

5. Інтерпретація знайдених патернів. Даний етап може включати візуалізацію витягнутих патернів, визначення дійсно корисних патернів на основі деякої функції корисності.

Використання нових знань.

1.2 Компоненти систем інтелектуального аналізу

Зазвичай у системах інтелектуального аналізу даних виділяються такі основні компоненти:

1. База даних, сховище даних чи інший репозиторій інформації. Це може бути одна або кілька баз даних, сховище даних, електронні таблиці, інші види репозиторіїв, над якими можуть бути очищення та інтеграція.

2. Сервер бази даних чи сховища даних. Зазначений сервер відповідає за вилучення істотних даних на підставі запиту користувача.

База знань. Це знання про предметну область, які вказують, як проводити пошук та оцінювати корисність результуючих патернів.

Служба добування знань. Вона є невід'ємною частиною системи інтелектуального аналізу даних та містить набір функціональних модулів для таких завдань, як характеризування, пошук асоціацій, класифікація, кластерний аналіз та аналіз відхилень.

Модуль оцінки патернів. Цей компонент обчислює заходи інтересу чи корисності патернів.

Графічний інтерфейс користувача. Цей модуль відповідає за комунікації між користувачем та системою інтелектуального аналізу даних, візуалізацію патернів у різних формах.

1.3 Методи дослідження даних у Data Mining

Більшість аналітичних методів, що використовуються в технології Data Mining – це відомі математичні алгоритми та методи. Новим в їх застосуванні є можливість їх використання при вирішенні тих чи інших конкретних проблем, обумовлена ​​можливостями технічних і програмних засобів. Слід зазначити, більшість методів Data Mining було розроблено у межах теорії штучного інтелекту. Розглянемо найбільш уживані методи:

Висновок асоціативних правил.

2. Нейромережні алгоритми, ідея яких заснована на аналогії з функціонуванням нервової тканини і полягає в тому, що вихідні параметри розглядаються як сигнали, що перетворюються відповідно до наявних зв'язків між «нейронами», а як відповідь, що є результатом аналізу, розглядається відгук всієї мережі на вихідні дані.

Вибір близького аналога вихідних даних із існуючих історичних даних. Називаються також методом найближчого сусіда.

Дерева рішень - ієрархічна структура, що базується на наборі питань, що мають на увазі відповідь «Так» або «Ні».

Кластерні моделі застосовуються для об'єднання подібних подій групи на підставі подібних значень декількох полів у наборі даних.

У наступному розділі докладніше опишемо перераховані вище методи.

2. Методи Data Mining

2.1 Висновок асоціативних правил

Асоціативні правила - це правила виду "якщо ..., то ...". Пошук таких правил у наборі даних виявляє приховані зв'язки, на перший погляд, ніяк не пов'язаних даних. Одним з найчастіше цитованих прикладів пошуку асоціативних правил є проблема пошуку стійких зв'язків у кошику покупця. Ця проблема полягає в тому, щоб визначити, які товари купуються покупцями разом, так, щоб фахівці з маркетингу могли відповідним чином розмістити ці товари в магазині для підвищення обсягу продажів.

Асоціативні правила визначаються як затвердження виду (X1, X2, ..., Xn) -> Y, де мається на увазі, що Y може бути в транзакції за умови, що X1, X2, ..., Xn присутні в цій же транзакції. Слід звернути увагу, що слово "може" має на увазі, що правило не є тотожністю, а виконується лише з деякою ймовірністю. Крім того, як Y може виступати набір елементів, а не лише один елемент. Імовірність перебування Y у транзакції, у якій є елементи X1, X2,…, Xn, називається достовірністю (confidence). Відсоток транзакцій, що містять правило, від загальної кількості транзакцій називається підтримкою (support). Рівень достовірності, що має перевищувати достовірність правила, називається цікавістю (interestingness).

Існують різні типи асоціативних правил. У найпростішій формі асоціативні правила повідомляють лише про наявність чи відсутність асоціації. Такі правила називаються булевими асоціативними правилами (Boolean Association Rule). Приклад такого правила: «покупці, які купують йогурт, так само купують олію з низьким рівнем жиру».

Правила, які збирають кілька асоціативних правил разом, називаються мультирівневими або узагальненими асоціативними правилами (Multilevel or Generalized Association Rules). При побудові таких правил елементи зазвичай групуються відповідно до ієрархії, і пошук ведеться на найвищому концептуальному рівні. Наприклад, "покупці, які купують молоко, так само купують хліб". У цьому прикладі молоко і хліб містять ієрархію різних типів і брендів, проте пошук на нижньому рівні не дозволить знайти цікаві правила.

Більш складним типом правил є кількісні асоціативні правила (Quantitative Association Rules). Цей тип правил шукається із застосуванням кількісних (наприклад, ціна) або категоріальних (наприклад, підлога) атрибутів, та визначений як ( , ,…,} -> . Наприклад, "покупці, чий вік знаходиться між 30 і 35 роками з доходом понад 75000 на рік, купують машини вартістю понад 20000".

Вищеперелічені типи правил не зачіпають той факт, що транзакції, за своєю природою, залежать від часу. Наприклад, пошук до того, як продукт був виставлений на продаж або після того, як він зник з ринку, несприятливо вплине на граничне значення підтримки. З урахуванням цього, введено концепцію атрибутного часу життя в алгоритмах пошуку тимчасових асоціативних правил (Temporal Association Rules).

Проблема пошуку асоціативних правил може бути в загальному вигляді розкладена на дві частини: пошук найпоширеніших наборів елементів, і генерація правил на основі знайдених найпоширеніших наборів. Попередні дослідження, здебільшого, дотримувалися цих напрямів і розширювали в різних напрямах.

З моменту появи алгоритму Apriori, цей алгоритм найчастіше застосовується першому кроці. Багато поліпшень, наприклад, за швидкістю і масштабуванням, спрямовані на вдосконалення алгоритму Apriori, на виправлення його помилкової властивості генерувати занадто багато кандидатів на набори елементів, що найчастіше зустрічаються. Apriori генерує набори елементів, використовуючи тільки великі набори, знайдені на попередньому кроці, без розгляду транзакцій. Модифікований алгоритм AprioriTid покращує Apriori за рахунок того, що використовує базу даних лише при першому проході. При підрахунках наступних кроках застосовуються лише дані, створені за першому проході і мають набагато менший розмір, ніж вихідна база даних. Це призводить до колосального зростання продуктивності. Подальша вдосконалена версія алгоритму, названа AprioriHybrid, може бути отримана, якщо при перших кількох проходах використовувати Apriori, а потім, на пізніших проходах, коли k-і набори-кандидати вже можуть бути повністю розміщені в пам'яті комп'ютера, переключаться на AprioriTid.

Подальші зусилля щодо поліпшення алгоритму Apriori пов'язані з розпаралелюванням алгоритму (Count Distribution, Data Distribution, Candidate Distribution та ін), його масштабуванням (Intelligent Data Distribution, Hybrid Distribution), введення нових структур даних, таких як дерева часто зустрічаються елементів (FP-growth ).

Другий крок здебільшого характеризується достовірністю та цікавістю. У нових модифікаціях до традиційних булевих правил додаються розмірність, якість і тимчасова підтримка, описані вище. Для пошуку правил найчастіше використовується еволюційний алгоритм.

2.2 Нейромережні алгоритми

Штучні нейронні мережі з'явилися внаслідок застосування математичного апарату до дослідження функціонування нервової системи людини з її відтворення. А саме: здатність нервової системи навчатися та виправляти помилки, що має дозволити змоделювати, хоч і досить грубо, роботу людського мозку. Основною структурною та функціональною частиною нейронної мережі є формальний нейрон (formal neuron), представлений на рис. 1, де x0 , x1,..., xn - компоненти вектора вхідних сигналів, w0 ,w1,...,wn - значення ваги вхідних сигналів нейрона, а y - вихідний сигнал нейрона.

Мал. 1. Формальний нейрон: синапс (1), суматор (2), перетворювач (3).

Формальний нейрон складається з елементів 3 типів: синапсів, суматора та перетворювача. Синапс характеризує силу зв'язку між двома нейронами.

Суматор виконує додавання вхідних сигналів, попередньо помножених на відповідні ваги. Перетворювач реалізує функцію одного аргументу – виходу суматора. Ця функція називається функцією активації або функцією передавання нейрона.

Описані вище формальні нейрони можна поєднувати в такий спосіб, що вихідні сигнали одних нейронів є вхідними інших. Отримане безліч пов'язаних між собою нейронів називають штучними нейронними мережами (artificial neural networks, ANN) або, коротко, нейронними мережами.

Розрізняють такі три загальні типи нейронів, залежно від їх становища в нейронній мережі:

Вхідні нейрони (input nodes), куди подаються вхідні сигнали. Такі нейрони нейрони мають, як правило, один вхід з одиничною вагою, зсув відсутній, а значення виходу нейрона дорівнює вхідному сигналу;

Вихідні нейрони (output nodes), вихідні значення яких репрезентують результуючі вихідні сигнали нейронної мережі;

Приховані нейрони (hidden nodes), які мають прямих зв'язків із вхідними сигналами, у своїй значення вихідних сигналів прихованих нейронів є вихідними сигналами ИНС.

За структурою міжнейронних зв'язків розрізняють два класи ІНС:

ІНС прямого поширення, у яких сигнал поширюється лише з вхідних нейронів до вихідним.

Рекурентні ІНС – ІНС із зворотними зв'язками. У таких ІНС сигнали можуть передаватися між будь-якими нейронами, незалежно від їхнього розташування в ІНС.

Існують два загальні підходи до навчання ІНС:

Навчання з учителем.

Навчання без учителя.

Навчання з учителем (supervised learning) передбачає використання заздалегідь сформованої множини навчальних прикладів. Кожен приклад містить вектор вхідних сигналів та відповідний вектор еталонних вихідних сигналів, які залежать від поставленого завдання. Дане безліч називають навчальною вибіркою або навчальною множиною. Навчання нейронної мережі спрямоване на таку зміну ваг зв'язків ІНС, при якому значення вихідних сигналів ІНС якнайменше відрізняються від необхідних значень вихідних сигналів для даного вектора вхідних сигналів.

При навчанні без вчителя (unsupervised learning) підстроювання ваги зв'язків проводиться або в результаті конкуренції між нейронами, або з урахуванням кореляції вихідних сигналів нейронів, між якими існує зв'язок. У разі навчання без вчителя навчальна вибірка не використовується.

Нейронні мережі застосовуються для вирішення широкого спектра завдань, наприклад, таких як планування корисного навантаження для космічних човників та прогнозування валютних курсів. Однак вони не часто використовуються в системах інтелектуального аналізу даних у зв'язку зі складністю моделі (знання, зафіксовані як ваги кількох сотень міжнейронних зв'язків, зовсім не піддаються аналізу та інтерпретації людиною) та тривалим часом навчання на великій навчальній вибірці. З іншого боку, нейронні мережі мають такі переваги для використання в задачах аналізу даних, як стійкість до зашумлених даних і висока точність.

2.3 Методи найближчого сусіда та k-найближчих сусідів

В основі алгоритмів найближчих сусідів (nearest neighbor algorithm) та k-найближчих сусідів (k-nearest neighbor algorithm, KNN) лежить схожість об'єктів. Алгоритм найближчого сусіда виділяє серед усіх відомих об'єктів об'єкт, максимально близький (використовується метрика відстані між об'єктами, наприклад евклідова) до нового раніше невідомого об'єкта. Головна проблема методу найближчого сусіда – це його чутливість до викидів у навчальних даних.

Описану проблему дозволяє уникати алгоритму KNN, що виділяє серед усіх спостережень вже найближчих сусідів, схожих на новий об'єкт. На основі класів найближчих сусідів виноситься рішення щодо нового об'єкта. Важливим завданням даного алгоритму є підбір коефіцієнта k – кількість записів, які вважатимуться схожими. Модифікація алгоритму, коли вклад сусіда пропорційний відстані до нового об'єкта (метод k-зважених найближчих сусідів) дозволяє досягти більшої точності класифікації. Метод k найближчих сусідів, як і, дозволяє оцінити точність прогнозу. Наприклад, всі k найближчих сусідів мають один і той же клас, то ймовірність, що об'єкт, що перевіряється, матиме такий же клас, дуже висока.

Серед особливостей алгоритму варто відзначити стійкість до аномальних викидів, оскільки ймовірність попадання такого запису до k-найближчих сусідів мала. Якщо ж це сталося, то вплив на голосування (особливо зважене) (при k>2) також, швидше за все, буде незначним, і, отже, малим і вплив на результат класифікації. Також перевагами є проста реалізації, легкість інтерпретації результату роботи алгоритму, можливість модифікації алгоритму, шляхом використання найбільш підходящих функцій поєднання та метрик, що дозволяє підлаштувати алгоритм під конкретне завдання. Алгоритм KNN має й низку недоліків. По-перше, набір даних, що використовується для алгоритму, має бути репрезентативним. По-друге, модель не можна відокремити від даних: для класифікації нового прикладу треба використовувати приклади. Ця особливість сильно обмежує використання алгоритму.

2.4 Дерева рішень

Під терміном "дерева рішень" мається на увазі сімейство алгоритмів, заснованих на представленні класифікаційних правил в ієрархічній, послідовній структурі. Це найпопулярніший клас алгоритмів на вирішення завдань інтелектуального аналізу даних.

Сімейство алгоритмів побудови дерев рішень дозволяє передбачити значення будь-якого параметра для заданого випадку на основі великої кількості даних про інші подібні випадки. Зазвичай алгоритми цього сімейства застосовуються на вирішення завдань, дозволяють розділити всі вихідні дані кілька дискретних груп.

При застосуванні алгоритмів побудови дерев рішень до набору вихідних даних, результат відображається у вигляді дерева. Подібні алгоритми дозволяють здійснити кілька рівнів такого поділу, розбиваючи отримані групи (гілки дерева) більш дрібні на підставі інших ознак. Поділ триває до тих пір, поки значення, які передбачається, не стануть однаковими (або, у разі безперервного значення параметра, що передбачається, близькими) для всіх отриманих груп (листя дерева). Саме ці значення застосовуються для здійснення передбачень на основі даної моделі.

Дія алгоритмів побудови дерев рішень базується на застосуванні методів регресійного та кореляційного аналізу. Один із найпопулярніших алгоритмів цього сімейства - CART (Classification and Regression Trees), заснований на розподілі даних у гілки дерева на дві дочірні гілки; при цьому подальший поділ тієї чи іншої гілки залежить від того, чи багато вихідних даних описує ця гілка. Деякі інші подібні алгоритми дають змогу розділити гілку на більшу кількість дочірніх гілок. В даному випадку поділ проводиться на основі найбільш високого для описуваних гілкою даних коефіцієнта кореляції між параметром, згідно з яким відбувається поділ, і параметром, який надалі має бути передбачений.

Популярність підходу пов'язана з наочністю та зрозумілістю. Але дерева рішень принципово неспроможні знаходити “кращі” (найповніші і точні) правила даних. Вони реалізують наївний принцип послідовного перегляду ознак і знаходять фактично частини реальних закономірностей, створюючи лише ілюзію логічного висновку.

2.5 Алгоритми кластеризації

Кластеризація - це завдання розбиття безлічі об'єктів на групи, які називаються кластерами. Головна відмінність кластеризації від класифікації у тому, що перелік груп чітко не заданий й у процесі роботи алгоритму.

Застосування кластерного аналізу у вигляді зводиться до наступним етапам:

· Відбір вибірки об'єктів для кластеризації;

· Визначення безлічі змінних, якими будуть оцінюватися об'єкти у вибірці. За необхідності – нормалізація значень змінних;

· Обчислення значень міри подібності між об'єктами;

· Застосування методу кластерного аналізу для створення груп подібних об'єктів (кластерів);

· Подання результатів аналізу.

Після отримання та аналізу результатів можливе коригування обраної метрики та методу кластеризації до отримання оптимального результату.

Серед алгоритмів кластеризації виділяють ієрархічні та плоскі групи. Ієрархічні алгоритми (також звані алгоритмами таксономії) будують не одне розбиття вибірки на кластери, що не перетинаються, а систему вкладених розбиття. Таким чином, вихід алгоритму є деревом кластерів, корінням якого є вся вибірка, а листям - найбільш дрібні кластери. Плоскі алгоритми будують одне розбиття об'єктів на кластери, що не перетинаються між собою.

Ще одна класифікація алгоритмів кластеризації - на чіткі та нечіткі алгоритми. Чіткі (або непересічні) алгоритми кожному об'єкту вибірки ставлять у відповідність номер кластера, тобто кожен об'єкт належить лише одному кластеру. Нечіткі (або перетинаються) алгоритми кожному об'єкту ставлять у відповідність набір речових значень, що показують ступінь ставлення об'єкта до кластерів. Таким чином, кожен об'єкт відноситься до кожного кластера з певною ймовірністю.

Серед алгоритмів ієрархічної кластеризації виділяються два основні типи: висхідні та низхідні алгоритми. Нисхідні алгоритми працюють за принципом «зверху-вниз»: спочатку всі об'єкти поміщаються в один кластер, який потім розбивається на більш дрібні кластери. Найбільш поширені висхідні алгоритми, які на початку роботи поміщають кожен об'єкт в окремий кластер, а потім об'єднують кластери в дедалі більші, поки всі об'єкти вибірки не будуть утримуватися в одному кластері. Таким чином, будується система вкладених розбиття. Результати таких алгоритмів зазвичай становлять як дерева.

До нестачі ієрархічних алгоритмів можна віднести систему повних розбиття, яка може бути зайвою в контексті завдання, що розв'язується.

Розглянемо тепер пласкі алгоритми. Найпростіші серед цього класу – алгоритми квадратичної помилки. Завдання кластеризації цих алгоритмів можна як побудова оптимального розбиття об'єктів на групи. При цьому оптимальність може бути визначена як вимога мінімізації середньоквадратичної помилки розбиття:

,

де c j – «центр мас» кластера j(Точка із середніми значеннями параметрів для даного кластера).

Найпоширенішим алгоритмом цієї категорії є метод k-середніх. Цей алгоритм будує задане число кластерів, розташованих якнайдалі один від одного. Робота алгоритму поділяється на кілька етапів:

Випадково вибрати kточок, що є початковими «центрами мас» кластерів.

2. Віднести кожен об'єкт до кластера з найближчим центром мас.

Якщо критерій зупинення алгоритму не задоволений, повернутись до п. 2.

Як критерій зупинення роботи алгоритму зазвичай вибирають мінімальну зміну середньоквадратичної помилки. Також можна зупиняти роботу алгоритму, якщо на кроці 2 не було об'єктів, що перемістилися з кластера в кластер. До недоліків даного алгоритму можна віднести необхідність задавати кількість кластерів для розбиття.

Найбільш популярним алгоритмом нечіткої кластеризації є алгоритм c-середніх (c-means). Він є модифікацією методу k-середніх. Кроки роботи алгоритму:

1. Вибрати початкове нечітке розбиття nоб'єктів на kкластерів шляхом вибору матриці приладдя Uрозміру n x k.

2. Використовуючи матрицю U, знайти значення критерію нечіткої помилки:

,

де c k – «центр мас» нечіткого кластера k:

3. Перегрупувати об'єкти для зменшення цього значення критерію нечіткої помилки.

4. Повертатися до п. 2 доти, доки зміни матриці Uне стануть незначними.

Цей алгоритм може не підійти, якщо заздалегідь невідома кількість кластерів, або необхідно однозначно зарахувати кожен об'єкт до одного кластера.

Наступна група алгоритмів – алгоритми, засновані на теорії графів. Суть таких алгоритмів у тому, що вибірка об'єктів представляється як графа G = (V, E), вершинам якого відповідають об'єкти, а ребра мають вагу, що дорівнює «відстанню» між об'єктами. Перевагою графових алгоритмів кластеризації є наочність, відносна простота реалізації та можливість внесення різних удосконалень, що ґрунтуються на геометричних міркуваннях. Основними алгоритмами є алгоритм виділення зв'язкових компонентів, алгоритм побудови мінімального покриваючого (остовного) дерева та алгоритм пошарової кластеризації.

Для вибору параметра RЗазвичай будується гістограма розподілів попарних відстаней. У завданнях з добре вираженою кластерною структурою даних на гістограмі буде два піки – один відповідає внутрішньокластерним відстаням, другий – міжкластерним відстані. Параметр Rпідбирається із зони мінімуму між цими піками. У цьому керувати кількістю кластерів з допомогою порога відстані досить складно.

Алгоритм мінімального дерева, що покриває, спочатку будує на графі мінімальне дерево, що покриває, а потім послідовно видаляє ребра з найбільшою вагою. Алгоритм пошарової кластеризації заснований на виділенні зв'язкових компонентів графа на певному рівні відстаней між об'єктами (вершинами). Рівень відстані задається порогом відстані c. Наприклад, якщо відстань між об'єктами , то .

Алгоритм пошарової кластеризації формує послідовність підграфів графа G, що відображають ієрархічні зв'язки між кластерами:

,

де G t = (V, E t ) - граф на рівні з t, ,

з t - t-ий поріг відстані, m - кількість рівнів ієрархії,
G 0 = (V, o), o - порожня множина ребер графа, одержуване при t 0 = 1,
G m = G, тобто граф об'єктів без обмежень на відстань (довжину ребер графа), оскільки t m = 1.

За допомогою зміни порогів відстані ( з 0 , …, з m), де 0 = з 0 < з 1 < …< з m = 1, можна контролювати глибину ієрархії одержуваних кластерів. Таким чином, алгоритм пошарової кластеризації здатний створювати як плоске розбиття даних, і ієрархічне.

Кластеризація дозволяє досягти наступних цілей:

· Поліпшує розуміння даних за рахунок виявлення структурних груп. Розбиття вибірки на групи подібних об'єктів дозволяє спростити подальшу обробку даних та прийняття рішень, застосовуючи до кожного кластера свій метод аналізу;

· дозволяє компактно зберігати дані. Для цього замість зберігання всієї вибірки можна залишити по одному типовому спостереженню кожного кластера;

· Виявлення нових нетипових об'єктів, які не потрапили в жодний кластер.

Зазвичай кластеризація використовується як допоміжний метод при аналізі даних.

2.6 Генетичні алгоритми

Генетичні алгоритми належать до універсальних методів оптимізації, дозволяють вирішувати завдання різних типів (комбінаторні, загальні завдання з обмеженнями і без обмежень) і різного ступеня складності. У цьому генетичні алгоритми характеризуються можливістю як однокритеріального, і багатокритеріального пошуку великому просторі, ландшафт якого є негладким.

Ця група методів використовує ітеративний процес еволюції послідовності поколінь моделей, що включає операції відбору, мутації та схрещування. На початку роботи алгоритму населення формується випадковим чином. Для оцінки якості закодованих рішень використовують функцію пристосованості, яка потрібна для обчислення пристосованості кожної особи. За результатами оцінювання особин найбільш пристосовані їх вибираються для схрещування. В результаті схрещування вибраних особин за допомогою застосування генетичного оператора кросинговера створюється потомство, генетична інформація якого формується внаслідок обміну хромосомною інформацією між батьківськими особинами. Створені нащадки формують нову популяцію, причому частина нащадків мутує, що у випадковому зміні їх генотипів. Етап, що включає послідовність "Оцінювання популяції" - "Селекція" - "Схрещування" - "Мутація", називається поколінням. Еволюція популяції складається із послідовності таких поколінь.

Виділяють такі алгоритми відбору особин для схрещування:

· Панміксія. Обидві особини, які складуть батьківську пару, випадково вибираються з усієї популяції. Будь-яка особина може стати членом кількох пар. Цей підхід універсальний, але ефективність алгоритму знижується зі зростанням чисельності популяції.

· Селекція. Батьками можуть стати особини з пристосованістю не нижче за середній. Такий підхід забезпечує більш швидку збіжність алгоритму.

· Інбридинг. Метод побудований на формуванні пари на основі близької спорідненості. Під спорідненістю тут розуміється відстань між членами популяції як у сенсі геометричної відстані особин у просторі параметрів, так і хемінгова відстань між генотипами. Тому розрізняють генотипний та фенотипний інбридинг. Перший член пари для схрещування вибирається випадково, а другим із більшою ймовірністю буде максимально близька до нього особина. Інбридинг можна охарактеризувати властивістю концентрації пошуку в локальних вузлах, що фактично призводить до розбиття популяції на окремі локальні групи навколо підозрілих екстремум ділянок ландшафту.

· Аутбридинг. Формування пари на основі далекої спорідненості для максимально далеких особин. Аутбридинг спрямований на попередження збіжності алгоритму до знайдених рішень, змушуючи алгоритм переглядати нові, недосліджені області.

Алгоритми формування нової популяції:

· Відбір з витісненням. З усіх особин з однаковими генотипами перевага надається тим, чия пристосованість вища. Таким чином, досягаються дві мети: не втрачаються кращі знайдені рішення, що мають різні хромосомні набори, у популяції постійно підтримується достатня генетична різноманітність. Витиснення формує нову популяцію з далеко розташованих особин, замість особин, що групуються біля поточного знайденого рішення. Цей метод застосовують для багатоекстремальних завдань.

· Елітний відбір. Елітні методи відбору гарантують, що з відборі обов'язково виживатимуть кращі члени популяції. При цьому частина найкращих особин без будь-яких змін переходить у наступне покоління. Швидка збіжність, що забезпечується елітним відбором, може бути компенсована відповідним способом вибору батьківських пар. У разі часто використовують аутбридингом. Саме така комбінація «аутбридинг – елітний відбір» є однією з найефективніших.

· Турнірний відбір. Турнірний відбір реалізує n турнірів, щоб вибрати n особин. Кожен турнір побудований на вибірці k елементів з популяції, та вибору найкращої особини серед них. Найбільш поширений турнірний відбір із k = 2.

Однією з найбільш затребуваних додатків генетичних алгоритмів області Data Mining є пошук найбільш оптимальної моделі (пошук алгоритму, відповідного специфіці конкретної області). Генетичні алгоритми в першу чергу застосовуються для оптимізації топології нейронних мереж та ваг. Однак їх також можна використовувати і як самостійний інструмент.

3. Сфери застосування

Технологія Data Mining має дуже широкий спектр застосування, будучи, по суті, набором універсальних інструментів для аналізу даних будь-якого типу.

Маркетинг

Однією з перших сфер, де було застосовано технології інтелектуального аналізу даних, була сфера маркетингу. Завдання, з якого почався розвиток методів Data Mining, називається аналіз купівельного кошика.

Це завдання полягає у виявленні товарів, які покупці прагнуть купувати разом. Знання купівельного кошика необхідне проведення рекламних компаній, формування персональних рекомендацій покупцям, вироблення стратегії створення запасів товарів хороших і способів їх розкладання у торгових залах.

Також у маркетингу вирішуються такі завдання, як визначення цільової аудиторії того чи іншого продукту для успішнішого його просування; дослідження тимчасових шаблонів, що допомагає підприємствам приймати рішення створення товарних запасів; створення прогнозуючих моделей, що дає можливість підприємствам дізнаватися про характер потреб різних категорій клієнтів з певною поведінкою; прогнозування лояльності клієнта, що дозволяє завчасно виявити момент відходу клієнта під час аналізу його поведінки та, можливо, запобігти втраті цінного клієнта.

Промисловість

Одним із важливих напрямків у цій сфері є моніторинг та контроль якості, де за допомогою засобів аналізу можливо передбачити вихід обладнання з ладу, появу несправностей, планувати ремонтні роботи. Прогнозування популярності певних показників та знання того, які характеристики зазвичай замовляються разом допомагає оптимізувати виробництво, орієнтувати його на реальні потреби споживачів.

Медицина

У медицині аналіз даних також застосовується досить вдало. Прикладом завдань можуть бути аналіз результатів обстежень, діагностика, порівняння ефективності методів лікування та ліків, аналіз захворювань та його поширення, виявлення побічних ефектів. Такі технології Data Mining, як асоціативні правила та послідовні шаблони, успішно застосовуються при виявленні зв'язків між прийомом препаратів та побічними ефектами.

Молекулярна генетика та генна інженерія

Мабуть, найгостріше і водночас чітко завдання виявлення закономірностей в експериментальних даних стоїть у молекулярної генетиці та генної інженерії. Тут вона формулюється як визначення маркерів, під якими розуміють генетичні коди, які контролюють ті чи інші фенотипічні ознаки живого організму. Такі коди можуть містити сотні, тисячі та більше пов'язаних елементів. Результатом аналітичного аналізу даних також є виявлена ​​вченими-генетиками залежність між змінами у послідовності ДНК людини та ризиком розвитку різних захворювань.

Прикладна хімія

Методи Data Mining знаходять застосування у галузі прикладної хімії. Тут нерідко виникає питання про з'ясування особливостей хімічної будови тих чи інших сполук, що визначають їх властивості. Особливо актуальне таке завдання при аналізі складних хімічних сполук, опис яких включає сотні та тисячі структурних елементів та їх зв'язків.

Боротьба зі злочинністю

У забезпеченні безпеки засоби Data Mining застосовуються порівняно недавно, проте нині вже отримано практичні результати, що підтверджують ефективність інтелектуального аналізу даних у цій галузі. Швейцарськими вченими були розроблені система аналізу протестної активності з метою прогнозування майбутніх інцидентів і система відстеження кіберзагроз і дій хакерів у світі, що виникають. Остання система дозволяє прогнозувати кіберзагрози та інші ризики інформаційної безпеки. Також методи Data Mining успішно застосовуються виявлення шахрайства з кредитними картками. Шляхом аналізу минулих транзакцій, які згодом виявилися шахрайськими, банк виявляє деякі стереотипи такого шахрайства.

Інші програми

· Аналіз ризику. Наприклад, шляхом виявлення поєднань факторів, пов'язаних із оплаченими заявами, страховики можуть зменшити свої втрати за зобов'язаннями. Відомий випадок, коли у США велика страхова компанія виявила, що суми, виплачені за заявами одружених людей, удвічі перевищує суми за заявами одиноких людей. Компанія відреагувала на це нове знання переглядом загальної політики надання знижок сімейним клієнтам.

· Метеорологія. Передбачення погоди методами нейронних мереж, зокрема використовуються карти Кохонена, що самоорганізуються.

· Кадрова політика. Засоби аналізу допомагають службам управління персоналом відбирати найбільш вдалих кандидатів на основі аналізу даних їх резюме, моделювати характеристики ідеальних співробітників для тієї чи іншої посади.

4. Виробники засобів Data Mining

Кошти Data Mining зазвичай ставляться до дорогих програмним продуктам. Тому донедавна основними споживачами цієї технології були банки, фінансові та страхові компанії, великі торгові підприємства, а основними завданнями, що вимагають застосування Data Mining, вважалися оцінка кредитних та страхових ризиків та вироблення маркетингової політики, тарифних планів та інших принципів роботи з клієнтами. В останні роки ситуація зазнала певних змін: на ринку програмного забезпечення з'явилися відносно недорогі інструменти Data Mining і навіть системи з вільним поширенням, що зробило доступною цю технологію для підприємств малого та середнього бізнесу.

Серед платних інструментів та систем аналіз даних лідерами є SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) та StatSoft (STATISTICA Data Miner). Досить відомими є рішення від Angoss (Angoss Knowledge STUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) та (Oracle) Oracle Data Mining.

Вибір вільного програмного забезпечення також відрізняється різноманітністю. Існують як універсальні засоби аналізу, такі як JHepWork, KNIME, Orange, RapidMiner, так і спеціалізовані засоби, наприклад Carrot2 – фреймворк для кластеризації текстових даних та результатів пошукових запитів, Chemicalize.org – рішення в галузі прикладної хімії, NLTK (Natural Language Toolkit) інструмент для обробки природної мови (natural language processing).

5. Критика методів

Результати Data Mining великою мірою залежить від рівня підготовки даних, а чи не від «чудесних можливостей» деякого алгоритму чи набору алгоритмів. Близько 75% роботи над Data Mining полягає у зборі даних, що відбувається ще до застосування інструментів аналізу. Неграмотне застосування інструментів призведе до безглуздої витрати потенціалу компанії, а іноді й мільйонів доларів.

Думка Херба Едельштайна (Herb Edelstein), відомого у світі експерта в галузі Data Mining, Сховищ даних та CRM: «Недавнє дослідження компанії Two Crows показало, що Data Mining перебуває все ще на ранній стадії розвитку. Багато організацій цікавляться цією технологією, але деякі активно впроваджують такі проекти. Вдалося з'ясувати ще один важливий момент: процес реалізації Data Mining на практиці виявляється складнішим, ніж очікується. Команди захопилися міфом про те, що засоби Data Mining прості у використанні. Передбачається, що достатньо запустити такий інструмент на терабайтній базі даних, і миттєво з'явиться корисна інформація. Насправді успішний Data Mining проект вимагає розуміння сутності діяльності, знання даних та інструментів, а також процесу аналізу даних». Таким чином, перш ніж використовувати технологію Data Mining, необхідно ретельно проаналізувати обмеження, що накладаються методами, пов'язані з нею критичні питання, а також тверезо оцінити можливості технології. До критичних питань належать такі:

1. Технологія неспроможна дати відповіді питання, які були задані. Вона не може замінити аналітика, а лише дає йому потужний інструмент для полегшення та поліпшення його роботи.

2. Складність розробки та експлуатації програми Data Mining.

Оскільки ця технологія є мультидисциплінарною областю, для розробки програми, що включає Data Mining, необхідно залучити фахівців з різних областей, а також забезпечити їхню якісну взаємодію.

3. Кваліфікація користувача.

Різні інструменти Data Mining мають різну міру «дружелюбності» інтерфейсу та вимагають певної кваліфікації користувача. Тому програмне забезпечення має відповідати рівню підготовки користувача. Використання Data Mining має бути нерозривно пов'язане із підвищенням кваліфікації користувача. Проте фахівців з Data Mining, які добре розбиралися в бізнес-процесах, нині мало.

4. Вилучення корисних відомостей неможливе без хорошого розуміння суті даних.

Необхідний ретельний вибір моделі та інтерпретація залежностей чи шаблонів, які виявлені. Тому робота з такими засобами потребує тісної співпраці між експертом у предметній галузі та спеціалістом з інструментів Data Mining. Постійні моделі мають бути грамотно інтегровані у бізнес-процеси для можливості оцінки та оновлення моделей. Останнім часом системи Data Mining постачаються як частина технології сховищ даних.

5. Складність підготовки даних.

Успішний аналіз потребує якісної передобробки даних. За твердженням аналітиків та користувачів баз даних, процес передобробки може зайняти до 80% всього Data Mining-процесу.

Таким чином, щоб технологія працювала на себе, знадобиться багато зусиль та часу, які йдуть на попередній аналіз даних, вибір моделі та її коригування.

6. Великий відсоток помилкових, недостовірних чи марних результатів.

За допомогою технологій Data Mining можна відшукувати дуже цінну інформацію, яка може дати значну перевагу при подальшому плануванні, управлінні, прийнятті рішень. Однак, результати, отримані за допомогою методів Data Mining, досить часто містять помилкові висновки, що не мають сенсу. Багато фахівців стверджують, що Data Mining інструменти можуть видавати величезну кількість статистично недостовірних результатів. Щоб знизити відсоток таких результатів, необхідно перевірити адекватність отриманих моделей на тестових даних. Проте повністю уникнути помилкових висновків неможливо.

7. Висока вартість.

Якісний програмний продукт є результатом значних витрат з боку розробника. Тому програмне забезпечення Data Mining традиційно ставляться до дорогих програмних продуктів.

8. Наявність достатньої кількості репрезентативних даних.

Інструменти Data Mining, на відміну статистичних, теоретично не вимагають наявності строго певної кількості ретроспективних даних. Ця особливість може стати причиною виявлення недостовірних, хибних моделей і, як наслідок, прийняття на їх основі неправильних рішень. Потрібно здійснювати контроль статистичної значущості виявлених знань.

нейромережевий алгоритм кластеризація дані mining

Висновок

Дана коротка характеристика сфер застосування та наведена критика технології Data Mining та думка експертів у цій галузі.

списоклітератури

1. Han and Micheline Kamber. Data Mining: Concepts and Techniques. Second Edition. - University of Illinois at Urbana-Champaign

Berry, Michael J. A. Data mining techniques: for marketing, sales, and customer relationship management - 2nd ed.

Siu Nin Lam. Discovering Association Rules in Data Mining. - Департамент юриспруденції Інституту літератури в Urbana-Champaign

Надіслати свою гарну роботу до бази знань просто. Використовуйте форму, розташовану нижче

Студенти, аспіранти, молоді вчені, які використовують базу знань у своєму навчанні та роботі, будуть вам дуже вдячні.

Подібні документи

    Класифікація задач DataMining. Створення звітів та підсумків. Можливості Data Miner у Statistica. Завдання класифікації, кластеризації та регресії. Засоби аналізу Statistica Data Miner. Суть завдання – пошук асоціативних правил. Аналіз предикторів виживання.

    курсова робота , доданий 19.05.2011

    Опис функціональних можливостей технології Data Mining як процеси виявлення невідомих даних. Вивчення систем виведення асоціативних правил та механізмів нейромережевих алгоритмів. Опис алгоритмів кластеризації та сфер застосування Data Mining.

    контрольна робота , доданий 14.06.2013

    Основи щодо кластеризації. Використання Data Mining як способу виявлення знань у базах даних. Вибір алгоритмів кластеризації. Отримання даних із сховища бази даних дистанційного практикуму. Кластеризація студентів та завдань.

    курсова робота , доданий 10.07.2017

    Data mining, developmental history of data mining and knowledge discovery. Технологічні елементи та методи data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.

    доповідь, доданий 16.06.2012

    Аналіз проблем, що виникають при застосуванні методів та алгоритмів кластеризації. Основні алгоритми розбиття на кластери. Програма RapidMiner як середовище для машинного навчання та аналізу даних. Оцінка якості кластеризації за допомогою методів Data Mining.

    курсова робота , доданий 22.10.2012

    Удосконалення технологій запису та зберігання даних. Специфіка сучасних вимог щодо переробки інформаційних даних. Концепція шаблонів, що відображають фрагменти багатоаспектних взаємин у даних на основі сучасної технології Data Mining.

    контрольна робота , доданий 02.09.2010

    Аналіз застосування нейронних мереж для прогнозування ситуації та прийняття рішень на фондовому ринку за допомогою програмного пакету моделювання нейронних мереж Trajan 3.0. Перетворення первинних даних, таблиць. Ергономічна оцінка програми.

    дипломна робота , доданий 27.06.2011

    Проблеми використання еволюційних алгоритмів. Побудова обчислювальних систем, заснованих на засадах природного добору. Недоліки генетичних алгоритмів. Приклади еволюційних алгоритмів Напрями та розділи еволюційного моделювання.

    Ми вітаємо вас на порталі Data Mining - унікальному порталі, присвяченому сучасним методам Data Mining.

    Технології Data Mining є потужним апаратом сучасної бізнес-аналітики та дослідження даних для виявлення прихованих закономірностей та побудова передбачуваних моделей. Data Mining чи видобуток знань грунтується не так на умоглядних міркуваннях, але в реальних даних.

    Мал. 1. Схема застосування Data Mining

    Problem Definition – Постановка задач: класифікація даних, сегментація, побудова передбачуваних моделей, прогнозування.
    Data Gathering and Preparation – Збір та підготовка даних, чищення, верифікація, видалення повторних записів.
    Model Building - Побудова моделі, оцінка точності.
    Knowledge Deployment – ​​Застосування моделі для вирішення поставленого завдання.

    Data Mining застосовується для реалізації масштабних аналітичних проектів у бізнесі, маркетингу, інтернеті, телекомунікаціях, промисловості, геології, медицині, фармацевтиці та інших галузях.

    Data Mining дозволяє запустити процес знаходження значущих кореляцій та зв'язків в результаті просіювання величезного масиву даних з використанням сучасних методів розпізнавання образів та застосування унікальних аналітичних технологій, включаючи дерева прийняття рішень та класифікації, кластеризацію, нейрономережні методи та інші.

    Користувач, який вперше відкрив для себе технологію видобутку даних, уражається великою кількістю методів та ефективних алгоритмів, що дозволяють знайти підходи до вирішення важких завдань, пов'язаних з аналізом великих обсягів даних.

    В цілому, Data Mining можна охарактеризувати як технологію, призначену для пошуку у великих обсягах даних неочевидних, об'єктивнихі практично кориснихзакономірностей.

    В основі Data Mining лежать ефективні методи та алгоритми, розроблені для аналізу неструктурованих даних великого обсягу та розмірності.

    Ключовий момент полягає в тому, що дані великого обсягу та великої розмірності видаються позбавленими структури та зв'язків. Мета технології видобутку даних – виявити ці структури та знайти закономірності там, де, здавалося б, панує хаос і свавілля.

    Ось актуальний приклад застосування видобутку даних у фармацевтиці та лікарській індустрії.

    Взаємодія лікарських речовин - наростаюча проблема, з якою стикається сучасна охорона здоров'я.

    Згодом кількість ліків (безрецептурних і всіляких добавок), що призначаються, зростає, що робить все більш і більш ймовірним взаємодію між ліками, яка може стати причиною серйозних побічних ефектів, про які не підозрюють лікарі та пацієнти.

    Ця область відноситься до постклінічним дослідженням, коли ліки вже випущено на ринок та інтенсивно використовується.

    Клінічні дослідження відносяться до оцінки ефективності препарату, але слабо враховують взаємодії цих ліків з іншими препаратами, представленими на ринку.

    Дослідники зі Стенфордського Університету в Каліфорнії вивчили базу даних FDA (Food and Drug Administration - Управління з контролю за харчовими продуктами та лікарськими препаратами) побічних ефектів ліків і виявили, що два препарати, що часто використовуються – антидепресант пароксетин і правастатин, що використовується для зниження рівня холестерину ризик розвитку діабету, якщо використовуються разом.

    Дослідження щодо проведення подібного аналізу, заснованого на даних FDA виявило 47 раніше невідомих несприятливих взаємодій.

    Це чудово, з тим застереженням, що багато негативних ефектів, відзначених пацієнтами, залишаються не виявленими. Саме в такому випадку мережевий пошук здатний проявити себе найкращим чином.

    Найближчі курси з Data Mining Академії Аналізу Даних StatSoft в 2020 р.

    Ми починаємо знайомство з Data Mining, використовуючи чудові відеоролики Академії Аналізу Даних.

    Обов'язково подивіться наші ролики і ви зрозумієте, що таке Data Mining!

    Відео 1. Що таке Data Mining?


    Відео 2. Огляд методів видобутку даних: дерева прийняття рішень, узагальнені передбачувальні моделі, кластеризація та багато іншого

    У вашому браузері вимкнено JavaScript


    Перш ніж запустити дослідницький проект, ми маємо організувати процес отримання даних із зовнішніх джерел, зараз ми покажемо, як це робиться.

    Ролик познайомить вас із унікальною технологією STATISTICA In-place database processing та зв'язком Data Mining з реальними даними.

    Відео 3. Порядок взаємодії з базами даних: графічний інтерфейс побудови SQL запитів технологія In-place database processing

    У вашому браузері вимкнено JavaScript


    Тепер ми познайомимося з технологіями інтерактивного буріння, які є ефективними при проведенні розвідувального аналізу даних. Сам термін буріння відбиває зв'язок технології Data Mining з геологорозвідкою.

    Відео 4. Інтерактивне буріння: Розвідувальні та графічні методи для інтерактивного дослідження даних

    У вашому браузері вимкнено JavaScript


    Тепер ми познайомимося з аналізом асоціацій (association rules), ці алгоритми дозволяють знаходити зв'язки, що є в реальних даних. Ключовим моментом є ефективність алгоритмів великих обсягах даних.

    Результатом алгоритмів аналізу зв'язків, наприклад алгоритму Apriori знаходження правил зв'язків досліджуваних об'єктів із заданою достовірністю, наприклад, 80%.

    У геології ці алгоритми можна застосовувати при розвідувальному аналізі корисних копалин, наприклад, як ознака пов'язаний з ознаками В і С.

    Ви можете знайти конкретні приклади таких рішень за нашими посиланнями:

    У роздрібній торгівлі алгоритму Apriori чи його модифікації дозволяють досліджувати зв'язок різних товарів, наприклад, під час продажу парфумерії (духи – лак – туш для вій тощо.) чи товарів різних брендів.

    Аналіз найцікавіших розділів на сайті можна також ефективно проводити за допомогою правил асоціацій.

    Отже, познайомтеся із нашим наступним роликом.

    Відео 5. Правила асоціацій

    У вашому браузері вимкнено JavaScript

    Наведемо приклади застосування Data Mining у конкретних галузях.

    Інтернет-торгівля:

    • аналіз траєкторій покупців від відвідування сайту до покупки товарів
    • оцінка ефективності обслуговування, аналіз відмов у зв'язку з відсутністю товарів
    • зв'язок товарів, які цікаві відвідувачам

    Роздрібна торгівля: аналіз інформації про покупців на основі кредитних карток, карток знижок тощо.

    Типові завдання роздрібної торгівлі, що вирішуються засобами Data Mining:

    • аналіз купівельного кошика;
    • створення передбачуваних моделейта класифікаційних моделей покупців та товарів, що купуються;
    • створення профілів покупців;
    • CRM, оцінка лояльності покупців різних категорій; планування програм лояльності;
    • дослідження тимчасових рядівта тимчасових залежностей, виділення сезонних факторів, оцінка ефективності рекламних акцій на великому діапазоні реальних даних.

    Телекомунікаційний сектор відкриває необмежені можливості для застосування методів видобутку даних, а також сучасних технологій.

    • класифікація клієнтів на основі ключових характеристик викликів (частота, тривалість тощо), частоти смс;
    • виявлення лояльності клієнтів;
    • визначення шахрайства та ін.

    Страхування:

    • аналіз ризику. Шляхом виявлення поєднань факторів, пов'язаних із оплаченими заявами, страховики можуть зменшити свої втрати за зобов'язаннями. Відомий випадок, коли страхова компанія виявила, що суми, виплачені за заявами одружених людей, удвічі перевищує суми за заявами одиноких людей. Компанія відреагувала на це переглядом політики знижок для сімейних клієнтів.
    • виявлення шахрайства. Страхові компанії можуть знизити рівень шахрайства, відшукуючи певні стереотипи у заявах про виплату страхового відшкодування, що характеризують стосунки між юристами, лікарями та заявниками.

    Практичне застосування видобутку даних та вирішення конкретних завдань представлено на наступному відео.

    Вебінар 1. Вебінар "Практичні завдання Data Mining: проблеми та рішення"

    У вашому браузері вимкнено JavaScript

    Вебінар 2. Вебінар "Data Mining та Text Mining: приклади вирішення реальних завдань"

    У вашому браузері вимкнено JavaScript


    Більш глибокі знання з методології та технології видобутку даних ви можете отримати на курсах StatSoft.

Поділитися