데이터 마이닝 소개. 데이터 마이닝 기술 데이터 마이닝의 데이터 마이닝 방법

데이터 마이닝은 원래 교육 데이터로 작업하는 원칙에 따라 두 개의 큰 그룹으로 나뉩니다. 이 분류에서 최상위 수준은 데이터 마이닝 이후에 데이터가 유지되는지 또는 나중에 사용하기 위해 증류되는지에 따라 결정됩니다.

1. 데이터의 직접 사용 또는 정보 저장소.

이 경우 초기 데이터는 명시적으로 상세한 형태로 저장되어 단계적으로 직접 사용 및/또는 구문 분석 예외... 이 방법 그룹의 문제는 사용할 때 매우 큰 데이터베이스를 분석하기 어려울 수 있다는 것입니다.

이 그룹의 방법: 클러스터 분석, 최근접 이웃 방법, k-최근접 이웃 방법, 유추에 의한 추론.

2. 정형화된 정보의 식별 및 이용 패턴, 또는 증류 템플릿.

기술로 증류 템플릿정보의 한 샘플(템플릿)은 초기 데이터에서 추출되어 일부 형식 구성으로 변환되며, 그 형식은 사용된 데이터 마이닝 방법에 따라 다릅니다. 이 과정은 단계에서 수행됩니다 무료 검색, 방법의 첫 번째 그룹에는 원칙적으로 이 단계가 없습니다. 단계적으로 예측 모델링그리고 구문 분석 예외단계의 결과가 사용됩니다 무료 검색, 데이터베이스 자체보다 훨씬 더 컴팩트합니다. 이러한 모델의 구성은 분석가에 의해 해석될 수 있거나 추적되지 않는("블랙 박스") 수 있음을 상기합시다.

이 그룹의 메소드: 논리적 메소드; 시각화 방법; 교차표 방법; 방정식을 기반으로 한 방법.

논리적 방법 또는 논리적 귀납법에는 퍼지 쿼리 및 분석이 포함됩니다. 상징적 규칙; 의사 결정 트리; 유전자 알고리즘.

이 그룹의 방법은 아마도 가장 해석하기 쉬울 것입니다. 대부분의 경우 사용자의 관점에서 발견된 패턴을 상당히 투명한 형태로 형식화합니다. 결과 규칙에는 연속 변수와 불연속 변수가 포함될 수 있습니다. 결정 트리는 트리의 루트에서 트리의 루트로 가는 경로를 따라 하나의 규칙을 생성하여 기호 규칙 집합으로 쉽게 변환될 수 있다는 점에 유의해야 합니다. 터미널 상단... 의사 결정 트리와 규칙은 실제로 한 문제를 해결하는 다른 방법이며 기능만 다릅니다. 또한 규칙의 구현은 의사 결정 트리의 유도보다 느린 알고리즘에 의해 수행됩니다.

교차표 방법: 에이전트, 베이지안(신뢰) 네트워크, 교차표 시각화. 마지막 방법은 데이터 마이닝의 속성 중 하나와 완전히 일치하지 않습니다 - 독립 검색 패턴분석 시스템. 그러나 크로스 테이블 형태의 정보 제공은 데이터 마이닝의 주요 작업인 패턴 검색의 구현을 보장하므로 이 방법도 데이터 마이닝 방법 중 하나로 간주될 수 있습니다.

방정식 기반 방법.

이 그룹의 방법은 드러난 패턴을 수학적 표현 - 방정식의 형태로 표현합니다. 따라서 숫자 변수에만 사용할 수 있으며 다른 유형의 변수는 그에 따라 코딩해야 합니다. 이것은 이 그룹의 방법의 적용을 다소 제한하지만 다양한 문제, 특히 예측 문제를 해결하는 데 널리 사용됩니다.

이 그룹의 주요 방법: 통계 방법 및 신경망

통계적 방법은 예측 문제를 해결하는 데 가장 자주 사용됩니다. 통계적 자료의 분석 방법으로는 상관-회귀 분석, 시계열 상관, 시계열 추세 파악, 조화 분석 등이 있다.

또 다른 분류는 다양한 데이터 마이닝 방법을 통계적 방법과 사이버네틱 방법의 두 그룹으로 나눕니다. 이 분할 방식은 수학적 모델을 가르치는 다양한 접근 방식을 기반으로 합니다.

통계적 방법을 데이터 마이닝으로 분류하는 두 가지 접근 방식이 있다는 점에 유의해야 합니다. 첫 번째는 통계적 방법과 데이터 마이닝을 대조하며 지지자들은 고전적인 통계적 방법을 데이터 분석의 별도 방향으로 간주합니다. 두 번째 접근 방식에 따르면 통계 분석 방법은 데이터 마이닝 수학적 도구 키트의 일부입니다. 대부분의 평판 좋은 출처는 두 번째 접근 방식을 취합니다.

이 분류에서 두 그룹의 방법이 구별됩니다.

  • 회고 데이터에 반영되는 평균 누적 경험을 기반으로 한 통계 방법;
  • 많은 이질적인 수학적 접근을 포함하는 사이버네틱 방법.

이러한 분류의 단점: 통계 및 사이버네틱 알고리즘은 어떤 식으로든 통계적 경험과 현재 상황을 모니터링한 결과의 비교에 의존합니다.

이 분류의 장점은 해석이 편리하다는 것입니다. 현대적 접근 방식의 수학적 도구를 설명하는 데 사용됩니다. 지식 추출초기 관찰(운영 및 소급)의 배열에서, 즉 데이터 마이닝 작업에서.

위에 제시된 그룹을 자세히 살펴보겠습니다.

통계 데이터 마이닝 방법

메서드는 4개의 상호 관련된 섹션을 나타냅니다.

  • 통계 데이터의 성격에 대한 예비 분석(정상성, 정규성, 독립성, 동질성 가설 검정, 분포 함수의 형태 평가, 매개변수 등);
  • 링크 식별 및 패턴(선형 및 비선형 회귀 분석, 상관 분석 등);
  • 다변량 통계분석(선형 및 비선형 판별분석, 군집분석, 성분분석, 요인 분석등);
  • 동적 모델및 시계열 예측.

통계 방법의 무기 데이터 마이닝은 4가지 방법 그룹으로 분류됩니다.

  1. 초기 데이터에 대한 기술적 분석 및 설명.
  2. 관계 분석(상관 및 회귀 분석, 요인 분석, 분산 분석).
  3. 다변수 통계분석(성분분석, 판별분석, 다변수회귀분석, 정준상관 등)
  4. 시계열 분석( 동적 모델및 예측).

데이터 마이닝의 사이버네틱 방법

데이터 마이닝의 두 번째 방향은 컴퓨터 수학의 아이디어와 인공 지능 이론의 사용으로 결합된 일련의 접근 방식입니다.

데이터 마이닝) 및 온라인 분석 처리(OnLine Analytical Processing, OLAP)의 기초를 형성하는 "거친" 탐색적 분석을 기반으로 하는 반면 데이터 마이닝의 주요 조항 중 하나는 명확하지 않은 항목에 대한 검색입니다. 패턴... 데이터 마이닝 도구는 이러한 패턴을 자체적으로 찾을 수 있으며 관계에 대한 가설을 독립적으로 형성할 수도 있습니다. 의존성에 대한 가설을 세우는 것이 가장 어려운 작업이기 때문에 다른 분석 방법에 비해 데이터 마이닝의 장점은 자명합니다.

데이터의 관계를 식별하기 위한 대부분의 통계적 방법은 샘플에 대한 평균화 개념을 사용하므로 존재하지 않는 값에 대한 작업이 수행되는 반면 데이터 마이닝은 실제 값에 대해 작동합니다.

OLAP는 과거 데이터를 이해하는 데 더 적합하고 데이터 마이닝은 과거 데이터에 의존하여 미래에 대한 질문에 답합니다.

데이터 마이닝 기술 관점

데이터 마이닝의 잠재력은 기술의 한계를 뛰어넘는 청신호를 제공합니다. 데이터 마이닝의 전망과 관련하여 다음과 같은 개발 방향이 가능합니다.

  • 해당 휴리스틱을 사용하여 주제 영역 유형 식별, 이 영역의 형식화는 이러한 영역과 관련된 해당 데이터 마이닝 문제의 솔루션을 용이하게 합니다.
  • 추론이 공식화되고 자동화가 특정 주제 영역에서 데이터 마이닝 문제를 해결하기 위한 도구가 되는 공식 언어 및 논리적 수단의 생성
  • 데이터에서 패턴을 추출할 수 있을 뿐만 아니라 실증적 데이터를 기반으로 몇 가지 이론을 구성할 수 있는 데이터 마이닝 방법의 생성
  • 데이터 마이닝 도구의 기능과 이 분야의 이론적 발전 사이의 상당한 격차를 극복합니다.

데이터 마이닝의 미래를 단기적으로 생각해보면 이 기술의 발전이 비즈니스와 관련된 분야에 가장 집중되어 있음은 자명합니다.

단기적으로 데이터 마이닝 제품은 이메일처럼 보편화되고 필수가 될 수 있으며, 예를 들어 사용자가 특정 제품이나 가장 저렴한 티켓의 최저가를 찾는 데 사용할 수 있습니다.

장기적으로 데이터 마이닝의 미래는 정말 흥미진진합니다. 지능형 에이전트가 다양한 질병에 대한 새로운 치료법을 찾고 우주의 본질에 대한 새로운 이해를 찾는 것일 수 있습니다.

그러나 데이터 마이닝에는 잠재적인 위험이 내재되어 있습니다. 결국 개인 정보를 포함하여 전 세계 네트워크를 통해 점점 더 많은 정보를 사용할 수 있게 되었으며 점점 더 많은 지식을 얻을 수 있습니다.

얼마 전 국내 최대 온라인 쇼핑몰 '아마존'이 '사용자가 상품을 구매하도록 돕는 방법 및 시스템' 특허로 스캔들의 중심에 섰다. 방문자. 새로운 방법론을 사용하면 구매 사실을 기반으로 향후 요청을 예측하고 목적에 대한 결론을 도출할 수 있습니다. 이 기술의 목적은 위에서 언급한 바와 같이 사적인 성격(성별, 나이, 선호도 등)을 포함하여 클라이언트에 대해 가능한 한 많은 정보를 얻는 것입니다. 이러한 방식으로 상점 구매자와 어린이를 포함한 가족 구성원의 개인 정보에 대한 데이터가 수집됩니다. 후자는 많은 국가의 법률에 의해 금지되어 있습니다. 미성년자에 대한 정보 수집은 부모의 허가가 있어야만 가능합니다.

연구에 따르면 데이터 마이닝을 사용하는 성공적인 솔루션과 이 기술에 대한 나쁜 경험이 모두 있습니다. 데이터 마이닝 기술이 성공할 가능성이 가장 높은 영역은 다음과 같은 특징이 있습니다.

  • 지식 기반 솔루션이 필요합니다.
  • 변화하는 환경이 있습니다.
  • 접근 가능하고 충분하며 의미 있는 데이터가 있어야 합니다.
  • 올바른 결정에서 높은 배당금을 제공합니다.

분석에 대한 기존 접근 방식

오랫동안 데이터 마이닝 분야는 데이터 분석의 본격적인 독립 분야로 인식되지 않았으며 때로는 "통계의 뒷마당"이라고 불립니다(Pregibon, 1997).

현재까지 데이터 마이닝에 대한 몇 가지 관점이 결정되었습니다. 그들 중 하나의 지지자들은 그것을 신기루로 간주하여 고전적인 분석에서 주의를 산만하게 합니다.

러시아 연방 교육 과학부

연방 주예산 고등 전문 교육 기관

"국립 연구 톰스크 공과 대학"

사이버네틱스 연구소

방향 정보 및 컴퓨터 공학

VT학과

시험

분야 정보학 및 컴퓨터 공학

주제: 데이터 마이닝 방법

소개

데이터 수집. 기본 개념 및 정의

1 데이터 마이닝 프로세스의 단계

2 채굴 시스템의 구성 요소

3 데이터 마이닝의 데이터 마이닝 방법

데이터 마이닝 방법

1 연관 규칙의 유도

2 신경망 알고리즘

3 최근접이웃 및 k-최근접이웃 방법

4 의사결정나무

5 클러스터링 알고리즘

6 유전 알고리즘

애플리케이션

데이터 마이닝 도구 제조업체

방법론에 대한 비판

결론

서지

소개

정보 기술의 발달로 인해 엄청난 양의 데이터가 전자 형태로 축적되어 빠른 속도로 증가하고 있습니다. 또한 데이터는 일반적으로 이질적인 구조(텍스트, 이미지, 오디오, 비디오, 하이퍼텍스트 문서, 관계형 데이터베이스)를 갖습니다. 장기간에 걸쳐 축적된 데이터에는 패턴, 추세 및 관계가 포함될 수 있으며 이는 계획, 예측, 의사 결정 및 프로세스 제어에 중요한 정보입니다. 그러나 사람은 물리적으로 이러한 양의 이기종 데이터를 효율적으로 분석할 수 없습니다. 전통적인 수학적 통계 방법은 오랫동안 데이터 분석의 주요 도구라고 주장해 왔습니다. 그러나 그들은 새로운 가설을 합성하는 것을 허용하지 않으며 온라인 분석 처리(OLAP)의 기초를 형성하는 이전에 공식화된 가설과 "거친" 탐색적 분석을 확인하는 데에만 사용할 수 있습니다. 데이터의 모든 패턴이 언뜻 보기에는 명확하지 않기 때문에 후속 의사 결정을 위한 분석을 수행할 때 가장 어려운 작업으로 밝혀지는 것이 종종 가설의 공식화입니다. 따라서 데이터 마이닝 기술은 정보 기술 산업의 연구 및 응용 분야에서 가장 중요하고 유망한 주제 중 하나로 간주됩니다. 이 경우 데이터 마이닝은 많은 양의 데이터를 기반으로 새롭고 정확하며 잠재적으로 유용한 지식을 결정하는 프로세스를 의미합니다. 따라서 MIT Technology Review는 데이터 마이닝을 세상을 바꿀 10가지 신흥 기술 중 하나로 설명했습니다.

1. 데이터 마이닝. 기본 개념 및 정의

데이터 마이닝은 인간 활동의 다양한 영역에서 의사 결정을 내리는 데 필요한 "원시" 데이터에서 이전에 알려지지 않은, 중요하지 않은, 실질적으로 유용하고 접근 가능한 지식 해석을 감지하는 프로세스입니다.

데이터 마이닝 기술의 본질과 목적은 다음과 같이 공식화할 수 있습니다. 많은 양의 데이터에서 불분명하고 객관적이며 실용적인 패턴을 찾기 위해 고안된 기술입니다.

불분명한 패턴은 정보 처리의 표준 방법이나 전문가의 조언으로 감지할 수 없는 패턴입니다.

객관적인 규칙성은 항상 주관적인 전문가 의견과 달리 현실과 완전히 일치하는 규칙으로 이해되어야 합니다.

이 데이터 분석 개념은 다음을 가정합니다.

§ 데이터는 부정확하고, 불완전하고(갭 포함), 모순되고, 이질적이며, 간접적일 수 있으며 동시에 방대한 양을 가질 수 있습니다. 따라서 특정 응용 프로그램의 데이터를 이해하려면 상당한 지적 노력이 필요합니다.

§ 데이터 분석을 위한 알고리즘 자체는 "지능 요소", 특히 선례에서 배우는 능력, 즉 사적인 관찰을 기반으로 일반적인 결론을 도출하는 능력을 가질 수 있습니다. 그러한 알고리즘의 개발에는 상당한 지적 노력이 필요합니다.

§ 원시 데이터를 정보로, 정보를 지식으로 처리하는 과정은 수동으로 수행할 수 없으며 자동화가 필요합니다.

데이터 마이닝 기술은 데이터에 있는 다차원 관계의 단편을 반영하는 패턴(패턴)의 개념을 기반으로 합니다. 이러한 패턴은 사람이 읽을 수 있는 형식으로 간결하게 표현할 수 있는 데이터의 하위 샘플에 고유한 패턴을 나타냅니다.

패턴 검색은 샘플의 구조와 분석된 지표 값의 분포 유형에 대한 선험적 가정의 틀에 제한되지 않는 방법으로 수행됩니다.

데이터 마이닝의 중요한 특징은 추구하는 패턴이 비표준적이고 명확하지 않다는 것입니다. 즉, 데이터 마이닝 도구는 사용자가 미리 가정한 상호의존성을 확인하지 않고 가용 데이터를 기반으로 자체적으로 이러한 상호의존성을 찾아내고 그 속성에 대한 가설을 세울 수 있다는 점에서 통계 데이터 처리 도구 및 OLAP 도구와 다릅니다. . 데이터 마이닝 방법으로 식별되는 5가지 표준 유형의 패턴이 있습니다.

· 연관 - 이벤트가 서로 연결될 가능성이 높습니다. 연관의 예로는 종종 함께 구매되는 상점의 항목이 있습니다.

· 시퀀스 - 시간과 관련된 이벤트 체인의 높은 확률. 시퀀스의 예는 한 제품을 획득한 후 일정 기간 내에 높은 확률로 다른 제품을 구매하는 상황입니다.

· 분류 - 이 또는 그 사건이나 대상이 속한 그룹을 특징짓는 기호가 있습니다.

· 클러스터링 - 분류와 유사하지만 그룹 자체가 지정되지 않는다는 점에서 다른 패턴 - 데이터 처리 중에 자동으로 감지됩니다.

· 임시 패턴 - 특정 데이터의 행동 역학에 패턴이 존재합니다. 시간적 패턴의 전형적인 예는 특정 상품이나 서비스에 대한 수요의 계절적 변동입니다.

1.1 데이터 마이닝 프로세스의 단계

전통적으로 데이터 마이닝 프로세스에서 다음 단계가 구별됩니다.

1. 주제 영역에 대한 연구, 그 결과 분석의 주요 목표가 공식화됩니다.

2. 데이터 수집.

데이터 전처리:

NS. 데이터 정리 - 원본 데이터에서 불일치 및 무작위 "노이즈" 제거

NS. 데이터 통합은 가능한 여러 소스의 데이터를 단일 리포지토리로 통합하는 것입니다. 데이터 변환. 이 단계에서 데이터는 분석에 적합한 형태로 변환됩니다. 데이터 집계, 속성 샘플링, 데이터 압축 및 차원 축소가 일반적으로 사용됩니다.

4. 데이터 분석. 이 단계에서 마이닝 알고리즘을 적용하여 패턴을 추출합니다.

5. 발견된 패턴의 해석. 이 단계에는 추출된 패턴을 시각화하고 일부 유틸리티 기능을 기반으로 정말 유용한 패턴을 식별하는 작업이 포함될 수 있습니다.

새로운 지식의 사용.

1.2 채굴 시스템의 구성 요소

일반적으로 데이터 마이닝 시스템에는 다음과 같은 주요 구성 요소가 있습니다.

1. 데이터베이스, 데이터 웨어하우스 또는 기타 정보 저장소. 정리하고 통합할 수 있는 하나 이상의 데이터베이스, 데이터 웨어하우스, 스프레드시트, 기타 종류의 리포지토리가 될 수 있습니다.

2. 데이터베이스 서버 또는 데이터 웨어하우스. 지정된 서버는 사용자의 요청에 따라 필수 데이터를 추출하는 역할을 합니다.

지식 기반. 결과 패턴의 유용성을 검색하고 평가하는 방법을 나타내는 것은 도메인 지식입니다.

지식 마이닝 서비스. 이것은 데이터 마이닝 시스템의 필수적인 부분이며 특성화, 연관 찾기, 분류, 클러스터 분석 및 분산 분석과 같은 작업을 위한 기능 모듈 세트를 포함합니다.

패턴 평가 모듈. 이 구성 요소는 패턴의 관심 또는 유용성의 측정값을 계산합니다.

그래픽 사용자 인터페이스. 이 모듈은 사용자와 데이터 마이닝 시스템 간의 통신, 다양한 형태의 패턴 시각화를 담당합니다.

1.3 데이터 마이닝에서의 데이터 마이닝 방법

데이터 마이닝 기술에서 사용되는 대부분의 분석 방법은 잘 알려진 수학적 알고리즘 및 방법입니다. 새로운 응용 프로그램은 하드웨어 및 소프트웨어의 새로운 기능으로 인해 특정 문제를 해결하는 데 사용할 수 있다는 것입니다. 대부분의 데이터 마이닝 방법은 인공 지능 이론의 틀 내에서 개발되었다는 점에 유의해야 합니다. 가장 널리 사용되는 방법을 살펴보겠습니다.

연결 규칙의 결론.

2. 신경 조직의 기능과의 유추에 기초하고 초기 매개변수가 "뉴런" 사이의 기존 연결에 따라 변환되는 신호로 간주된다는 사실에 있는 아이디어인 신경망 알고리즘, 전체 네트워크의 응답은 원본 데이터에 대한 분석 결과로 간주됩니다.

기존 이력 데이터에서 초기 데이터와 유사한 유사체 선택. "최근접 이웃" 방법이라고도 합니다.

의사 결정 트리는 "예" 또는 "아니요" 대답이 필요한 일련의 질문을 기반으로 하는 계층 구조입니다.

클러스터 모델은 데이터 세트에 있는 여러 필드의 유사한 값을 기반으로 유사한 이벤트를 그룹으로 그룹화하는 데 사용됩니다.

다음 장에서는 위의 방법에 대해 더 자세히 설명합니다.

2. 데이터 마이닝 방법

2.1 연관 규칙의 추론

연관 규칙은 "if ... then ..." 형식의 규칙입니다. 데이터 세트에서 이러한 규칙을 검색하면 겉보기에 관련 없는 데이터에서 숨겨진 관계가 드러납니다. 연관 규칙 검색의 가장 자주 인용되는 예 중 하나는 장바구니에서 안정적인 관계를 찾는 문제입니다. 문제는 마케터가 판매를 늘리기 위해 해당 품목을 매장에 적절하게 배치할 수 있도록 고객이 함께 구매하는 품목을 결정하는 것입니다.

연관 규칙은 (X1, X2, ..., Xn) -> Y 형식의 문으로 정의됩니다. 여기서 X1, X2, ..., Xn이 있는 경우 Y가 트랜잭션에 존재할 수 있다고 가정합니다. 같은 거래에서. "may"라는 단어는 규칙이 동일성이 아니라 어느 정도 가능성이 있음을 의미한다는 점에 유의해야 합니다. 또한 Y는 하나의 항목이 아니라 항목의 집합일 수 있습니다. X1, X2,…, Xn 요소가 있는 트랜잭션에서 Y를 찾을 확률을 신뢰도라고 합니다. 총 트랜잭션 수 중 규칙이 포함된 트랜잭션의 비율을 지원이라고 합니다. 규칙이 초과해야 하는 신뢰도 수준을 흥미도라고 합니다.

다양한 유형의 연결 규칙이 있습니다. 가장 간단한 형태의 연결 규칙은 연결의 존재 여부만 보고합니다. 이러한 규칙을 부울 연결 규칙이라고 합니다. 이러한 규칙의 예는 "요구르트를 구매하는 고객은 저지방 버터도 구매합니다."입니다.

여러 연결 규칙을 함께 가져오는 규칙을 다중 수준 또는 일반화된 연결 규칙이라고 합니다. 이러한 규칙을 구성할 때 항목은 일반적으로 계층에 따라 그룹화되고 검색은 가장 높은 개념 수준에서 수행됩니다. 예를 들어 "우유를 사는 고객은 빵도 산다." 이 예에서 우유와 빵에는 다양한 유형과 브랜드의 계층이 포함되어 있지만 맨 아래 수준에서 검색하면 흥미로운 규칙을 찾을 수 없습니다.

보다 복잡한 유형의 규칙은 양적 연관 규칙입니다. 이 유형의 규칙은 양적(예: 가격) 또는 범주(예: 성별) 속성을 사용하여 검색되며 다음과 같이 정의됩니다. , ,…,} -> ... 예를 들어, "30세에서 35세 사이의 연 소득 75,000 이상의 고객은 20,000 이상의 가치가 있는 자동차를 구매합니다."

위의 규칙 유형은 트랜잭션이 본질적으로 시간 종속적이라는 사실을 다루지 않습니다. 예를 들어, 제품이 판매 목록에 오르기 전이나 시장에서 사라진 후에 검색하면 지원 임계값에 부정적인 영향을 미칩니다. 이를 염두에 두고 임시 연관 규칙 검색 알고리즘의 속성 수명 개념이 도입되었습니다.

연관 규칙을 찾는 문제는 일반적으로 자주 발생하는 요소 집합을 검색하는 것과 발견된 자주 발생하는 집합을 기반으로 규칙을 생성하는 두 부분으로 분해할 수 있습니다. 대부분의 선행연구에서는 이러한 방향을 따랐고 다양한 방향으로 확장해 왔다.

Apriori 알고리즘의 출현 이후 이 알고리즘은 첫 번째 단계에서 가장 일반적으로 사용되었습니다. 예를 들어 속도 및 확장성에서 많은 개선 사항은 가장 일반적인 요소 집합에 대해 너무 많은 후보를 생성하는 잘못된 속성을 수정하기 위해 Apriori 알고리즘을 개선하는 것을 목표로 합니다. Apriori는 트랜잭션을 재검토하지 않고 이전 단계에서 찾은 큰 항목 집합만을 사용하여 항목 집합을 생성합니다. 수정된 AprioriTid 알고리즘은 첫 번째 패스에서만 데이터베이스를 사용하여 Apriori를 개선합니다. 후속 단계의 계산은 원래 데이터베이스보다 훨씬 작은 첫 번째 단계에서 생성된 데이터만 사용합니다. 이는 엄청난 생산성 향상으로 이어집니다. AprioriHybrid라고 하는 추가 개선된 버전의 알고리즘은 처음 몇 단계에서 Apriori를 사용하여 얻을 수 있으며 이후 단계에서 k번째 후보 세트가 이미 컴퓨터 메모리에 완전히 할당될 수 있을 때 AprioriTid로 전환합니다.

Apriori 알고리즘을 개선하기 위한 추가 노력은 알고리즘의 병렬화(카운트 분포, 데이터 분포, 후보 분포 등), 스케일링(지능형 데이터 분포, 하이브리드 분포), 나무와 같은 새로운 데이터 구조의 도입과 관련됩니다. 자주 발생하는 요소(FP-성장).

두 번째 단계는 대부분 정통하고 흥미롭습니다. 새로운 수정 사항은 위에서 설명한 차원, 품질 및 시간 지원을 기존 부울 규칙 규칙에 추가합니다. 진화 알고리즘은 종종 규칙을 찾는 데 사용됩니다.

2.2 신경망 알고리즘

인공 신경망은 그것을 재생산하기 위해 인간 신경계의 기능 연구에 수학적 장치를 적용한 결과 나타났습니다. 즉, 신경계가 오류를 학습하고 수정하는 능력으로, 다소 조잡하긴 하지만 인간 두뇌의 작업을 시뮬레이션할 수 있어야 합니다. 신경망의 주요 구조적 및 기능적 부분은 그림 1에서와 같이 형식 뉴런입니다. 1, 여기서 x0, x1, ..., xn은 입력 신호 벡터의 구성 요소이고 w0, w1, ..., wn은 뉴런의 입력 신호 가중치 값이고 y는 뉴런의 출력 신호.

쌀. 1. 형식 뉴런: 시냅스(1), 가산기(2), 변환기(3).

형식 뉴런은 시냅스, 가산기 및 변환기의 3가지 유형의 요소로 구성됩니다. 시냅스는 두 뉴런 간의 연결 강도를 나타냅니다.

가산기는 해당 가중치를 미리 곱한 입력 신호를 더합니다. 변환기는 가산기의 출력인 한 인수의 기능을 구현합니다. 이 함수를 활성화 함수 또는 뉴런의 전달 함수라고 합니다.

위에서 설명한 형식 뉴런은 일부 뉴런의 출력 신호가 다른 뉴런에 입력되는 방식으로 결합될 수 있습니다. 상호 연결된 뉴런의 결과 집합을 인공 신경망(ANN) 또는 간단히 말해서 신경망이라고 합니다.

신경망에서의 위치에 따라 세 가지 일반적인 유형의 뉴런이 있습니다.

입력 신호를 수신하는 입력 뉴런. 이러한 뉴런, 뉴런은 일반적으로 단위 가중치가 있는 하나의 입력을 가지며 편향이 없으며 뉴런의 출력 값은 입력 신호와 같습니다.

출력 뉴런(출력 노드), 출력 값은 신경망의 결과 출력 신호를 나타냅니다.

은닉 뉴런은 입력 신호와 직접적인 연결이 없는 반면 은닉 뉴런의 출력 신호 값은 ANN의 출력 신호가 아니다.

뉴런 간 연결의 구조에 따라 ANN의 두 가지 클래스가 구별됩니다.

신호가 입력 뉴런에서 출력 뉴런으로만 전파되는 직접 전파의 ANN.

피드백이 있는 반복적인 ANN - ANN. 이러한 ANN에서 신호는 ANN에서의 위치에 관계없이 모든 뉴런 간에 전송될 수 있습니다.

ANN을 가르치는 데에는 두 가지 일반적인 접근 방식이 있습니다.

교사와 함께 학습.

선생님 없이 배우기.

지도 학습은 미리 정의된 일련의 교육 예를 사용하는 것을 포함합니다. 각 예에는 당면한 작업에 따라 달라지는 입력 신호의 벡터와 기준 출력 신호의 해당 벡터가 포함됩니다. 이 집합을 훈련 집합 또는 훈련 집합이라고 합니다. 신경망 훈련은 ANN 연결 가중치의 변경을 목표로 하며, 여기서 ANN 출력 신호의 값은 주어진 입력 벡터에 대해 필요한 출력 신호 값과 가능한 한 적게 다릅니다 신호.

비지도 학습에서 연결의 가중치는 뉴런 간의 경쟁의 결과로 조정되거나 연결이 있는 뉴런의 출력 신호의 상관 관계를 고려하여 조정됩니다. 비지도 학습의 경우 훈련 샘플을 사용하지 않습니다.

신경망은 우주 왕복선의 탑재량 계획 및 환율 예측과 같은 광범위한 작업을 해결하는 데 사용됩니다. 그러나 모델의 복잡성(수백 개의 신경간 연결의 가중치로 기록된 지식은 사람이 분석하고 해석할 수 없음)과 대규모 훈련 샘플에 대한 긴 훈련 시간으로 인해 데이터 마이닝 시스템에서 자주 사용되지 않습니다. 반면 신경망은 잡음이 있는 데이터에 대한 내성과 높은 정확도 등 데이터 분석 작업에 활용하기 좋은 장점이 있다.

2.3 최근접이웃과 k-최근접이웃 방법

최근접 이웃 알고리즘과 k-최근접 이웃 알고리즘(KNN)은 특징 유사도를 기반으로 합니다. 가장 가까운 이웃 알고리즘은 알려진 모든 객체 중에서 이전에 알려지지 않은 새로운 객체에 최대한 가까운 객체를 선택합니다(예: 유클리드와 같은 객체 간의 거리 측정법 사용). 최근접 이웃 방법의 주요 문제는 훈련 데이터의 이상값에 대한 민감도입니다.

설명된 문제는 새로운 객체와 유사한 이미 k-최근접 이웃을 모든 관측치 사이에서 구별하는 KNN 알고리즘에 의해 피할 수 있습니다. 가장 가까운 이웃의 클래스를 기반으로 새 객체에 대한 결정이 내려집니다. 이 알고리즘의 중요한 작업은 유사한 것으로 간주될 레코드 수인 계수 k를 선택하는 것입니다. 이웃의 기여도가 새 객체까지의 거리에 비례하는 알고리즘 수정(k-가중된 최근접 이웃 방법)을 통해 분류 정확도를 높일 수 있습니다. k 최근접 이웃 방법을 사용하면 예측 정확도를 추정할 수도 있습니다. 예를 들어, 모든 k개의 최근접이웃이 같은 클래스를 가지고 있다면, 체크된 객체가 같은 클래스를 가질 확률은 매우 높습니다.

알고리즘의 특징 중 변칙적인 폭발에 대한 저항은 k-최근접 이웃의 수에 포함될 확률이 적기 때문에 주목할 가치가 있습니다. 이 경우 투표(특히 가중)(k>2의 경우)에 대한 영향도 미미할 가능성이 높으므로 분류 결과에 대한 영향도 작을 것입니다. 또한 간단한 구현, 알고리즘 결과 해석의 용이함, 가장 적절한 조합 기능과 메트릭을 사용하여 알고리즘을 수정할 수 있는 기능, 특정 작업에 대한 알고리즘을 조정할 수 있는 장점이 있습니다. KNN 알고리즘에도 여러 가지 단점이 있습니다. 첫째, 알고리즘에 사용된 데이터세트가 대표성을 띠어야 합니다. 둘째, 모델을 데이터에서 분리할 수 없습니다. 모든 예는 새 예를 분류하는 데 사용해야 합니다. 이 기능은 알고리즘 사용을 심각하게 제한합니다.

2.4 의사 결정 트리

"의사결정 트리"라는 용어는 계층적, 순차적 구조의 분류 규칙 표현을 기반으로 하는 일련의 알고리즘을 의미합니다. 이것은 데이터 마이닝 문제를 해결하기 위해 가장 많이 사용되는 알고리즘 클래스입니다.

결정 트리를 구성하기 위한 일련의 알고리즘을 사용하면 다른 유사한 사례에 대한 많은 양의 데이터를 기반으로 주어진 사례에 대한 매개변수 값을 예측할 수 있습니다. 일반적으로 이 계열의 알고리즘은 모든 소스 데이터를 여러 개별 그룹으로 나눌 수 있는 문제를 해결하는 데 사용됩니다.

일련의 입력 데이터에 의사 결정 트리를 구성하는 알고리즘을 적용하면 결과가 트리 형태로 표시됩니다. 이러한 알고리즘은 결과 그룹(나무 가지)을 다른 기능을 기반으로 더 작은 그룹으로 나누는 여러 수준의 분할을 허용합니다. 나눗셈은 얻은 모든 그룹(나무의 잎사귀)에 대해 예측되어야 하는 값이 동일해질 때까지(또는 예측된 매개변수의 연속 값의 경우 닫힘) 계속됩니다. 이 모델을 기반으로 예측하는 데 사용되는 것은 이러한 값입니다.

의사 결정 트리를 구성하는 알고리즘의 작동은 회귀 및 상관 분석 방법의 적용을 기반으로 합니다. 이 제품군에서 가장 널리 사용되는 알고리즘 중 하나는 트리 분기의 데이터를 두 개의 하위 분기로 나누는 것을 기반으로 하는 CART(분류 및 회귀 트리)입니다. 이 경우 하나 또는 다른 분기의 추가 분할은 이 분기가 설명하는 초기 데이터의 양에 따라 다릅니다. 다른 여러 유사한 알고리즘을 사용하면 분기를 더 많은 하위 분기로 분할할 수 있습니다. 이 경우, 분할이 발생하는 매개변수와 미래에 예측될 매개변수 간의 설명된 데이터 분기에 대한 가장 높은 상관 계수를 기준으로 분할이 이루어집니다.

접근 방식의 인기는 명확성과 명확성과 관련이 있습니다. 그러나 의사 결정 트리는 기본적으로 데이터에서 "최상의"(가장 완전하고 정확한) 규칙을 찾을 수 없습니다. 그들은 기능을 순차적으로 보는 순진한 원칙을 구현하고 실제로 실제 패턴의 일부를 찾아 논리적 결론의 환상만 만듭니다.

2.5 클러스터링 알고리즘

클러스터링은 개체 집합을 클러스터라고 하는 그룹으로 나누는 작업입니다. 클러스터링과 분류의 주요 차이점은 그룹 목록이 명확하게 지정되지 않고 알고리즘 작동 중에 결정된다는 것입니다.

일반적으로 클러스터 분석의 적용은 다음 단계로 축소됩니다.

· 클러스터링을 위한 개체 샘플 선택;

· 샘플의 개체가 평가될 변수 집합의 결정. 필요한 경우 변수 값을 정규화하십시오.

· 개체 간의 유사성 측정 값의 계산;

· 유사한 개체(클러스터)의 그룹을 생성하기 위한 클러스터 분석 방법의 적용;

· 분석 결과 발표.

결과를 얻고 분석한 후 최적의 결과를 얻을 때까지 선택한 메트릭 및 클러스터링 방법을 조정할 수 있습니다.

클러스터링 알고리즘 중에서 계층적 그룹과 플랫 그룹이 구별됩니다. 계층적 알고리즘(분류 알고리즘이라고도 함)은 샘플의 한 파티션을 분리된 클러스터로 구축하는 것이 아니라 중첩된 파티션 시스템을 구축합니다. 따라서 알고리즘의 출력은 클러스터 트리이며, 루트는 전체 샘플이고 잎은 가장 작은 클러스터입니다. 플랫 알고리즘은 개체의 한 파티션을 분리된 클러스터로 만듭니다.

클러스터링 알고리즘의 또 다른 분류는 명확하고 퍼지 알고리즘입니다. 명확한(또는 겹치지 않는) 알고리즘은 각 샘플 개체에 클러스터 번호를 할당합니다. 즉, 각 개체는 하나의 클러스터에만 속합니다. 퍼지(또는 중첩) 알고리즘은 각 개체를 클러스터에 대한 개체의 관계 정도를 나타내는 실제 값 집합과 연결합니다. 따라서 각 객체는 어느 정도 확률로 각 클러스터에 속합니다.

계층적 클러스터링 알고리즘에는 상향식 알고리즘과 하향식 알고리즘의 두 가지 주요 유형이 있습니다. 하향식 알고리즘은 하향식 원칙에 따라 작동합니다. 먼저 모든 개체가 하나의 클러스터에 배치된 다음 점점 더 작은 클러스터로 분할됩니다. 상향식 알고리즘은 작업 시작 시 각 개체를 별도의 클러스터에 배치한 다음 샘플의 모든 개체가 하나의 클러스터에 포함될 때까지 클러스터를 점점 더 큰 클러스터로 결합하는 것이 더 일반적입니다. 따라서 중첩 파티션 시스템이 구성됩니다. 이러한 알고리즘의 결과는 일반적으로 트리 형태로 표시됩니다.

계층적 알고리즘의 단점은 전체 파티션 시스템으로, 해결되는 문제의 맥락에서 중복될 수 있습니다.

이제 평면 알고리즘을 고려하십시오. 이 클래스 중 가장 간단한 것은 제곱 법칙 알고리즘입니다. 이러한 알고리즘에 대한 클러스터링 문제는 개체를 그룹으로 최적으로 분할하는 것으로 간주할 수 있습니다. 이 경우 최적성은 파티션의 평균 제곱 오차를 최소화하기 위한 요구 사항으로 정의할 수 있습니다.

,

어디 j - 클러스터의 "질량 중심" 제이(주어진 클러스터에 대한 특성의 평균값이 있는 포인트).

이 범주에서 가장 일반적인 알고리즘은 k-means 방법입니다. 이 알고리즘은 가능한 한 멀리 떨어져 있는 주어진 수의 클러스터를 구축합니다. 알고리즘의 작동은 여러 단계로 나뉩니다.

무작위로 선택 케이클러스터의 초기 "질량 중심"인 점.

2. 가장 가까운 "질량 중심"이 있는 클러스터에 각 개체를 할당합니다.

알고리즘 중지 기준이 충족되지 않으면 항목 2로 돌아갑니다.

알고리즘의 작동을 중지하는 기준으로 제곱 평균 제곱근 오차의 최소 변화가 일반적으로 선택됩니다. 2단계에서 클러스터에서 클러스터로 이동된 객체가 없는 경우 알고리즘 작동을 중지할 수도 있습니다. 이 알고리즘의 단점은 분할을 위해 클러스터 수를 지정해야 한다는 점입니다.

가장 널리 사용되는 퍼지 클러스터링 알고리즘은 c-means 알고리즘입니다. k-means 방법의 수정입니다. 알고리즘 단계:

1. 초기 퍼지 파티션 선택 N에 개체 케이멤버십 매트릭스를 선택하여 클러스터링 크기 n×k.

2. 행렬 U를 사용하여 퍼지 오류 기준의 값을 찾습니다.

,

어디 k - 퍼지 클러스터의 "질량 중심" 케이:

3. 퍼지 오류 기준의 이 값을 줄이기 위해 개체를 다시 그룹화합니다.

4. 행렬이 바뀔 때까지 2단계로 돌아간다. 중요하지 않게 될 것입니다.

이 알고리즘은 클러스터의 수를 미리 알 수 없거나 각 개체를 하나의 클러스터에 명확하게 할당해야 하는 경우 작동하지 않을 수 있습니다.

다음 알고리즘 그룹은 그래프 이론에 기반한 알고리즘입니다. 이러한 알고리즘의 본질은 객체의 선택이 그래프 형태로 표현된다는 것입니다. G = (V, E), 정점이 객체에 해당하고 모서리는 객체 사이의 "거리"와 동일한 가중치를 갖습니다. 그래프 클러스터링 알고리즘의 장점은 명확성, 구현의 상대적 용이성 및 기하학적 고려 사항을 기반으로 한 다양한 개선 가능성입니다. 주요 알고리즘은 연결 성분 추출 알고리즘, 최소 스패닝 트리 구성 알고리즘, 계층별 클러스터링 알고리즘이다.

매개변수를 선택하려면 NS일반적으로 쌍별 거리 분포의 히스토그램이 그려집니다. 데이터의 클러스터 구조가 잘 발음되는 문제에서 히스토그램에는 두 개의 피크가 있습니다. 하나는 클러스터 내 거리에 해당하고 두 번째는 클러스터 간 거리에 해당합니다. 매개변수 NS이 피크 사이의 최소 영역에서 선택됩니다. 동시에 거리 임계값을 사용하여 클러스터의 수를 제어하는 ​​것은 다소 어렵습니다.

최소 신장 트리 알고리즘은 먼저 그래프에 최소 신장 트리를 구성한 다음 가중치가 가장 높은 간선을 순차적으로 제거합니다. 레이어별 클러스터링 알고리즘은 개체(꼭짓점) 사이의 특정 수준 거리에서 그래프의 연결된 구성 요소 선택을 기반으로 합니다. 거리 수준은 거리 임계값에 의해 설정됩니다. ... 예를 들어, 물체 사이의 거리라면.

계층별 클러스터링 알고리즘은 일련의 그래프 하위 그래프를 형성합니다. NS클러스터 간의 계층적 관계를 반영합니다.

,

어디 NS NS = (V, E NS ) - 수준에서 그래프 ~와 함께 NS, ,

~와 함께 t는 거리의 t번째 임계값, m은 계층 수준 수,
NS 0 = (V, o), o는 에 대해 얻은 그래프 간선의 빈 집합입니다. NS 0 = 1,
NS미디엄 = 지, 즉, 거리(그래프의 가장자리 길이)에 대한 제한이 없는 객체의 그래프이므로, NS m = 1.

거리 임계값을 변경하여( ~와 함께 0 , …, 와 함께 m), 여기서 0 = ~와 함께 0 < ~와 함께 1 < …< ~와 함께 m = 1이면 결과 클러스터의 계층 구조 깊이를 제어할 수 있습니다. 따라서 계층별 클러스터링 알고리즘은 평면 데이터 분할과 계층적 데이터 분할을 모두 생성할 수 있습니다.

클러스터링을 통해 다음 목표를 달성할 수 있습니다.

· 구조적 그룹을 식별하여 데이터에 대한 이해를 향상시킵니다. 샘플을 유사한 개체의 그룹으로 나누면 각 클러스터에 고유한 분석 방법을 적용하여 추가 데이터 처리 및 의사 결정을 단순화할 수 있습니다.

· 데이터를 컴팩트하게 저장할 수 있습니다. 이렇게 하려면 전체 샘플을 저장하는 대신 각 클러스터에서 하나의 일반적인 관찰을 남길 수 있습니다.

· 클러스터에 포함되지 않은 새로운 비정형 개체 감지.

일반적으로 클러스터링은 데이터 분석의 보조 수단으로 사용됩니다.

2.6 유전 알고리즘

유전 알고리즘은 다양한 유형의 문제(제한이 있거나 없는 조합, 일반 문제)와 다양한 복잡성 정도의 문제를 해결할 수 있는 보편적인 최적화 방법 중 하나입니다. 동시에 유전 알고리즘은 지형이 매끄럽지 않은 넓은 공간에서 단일 기준 및 다중 기준 검색의 가능성이 특징입니다.

이 방법 그룹은 선택, 돌연변이 및 교차 작업을 포함하여 모델 세대 시퀀스의 반복적인 진화 과정을 사용합니다. 알고리즘 시작 시 모집단은 무작위로 형성됩니다. 코딩된 솔루션의 품질을 평가하기 위해 각 개인의 적합성을 계산하는 데 필요한 적합성 함수가 사용됩니다. 개인의 평가 결과에 따라 가장 적합한 것이 교차로 선택됩니다. 유전자 교배 연산자를 이용하여 선택된 개체를 교배하여 자손을 생성하고, 그 유전 정보는 부모 개체 간의 염색체 정보 교환의 결과로 형성된다. 생성된 자손은 새로운 개체군을 형성하고 자손 중 일부는 돌연변이를 일으키며 이는 유전자형의 무작위 변화로 표현됩니다. "인구추정" - "선택" - "교차" - "돌연변이"의 순서를 포함하는 단계를 세대라고 합니다. 인구 진화는 그러한 세대의 연속으로 구성됩니다.

횡단을 위해 개인을 선택하기 위한 다음 알고리즘이 구별됩니다.

· 팬믹시아. 부모 쌍을 구성하는 두 개인은 전체 모집단에서 무작위로 선택됩니다. 모든 개인은 여러 쌍의 구성원이 될 수 있습니다. 이 접근 방식은 보편적이지만 알고리즘의 효율성은 인구 규모가 증가함에 따라 감소합니다.

· 선택. 평균 이상의 체력을 가진 개인이 부모가 될 수 있습니다. 이 접근 방식은 알고리즘의 더 빠른 수렴을 제공합니다.

· 근친상간. 이 방법은 친밀한 관계를 기반으로 한 커플의 형성을 기반으로합니다. 여기서 혈연은 매개변수 공간에서 개인의 기하학적 거리와 유전자형 간의 헤밍 거리의 의미에서 인구 구성원 간의 거리로 이해됩니다. 따라서 유전형 근친 교배와 표현형 근친 교배를 구분합니다. 교차를위한 쌍의 첫 번째 구성원은 무작위로 선택되고 두 번째 구성원은 더 큰 확률로 가능한 한 그와 가까운 개인이됩니다. 근친 교배는 지역 노드에서 검색이 집중되는 특성을 특징으로 할 수 있으며, 이는 실제로 개체군을 극단적으로 의심되는 경관 지역 주변의 별도의 지역 그룹으로 분할합니다.

· 근친교배. 가장 먼 개인을 위해 먼 관계를 기반으로 한 쌍의 형성. 근친 교배는 알고리즘이 이미 발견된 솔루션으로 수렴되는 것을 방지하여 알고리즘이 새로운 미개척 영역을 찾도록 하는 것을 목표로 합니다.

새로운 인구를 형성하기 위한 알고리즘:

· 변위 선택. 동일한 유전자형을 가진 모든 개체 중에서 적합도가 더 높은 개체를 선호합니다. 따라서 두 가지 목표가 달성됩니다. 다른 염색체 세트를 사용하여 가장 잘 발견된 솔루션이 손실되지 않고 집단에서 충분한 유전적 다양성이 지속적으로 유지된다는 것입니다. 이재이주는 발견된 현재 솔루션을 중심으로 개인이 그룹화되는 대신 멀리 떨어진 개인의 새로운 인구를 형성합니다. 이 방법은 다중 극한 작업에 사용됩니다.

· 엘리트 선택. 엘리트 선발 방식은 최고의 인구 구성원이 생존할 수 있도록 보장합니다. 동시에 최고의 개인 중 일부는 아무런 변화 없이 다음 세대로 넘어갑니다. 엘리트 선택이 제공하는 빠른 수렴은 적절한 부모 선택 방법으로 보상될 수 있습니다. 이 경우 근친 교배가 자주 사용됩니다. 가장 효과적인 것 중 하나는 "교배 - 엘리트 선택"의 조합입니다.

· 토너먼트 선택. 토너먼트 선택은 n명의 개인을 선택하기 위해 n개의 토너먼트를 구현합니다. 각 토너먼트는 모집단에서 k 요소의 샘플과 그 중에서 최고의 개인을 선택하여 구성됩니다. k = 2인 가장 일반적인 토너먼트 선택.

데이터 마이닝 분야에서 유전자 알고리즘의 가장 인기 있는 응용 프로그램 중 하나는 가장 최적의 모델을 찾는 것입니다(특정 영역의 특성과 일치하는 알고리즘 검색). 유전 알고리즘은 주로 신경망 토폴로지와 가중치를 최적화하는 데 사용됩니다. 그러나 독립적인 도구로 사용하는 것도 가능합니다.

3. 적용분야

데이터 마이닝 기술은 실제로 모든 유형의 데이터를 분석하기 위한 보편적인 도구 세트인 매우 광범위한 응용 프로그램을 가지고 있습니다.

마케팅

데이터 마이닝 기술이 적용된 초기 영역 중 하나는 마케팅이었습니다. 데이터 마이닝 방법의 개발을 시작한 작업을 장바구니 분석이라고 합니다.

이 작업은 구매자가 함께 구매하려는 제품을 식별하는 것입니다. 장바구니에 대한 지식은 광고 캠페인, 고객에 대한 개인 추천 형성, 상품 재고 생성 전략 개발 및 판매 영역 레이아웃 방법에 필요합니다.

또한 마케팅에서 이러한 작업은 보다 성공적인 판촉을 위해 특정 제품의 대상 고객을 결정하는 것으로 해결됩니다. 기업이 재고 결정을 내리는 데 도움이 되는 시간 패턴 연구; 기업이 특정 행동을 보이는 다양한 범주의 고객 요구 사항의 특성을 인식할 수 있도록 하는 예측 모델 생성 고객 충성도 예측을 통해 고객의 행동을 분석할 때 고객이 떠나는 순간을 미리 파악하고 소중한 고객의 손실을 방지할 수 있습니다.

산업

이 영역의 중요한 방향 중 하나는 모니터링 및 품질 관리로, 분석 도구를 사용하여 장비 고장, 오작동 모양을 예측하고 수리 작업을 계획할 수 있습니다. 특정 특성의 인기도를 예측하고 일반적으로 함께 주문되는 특성을 아는 것은 생산을 최적화하고 소비자의 실제 요구에 맞춰 생산하는 데 도움이 됩니다.

의학

의학에서는 데이터 분석도 매우 성공적으로 사용됩니다. 작업의 예는 검사 결과 분석, 진단, 치료 방법 및 약물의 효과 비교, 질병 및 분포 분석, 부작용 식별입니다. 연관 규칙 및 순차 패턴과 같은 데이터 마이닝 기술은 약물 섭취와 부작용 간의 연관성을 식별하는 데 성공적으로 사용되었습니다.

분자유전학 및 유전공학

실험 데이터에서 패턴을 발견하는 가장 중요하고 동시에 분명한 작업은 아마도 분자 유전학 및 유전 공학일 것입니다. 여기에서 그것은 살아있는 유기체의 특정 표현형 특성을 제어하는 ​​유전 코드로 이해되는 마커의 정의로 공식화됩니다. 이러한 코드에는 수백, 수천 또는 그 이상의 관련 요소가 포함될 수 있습니다. 데이터의 분석 분석 결과는 유전 과학자들이 발견 한 사람의 DNA 서열 변화와 다양한 질병 발병 위험 사이의 관계이기도합니다.

응용화학

데이터 마이닝 방법은 응용 화학 분야에서도 사용됩니다. 여기서 종종 그 성질을 결정하는 특정 화합물의 화학 구조의 특징을 설명하는 문제가 발생합니다. 이 문제는 특히 수백 수천 개의 구조 요소와 결합을 포함하는 복잡한 화합물의 분석과 관련이 있습니다.

범죄와의 전쟁

데이터 마이닝 도구는 비교적 최근에 보안을 보장하기 위해 사용되었지만 이 영역에서 데이터 마이닝의 효율성을 확인하는 실질적인 결과를 이미 얻었습니다. 스위스 과학자들은 미래의 사건을 예측하기 위해 시위 활동을 분석하는 시스템과 새로운 사이버 위협과 전 세계 해커의 행동을 추적하는 시스템을 개발했습니다. 후자의 시스템은 사이버 위협 및 기타 정보 보안 위험을 예측할 수 있습니다. 또한 데이터 마이닝 방법은 신용 카드 사기를 감지하는 데 성공적으로 사용됩니다. 나중에 사기로 판명된 과거 거래를 분석하여 은행은 그러한 사기에 대한 몇 가지 고정 관념을 식별합니다.

기타 애플리케이션

· 위험도 분석. 예를 들어, 보험사는 지급된 청구와 관련된 요소의 조합을 식별하여 책임 손실을 줄일 수 있습니다. 미국의 한 대형 보험사에서 기혼자 명세서에 기재된 금액이 미혼자 명세서에 기재된 금액의 2배에 달하는 것을 발견한 것으로 알려진 사례가 있다. 회사는 가족 고객에 대한 일반 할인 정책을 수정하여 이 새로운 지식에 대응했습니다.

· 기상학. 신경망을 이용한 일기예보, 특히 자기조직화 코호넨 지도가 사용된다.

· 인사정책. 분석 도구는 HR 서비스가 이력서 데이터 분석을 기반으로 가장 성공적인 후보자를 선택하고 특정 직책에 대한 이상적인 직원의 특성을 모델링하는 데 도움이 됩니다.

4. 데이터 마이닝 도구 생산자

데이터 마이닝 도구는 전통적으로 값비싼 소프트웨어 제품에 속합니다. 따라서 최근까지 이 기술의 주요 소비자는 은행, 금융 및 보험 회사, 대형 무역 회사였으며 Data Mining의 사용을 필요로 하는 주요 업무는 신용 및 보험 위험 평가와 마케팅 정책, 관세 계획 개발이었습니다. 및 클라이언트와 함께 일하는 다른 원칙. 최근 몇 년 동안 상황이 바뀌었습니다. 비교적 저렴한 데이터 마이닝 도구와 무료 배포 시스템이 소프트웨어 시장에 등장하여 이 기술을 중소기업에서 사용할 수 있게 되었습니다.

유료 도구 및 데이터 분석 시스템 중 선두는 SAS Institute(SAS Enterprise Miner), SPSS(SPSS, Clementine) 및 StatSoft(STATISTICA Data Miner)입니다. Angoss(Angoss KnowledgeSTUDIO), IBM(IBM SPSS Modeler), Microsoft(Microsoft Analysis Services) 및 (Oracle) Oracle Data Mining의 솔루션이 잘 알려져 있습니다.

무료 소프트웨어의 선택도 다양합니다. JHepWork, KNIME, Orange, RapidMiner와 같은 범용 분석 도구와 특수 도구(예: Carrot2 - 텍스트 데이터 및 검색 결과를 클러스터링하기 위한 프레임워크), Chemicalize.org - 응용 화학 분야 솔루션, NLTK가 있습니다. (Natural Language Toolkit) 자연어 처리 도구.

5. 방법론에 대한 비판

데이터 마이닝 결과는 주로 데이터 준비 수준에 따라 달라지며 일부 알고리즘이나 알고리즘 집합의 "기적" 기능이 아닙니다. 데이터 마이닝 작업의 약 75%는 분석 도구를 사용하기 전에 수행되는 데이터 수집으로 구성됩니다. 도구를 문맹으로 사용하면 회사의 잠재력이 무의미하게 낭비되고 때로는 수백만 달러가 낭비됩니다.

데이터 마이닝, 데이터 웨어하우징 및 CRM 분야에서 세계적으로 유명한 전문가인 Herb Edelstein에 따르면, “Two Crows의 최근 연구에 따르면 데이터 마이닝은 아직 초기 단계에 있습니다. 많은 조직이 이 기술에 관심을 갖고 있지만 소수의 조직만이 이러한 프로젝트를 적극적으로 구현하고 있습니다. 데이터 마이닝을 실제로 구현하는 프로세스가 예상보다 복잡하다는 또 다른 중요한 점을 발견했는데 팀은 데이터 마이닝 도구가 사용하기 쉽다는 신화에 도취되어 있었습니다. 테라바이트 데이터베이스에서 이러한 도구를 실행하는 것으로 충분하며 유용한 정보가 즉시 나타날 것이라고 가정합니다. 실제로 성공적인 데이터 마이닝 프로젝트는 활동의 본질, 데이터 및 도구에 대한 지식, 데이터 분석 프로세스에 대한 이해가 필요합니다." 따라서 데이터 마이닝 기술을 사용하기 전에 방법의 한계와 이와 관련된 중요한 문제를 주의 깊게 분석하고 기술의 능력을 냉정하게 평가해야 합니다. 중요한 문제는 다음과 같습니다.

1. 기술은 묻지 않은 질문에 대한 답변을 제공할 수 없습니다. 분석가를 대체할 수는 없지만 작업을 촉진하고 개선할 수 있는 강력한 도구만 제공합니다.

2. 데이터 마이닝 애플리케이션의 개발 및 운영의 복잡성.

이 기술은 다학제 분야이기 때문에 데이터 마이닝을 포함하는 응용 프로그램을 개발하려면 다양한 분야의 전문가가 참여하고 고품질 상호 작용이 보장되어야 합니다.

3. 사용자 자격.

데이터 마이닝 도구마다 사용자 친화도가 다르며 특정 사용자 자격이 필요합니다. 따라서 소프트웨어는 사용자의 교육 수준과 일치해야 합니다. 데이터 마이닝의 사용은 사용자의 자격 향상과 불가분의 관계가 있어야 합니다. 그러나 현재 비즈니스 프로세스에 정통한 데이터 마이닝 전문가는 거의 없습니다.

4. 데이터의 본질에 대한 충분한 이해 없이는 유용한 정보의 추출이 불가능하다.

발견된 종속성 또는 패턴에 대한 신중한 모델 선택 및 해석이 필요합니다. 따라서 이러한 도구로 작업하려면 해당 주제 전문가와 데이터 마이닝 도구 전문가 간의 긴밀한 협력이 필요합니다. 모델을 평가하고 업데이트하려면 상설 모델을 비즈니스 프로세스에 지능적으로 통합해야 합니다. 최근에는 데이터 웨어하우스 기술의 일부로 데이터 마이닝 시스템이 출시되었습니다.

5. 데이터 준비의 복잡성.

성공적인 분석을 위해서는 고품질 데이터 전처리가 필요합니다. 분석가와 데이터베이스 사용자에 따르면 전처리 프로세스는 전체 데이터 마이닝 프로세스의 최대 80%를 차지할 수 있습니다.

따라서 기술이 자체적으로 작동하려면 예비 데이터 분석, 모델 선택 및 수정에 많은 노력과 시간이 소요됩니다.

6. 많은 비율의 거짓, 신뢰할 수 없거나 쓸모없는 결과.

데이터 마이닝 기술의 도움으로 향후 계획, 관리 및 의사 결정에 상당한 이점을 제공할 수 있는 매우 귀중한 정보를 찾을 수 있습니다. 그러나 데이터 마이닝 방법을 사용하여 얻은 결과에는 종종 잘못된 결론과 의미 없는 결론이 포함됩니다. 많은 전문가들은 데이터 마이닝 도구가 통계적으로 신뢰할 수 없는 엄청난 양의 결과를 생성할 수 있다고 주장합니다. 이러한 결과의 비율을 줄이기 위해서는 테스트 데이터에서 얻은 모델의 적합성을 확인해야 합니다. 그러나 잘못된 결론을 완전히 피하는 것은 불가능합니다.

7. 높은 비용.

양질의 소프트웨어 제품은 개발자의 상당한 노력의 결과입니다. 따라서 데이터 마이닝 소프트웨어는 전통적으로 고가의 소프트웨어 제품으로 간주됩니다.

8. 충분한 대표 데이터의 가용성.

데이터 마이닝 도구는 통계 도구와 달리 이론적으로 엄격하게 정의된 양의 기록 데이터가 필요하지 않습니다. 이 기능으로 인해 부정확하고 잘못된 모델이 감지되고 결과적으로 이를 기반으로 잘못된 결정이 채택될 수 있습니다. 발견된 지식의 통계적 유의성을 통제할 필요가 있다.

신경망 알고리즘 클러스터링 데이터 마이닝

결론

응용 분야에 대해 간략히 설명하고 데이터 마이닝 기술에 대한 비판과 이 분야 전문가들의 의견을 제시합니다.

목록문학

1. 한과 미쉐린 캠버. 데이터 마이닝: 개념 및 기술. 두번째 버전. - 일리노이 대학교 어바나 샴페인

Berry, Michael J. A. 데이터 마이닝 기술: 마케팅, 영업 및 고객 관계 관리 - 2nd ed.

시우닌람. 데이터 마이닝에서 연관 규칙 발견. - Urbana-Champaign 일리노이 대학교 컴퓨터 공학과

지식 기반에서 좋은 작업을 보내는 것은 간단합니다. 아래 양식을 사용하십시오

연구와 작업에 지식 기반을 사용하는 학생, 대학원생, 젊은 과학자들은 매우 감사할 것입니다.

유사한 문서

    DataMining 작업 분류. 보고서 및 합계 생성. Statistica의 데이터 마이너 기능. 분류, 클러스터링 및 회귀 문제. 분석 도구 Statistica Data Miner. 문제의 본질은 연관 규칙을 찾는 것입니다. 생존 예측인자 분석.

    학기 논문, 2011년 5월 19일 추가됨

    알 수 없는 데이터를 감지하는 프로세스로서의 데이터 마이닝 기술의 기능에 대한 설명입니다. 신경망 알고리즘의 연관 규칙 및 메커니즘의 추론 시스템 연구. 클러스터링 알고리즘 및 데이터 마이닝 적용 분야에 대한 설명.

    테스트, 2013년 6월 14일 추가됨

    클러스터링의 기본. "데이터베이스에서 지식을 발견"하는 방법으로 데이터 마이닝을 사용합니다. 클러스터링 알고리즘 선택. 원격 워크샵의 데이터베이스 저장소에서 데이터 검색. 학생 및 작업 클러스터링.

    2017년 7월 10일에 추가된 학기 논문

    데이터 마이닝, 데이터 마이닝 및 지식 발견의 개발 역사. 데이터 마이닝의 기술적 요소 및 방법. 지식 발견의 단계. 변경 및 편차 감지. 관련 분야, 정보 검색 및 텍스트 추출.

    2012년 6월 16일에 추가된 보고서

    클러스터링 방법 및 알고리즘의 적용으로 인해 발생하는 문제 분석. 클러스터링을 위한 기본 알고리즘. 기계 학습 및 데이터 분석을 위한 환경으로서의 RapidMiner 소프트웨어. 데이터 마이닝 방법을 사용한 클러스터링 품질 평가.

    학기 논문, 2012년 10월 22일 추가됨

    데이터 기록 및 저장 기술의 개선. 정보 데이터 처리에 대한 최신 요구 사항의 특수성. 현대 데이터 마이닝 기술의 핵심인 데이터에 있는 다차원 관계의 단편을 반영하는 패턴의 개념입니다.

    테스트, 2010년 9월 2일 추가됨

    Trajan 3.0 신경망 모델링 소프트웨어 패키지를 사용하여 주식 시장에서 상황을 예측하고 의사 결정을 내리기 위한 신경망 사용 분석. 기본 데이터, 테이블의 변환. 인체공학적 프로그램 평가.

    2011년 6월 27일에 추가된 논문

    진화 알고리즘 사용의 어려움. 자연 선택의 원리를 기반으로 컴퓨팅 시스템을 구축합니다. 유전 알고리즘의 단점. 진화 알고리즘의 예. 진화 모델링의 방향과 섹션.

    최신 데이터 마이닝 방법 전용 포털인 데이터 마이닝 포털에 오신 것을 환영합니다.

    데이터 마이닝 기술은 숨겨진 패턴을 발견하고 예측 모델을 구축하기 위한 최신 비즈니스 인텔리전스 및 데이터 마이닝의 강력한 도구입니다. 데이터 마이닝 또는 지식 마이닝은 추론적 추론이 아니라 실제 데이터를 기반으로 합니다.

    쌀. 1. 데이터 마이닝 적용 방안

    문제 정의 - 문제 설명: 데이터 분류, 세분화, 예측 모델 구축, 예측.
    데이터 수집 및 준비 - 데이터 수집 및 준비, 정리, 확인, 중복 기록 삭제.
    모델 구축 - 모델 구축, 정확도 평가.
    지식 전개 - 주어진 문제를 해결하기 위한 모델의 적용.

    데이터 마이닝은 비즈니스, 마케팅, 인터넷, 통신, 산업, 지질학, 의학, 제약 및 기타 분야에서 대규모 분석 프로젝트를 구현하는 데 사용됩니다.

    데이터 마이닝을 사용하면 최신 패턴 인식 방법과 의사결정 트리 및 분류, 클러스터링, 신경망 방법을 비롯한 고유한 분석 기술을 사용하여 방대한 데이터 배열을 선별한 결과로 중요한 상관 관계 및 연결을 찾는 프로세스를 시작할 수 있습니다. , 다른 사람.

    데이터 마이닝 기술을 처음 발견한 사용자는 많은 양의 데이터 분석과 관련된 어려운 문제를 해결하기 위한 접근 방식을 찾을 수 있는 방법과 효과적인 알고리즘의 풍부함에 놀랐습니다.

    일반적으로 데이터 마이닝은 많은 양의 데이터를 검색하도록 설계된 기술로 특징지을 수 있습니다. 불분명, 목적그리고 실질적으로 유용한패턴.

    데이터 마이닝은 대용량 및 차원의 비정형 데이터 분석을 위해 개발된 효율적인 방법과 알고리즘을 기반으로 합니다.

    요점은 대용량, 고차원 데이터가 구조와 연결이 없는 것처럼 보인다는 것입니다. 데이터 마이닝 기술의 목표는 이러한 구조를 식별하고 언뜻 보기에 혼돈과 임의성이 지배하는 패턴을 찾는 것입니다.

    다음은 제약 및 제약 산업의 데이터 마이닝 애플리케이션에 대한 현재 사례 연구입니다.

    약물 상호 작용은 현대 의료가 직면한 문제가 증가하고 있습니다.

    시간이 지남에 따라 처방된 약물(일반의약품 및 모든 종류의 보충제)이 증가하여 약물 상호작용이 의사와 환자가 인식하지 못하는 심각한 부작용을 유발할 가능성이 점점 더 높아집니다.

    이 영역은 약물이 이미 시장에 출시되어 집중적으로 사용되고 있는 임상 후 연구에 속합니다.

    임상 시험은 약물의 효과 평가와 관련이 있지만 이 약물과 시장에 나와 있는 다른 약물의 상호 작용은 고려하지 않습니다.

    캘리포니아 스탠포드 대학의 연구원들은 FDA(Food and Drug Administration)의 약물 부작용 데이터베이스를 조사한 결과 일반적으로 사용되는 두 가지 약물(콜레스테롤 수치를 낮추는 데 사용되는 항우울제 파록세틴과 프라바스타틴)을 함께 사용하면 당뇨병 발병 위험을 높인다는 사실을 발견했습니다.

    FDA 데이터를 기반으로 유사한 분석을 수행한 연구에서는 이전에 알려지지 않은 47개의 유해한 상호작용을 확인했습니다.

    이는 환자가 보고한 많은 부정적인 영향이 인식되지 않는다는 경고와 함께 놀랍습니다. 이것은 온라인 검색이 최선을 다할 수 있는 곳입니다.

    2020년 StatSoft Data Analysis Academy에서 예정된 데이터 마이닝 과정

    데이터 분석 아카데미(Academy of Data Analysis)의 멋진 비디오를 사용하여 데이터 마이닝과 친해지기 시작합니다.

    비디오를 시청하면 데이터 마이닝이 무엇인지 이해하게 될 것입니다!

    비디오 1. 데이터 마이닝이란 무엇입니까?


    비디오 2. 데이터 마이닝 방법 개요: 의사 결정 트리, 일반화된 예측 모델, 클러스터링 등

    브라우저에서 JavaScript가 비활성화되었습니다.


    연구 프로젝트를 시작하기 전에 외부 소스에서 데이터를 얻는 프로세스를 구성해야 합니다. 이제 이것이 어떻게 수행되는지 보여드리겠습니다.

    비디오는 당신에게 독특한 기술을 소개합니다 통계인플레이스(In-Place) 데이터베이스 처리 및 실제 데이터와의 데이터 마이닝 연결.

    비디오 3. 데이터베이스와의 상호 작용 순서: SQL 쿼리 작성을 위한 그래픽 인터페이스 In-place 데이터베이스 처리 기술

    브라우저에서 JavaScript가 비활성화되었습니다.


    이제 탐사 데이터 분석에 효과적인 대화식 드릴링 기술을 살펴봅니다. 드릴링이라는 용어 자체는 데이터 마이닝 기술과 지질 탐사 간의 연결을 반영합니다.

    비디오 4. 대화형 드릴링: 대화형 데이터 탐색을 위한 탐색 및 그래픽 기술

    브라우저에서 JavaScript가 비활성화되었습니다.


    이제 우리는 연관 분석(연결 규칙)에 대해 알게 될 것입니다. 이러한 알고리즘을 사용하면 실제 데이터에 존재하는 관계를 찾을 수 있습니다. 핵심 포인트는 대용량 데이터에 대한 알고리즘의 효율성입니다.

    Apriori 알고리즘과 같은 링크 분석 알고리즘의 결과는 주어진 신뢰도(예: 80%)로 연구 대상 객체에 대한 링크 규칙을 찾는 것입니다.

    지질학에서 이러한 알고리즘은 광물의 탐색적 분석(예: 특징 A가 특징 B 및 C와 어떻게 연관되어 있는지)에 사용할 수 있습니다.

    다음 링크를 따라 이러한 솔루션의 구체적인 예를 찾을 수 있습니다.

    소매업에서 Apriori 알고리즘 또는 그 수정을 사용하면 예를 들어 향수(향수 - 바니시 - 마스카라 등) 또는 다른 브랜드의 상품을 판매할 때 다양한 제품의 관계를 조사할 수 있습니다.

    사이트에서 가장 흥미로운 섹션의 분석도 연관 규칙을 사용하여 효과적으로 수행할 수 있습니다.

    그럼 다음 영상을 확인하세요.

    비디오 5. 협회 규칙

    브라우저에서 JavaScript가 비활성화되었습니다.

    특정 영역에서 데이터 마이닝을 적용한 예를 들어보겠습니다.

    온라인 상거래:

    • 웹사이트 방문부터 상품 구매까지의 고객 궤적 분석
    • 서비스 효율성 평가, 재화 부족으로 인한 장애 분석
    • 방문자에게 흥미로운 상품을 연결

    소매: 신용 카드, 할인 카드 등을 기반으로 고객 정보를 분석합니다.

    데이터 마이닝 도구로 해결되는 일반적인 소매 작업:

    • 장바구니 분석;
    • 예측 모델 생성구매자 및 구매 상품의 분류 모델;
    • 고객 프로필 생성
    • CRM, 다양한 범주의 고객 충성도 평가, 충성도 프로그램 계획;
    • 시계열 연구및 시간 의존성, 계절적 요인 강조, 광범위한 실제 데이터에 대한 판촉 효과 평가.

    통신 부문은 데이터 마이닝 방법과 최신 빅 데이터 기술을 적용할 수 있는 무한한 기회를 제공합니다.

    • 통화의 주요 특성(빈도, 지속시간 등), SMS 빈도에 따른 고객 분류;
    • 고객 충성도 식별;
    • 사기 등의 정의

    보험:

    • 위험도 분석... 보험사는 지급된 청구와 관련된 요소의 조합을 식별하여 책임 손실을 줄일 수 있습니다. 보험회사에서 기혼자의 보험금 지급액이 독신자의 보험금 지급액의 2배인 것으로 밝혀진 것으로 알려진 사례가 있다. 회사는 가족 할인 정책을 수정하여 대응했습니다.
    • 사기 탐지... 보험 회사는 청구에서 변호사, 의사 및 청구인 간의 관계를 특징짓는 특정 고정 관념을 찾아 사기를 줄일 수 있습니다.

    데이터 마이닝의 실제 적용 및 특정 문제 해결은 다음 비디오에서 제공됩니다.

    웨비나 1. 웨비나 "실제 데이터 마이닝 작업: 문제 및 솔루션"

    브라우저에서 JavaScript가 비활성화되었습니다.

    웨비나 2. 웨비나 "데이터 마이닝 및 텍스트 마이닝: 실제 문제 해결의 예"

    브라우저에서 JavaScript가 비활성화되었습니다.


    StatSoft 과정에서 데이터 마이닝의 방법론과 기술에 대한 더 깊은 지식을 얻을 수 있습니다.

이 공유