프로그래밍/AI

데이터 마이닝의 이해

에이티에스 2024. 10. 3. 08:46
728x90

1. 데이터 마이닝이란?

데이터 마이닝은 컴퓨터와 자동화를 사용하여 패턴과 추세에 대한 대규모 데이터 세트를 검색하고 이러한 결과를 비즈니스 통찰력 및 예측으로 변환하는 프로세스로 가장 일반적으로 정의됩니다. 데이터 마이닝은 데이터를 사용하여 미래의 확률을 평가하고 실행 가능한 분석을 개발하기 때문에 검색 프로세스를 넘어섭니다.

 

데이터 마이닝의 통계적 시작은 1763년 베이즈 정리(Bayes' Theorem)와 1805년 회귀 분석(regression analysis)의 발견으로 시작되었습니다. Turing Universal Machine(1936), 신경망의 발견(1943), 데이터베이스 개발(1970s) 및 유전 알고리즘(1975), 데이터베이스의 지식 발견(1989)을 통해 오늘날 데이터 마이닝이 무엇인지에 대한 현대적 이해를 위한 무대가 마련되었습니다. 그리고 1990년대와 2000년대에 컴퓨터 프로세서, 데이터 스토리지 및 기술의 성장이 폭발적으로 증가함에 따라 데이터 마이닝은 더욱 강력해졌을 뿐만 아니라 모든 종류의 상황에서 더 많이 번성하게 되었습니다.

2003년, 머니볼(Moneyball)이라는 책은 프로 야구 팀의 로스터 구축에 대한 분석 기반 접근 방식에 대한 이야기를 통해 데이터 마이닝을 훨씬 더 많은 독자에게 소개했습니다. 이제 기업이 점점 더 다양한 상황에서 빅 데이터 솔루션을 사용함에 따라 데이터 마이닝은 수많은 산업에서 중요한 역할을 합니다.

 

 

 

데이터 마이닝과 기계 학습은 종종 동의어로 간주되는 고유한 프로세스입니다. 그러나 둘 다 대규모 데이터 세트에서 패턴을 감지하는 데 유용하지만 작동 방식은 매우 다릅니다.

데이터 마이닝은 데이터에서 패턴을 찾는 프로세스입니다. 데이터 마이닝의 장점은 알고리즘을 통해 직관적이지 않은 데이터 패턴을 사전에 식별하여 몰랐던 질문에 답하는 데 도움이 된다는 것입니다 그러나 이러한 통찰력을 해석하고 비즈니스 의사 결정에 적용하려면 여전히 사람의 개입이 필요합니다.

한편 기계 학습은 인간이 학습하는 것처럼 학습하도록 컴퓨터를 가르치는 프로세스입니다. 머신 러닝을 통해 컴퓨터는 데이터 분석을 기반으로 확률을 결정하고 예측하는 방법을 학습합니다. 또한 머신 러닝은 때때로 프로세스의 일부로 데이터 마이닝을 사용하지만, 궁극적으로 지속적으로 인간의 빈번한 개입이 필요하지 않습니다.

 

 

반응형

 

2. 데이터 마이닝의 동작

"데이터 마이닝이란 무엇인가?"라는 질문에 완전히 답하려면 전체 프로세스에 대한 실무 지식이 필요합니다. 데이터 마이닝은 CRISP-DM(Cross-Industry Standard Process for Data Mining)으로 알려진 상당히 구조화된 6단계 방법을 따릅니다.

 

 

이 프로세스는 단계적으로 작업하고 필요한 경우 단계를 반복하도록 권장합니다. 실제로, 데이터 변경을 설명하거나 다른 변수를 도입하기 위해 단계를 반복하는 것이 필수적인 경우가 많습니다.

 

CRISP-DM의 각 단계를 자세히 살펴보겠습니다.

1) 비즈니스 이해

시작하려면 먼저 다음과 같은 질문을 하십시오. 우리의 목표는 무엇입니까? 우리는 어떤 문제를 해결하려고 합니까? 이를 해결하기 위해 어떤 데이터가 필요합니까?

마이닝할 적절한 데이터에 대한 명확한 이해가 없으면 프로젝트에서 오류, 부정확한 결과 또는 올바른 질문에 답하지 않는 결과가 생성될 수 있습니다.

 

2) 데이터 이해

전체 목표가 결정되면 적절한 데이터를 수집해야 합니다. 데이터는 주제와 관련이 있어야 하며 일반적으로 판매 기록, 고객 설문 조사 및 지리적 위치 데이터와 같은 다양한 소스에서 제공됩니다. 이 단계의 목표는 데이터가 목표를 달성하는 데 필요한 모든 데이터 세트를 올바르게 포함하는지 확인하는 것입니다.

 

3) 데이터 준비

가장 시간이 많이 소요되는 준비 단계는 추출, 변환 및 로딩의 세 단계로 구성되며, ETL이라고도 합니다. 첫째, 다양한 소스에서 데이터를 추출하여 스테이징 영역에 보관합니다. 그런 다음 변환 단계에서 데이터를 정리하고, null 집합을 채우고, 중복 데이터를 제거하고, 오류를 해결하고, 모든 데이터를 테이블에 할당합니다. 마지막 단계인 로딩에서는 형식이 지정된 데이터를 사용할 수 있도록 데이터베이스에 로드합니다.

 

4) 모델링

데이터 모델링은 관련 데이터 세트를 다루고 객관적인 질문에 답하기 위한 최상의 통계 및 수학적 접근 방식을 고려합니다. 분류, 클러스터링 및 회귀 분석(나중에 자세히 설명)과 같은 다양한 모델링 기술을 사용할 수 있습니다. 특정 목표를 달성하기 위해 동일한 데이터에 대해 다른 모델을 사용하는 것도 드문 일이 아닙니다.

 

5) 평가

모델을 구축하고 테스트한 후에는 비즈니스 이해 단계에서 식별된 질문에 답하는 데 있어 효율성을 평가해야 합니다. 프로젝트를 실행하는 개인이 모델 출력이 목표를 충분히 충족하는지 여부를 결정해야 하기 때문에 이는 인간 주도 단계입니다. 그렇지 않은 경우 다른 모델을 만들거나 다른 데이터를 준비할 수 있습니다.

 

6) 배포

데이터 마이닝 모델이 객관적인 질문에 답하는 데 정확하고 성공적인 것으로 간주되면 이를 사용할 차례입니다. 배포는 시각적 프레젠테이션 또는 인사이트를 공유하는 보고서의 형태로 발생할 수 있습니다. 또한 새로운 판매 전략을 수립하거나 위험 감소 조치를 구현하는 것과 같은 조치로 이어질 수 있습니다.

 

 

반응형

 

 

3. 데이터 마이닝 작업 분류

데이터 마이닝 작은 크게 설명적(descriptive)과 예측적(predictive)의 두 가지 주요 그룹으로 나뉩니다.

  • 설명 데이터 마이닝: 이 유형에는 데이터 내에서 패턴이나 추세를 발견하여 설명하고 요약하는 것이 포함됩니다. 서술적 데이터 마이닝은 예측을 목표로 하는 것이 아니라 데이터에서 발생한 일이나 일어나고 있는 일을 이해하는 데 중점을 둡니다. 클러스터링(clustering), 요약(summarization) 및 연결(association)과 같은 기술이 이 범주에 속합니다. 예를 들어, 미래 행동을 예측하지 않고 구매 행동을 기반으로 고객 그룹을 식별하는 것은 설명 작업입니다.
  • 예측 데이터 마이닝: 반면에 예측 데이터 마이닝은 과거 또는 기존 데이터에서 발견된 패턴을 사용하여 미래의 이벤트 또는 결과에 대한 예측을 수행하는 데 중점을 둡니다. 여기에는 다양한 알고리즘과 통계 모델을 사용하여 추세, 행동 또는 결과를 예측하는 것이 포함됩니다. 회귀 분석, 분류 및 시계열 분석과 같은 기술은 예측 작업에 사용됩니다. 예를 들어, 과거 시장 데이터를 기반으로 주가를 예측하는 것은 예측 데이터 마이닝에 속합니다.

 

 

 

반응형

 

 

4. 데이터 마이닝 작업의 주요 기능

주요 기능은 다양한 용도로 사용되며 데이터 분석 및 의사 결정에 광범위한 영향을 미칩니다. 

 

 

 

1) 패턴 인식

패턴 인식은 데이터 세트 내에서 숨겨진 보석을 찾는 것과 같습니다. 데이터 마이닝은 패턴, 상관 관계 및 관계를 식별하여 기업이 고객 행동, 시장 동향 또는 운영 비효율성을 이해하는 데 도움이 됩니다.

 

- 예시 : 마케팅에서 고객의 구매 행동을 기반으로 고객의 구매 패턴을 식별하는 것은 개인화된 권장 사항 또는 대상 프로모션을 제공하는 데 사용됩니다.

 

2) 클래스/개념 설명

데이터 마이닝의 클래스 또는 개념 설명은 특정 클래스 또는 범주에 속하는 데이터 인스턴스 또는 개체 그룹을 요약하거나 설명하는 것을 의미합니다. 이러한 설명은 특정 클래스를 정의하는 특성, 속성 또는 규칙을 이해하는 데 도움이 됩니다.

 

- 예시 :전자 상거래에서 다양한 고객 세그먼트의 선호도, 인구 통계 및 행동을 기반으로 프로필을 만듭니다.

 

3) 예측

예측 작업을 통해 기업은 과거 데이터를 기반으로 미래의 추세나 행동을 예측할 수 있습니다. 자원 할당, 판매 예측 또는 위험 관리에 대해 정보에 입각한 결정을 내리기 위해 수정 구슬을 갖는 것과 유사합니다.

 

- 예시 : 계절적 변동, 고객 선호도 및 시장 동향에 대한 과거 데이터를 분석하여 소매업의 미래 판매 동향을 예측합니다.

 

4) 분류

데이터를 분류하면 정보를 의미 있는 세그먼트로 구성하는 데 도움이 됩니다. 이는 타겟 마케팅을 위한 고객 세분화 또는 증상에 기반한 질병 진단을 위한 의료 분야의 비즈니스를 지원합니다.

 

- 예시 : 기계 학습 알고리즘을 사용하여 내용과 기능에 따라 이메일을 스팸으로 분류하거나 스팸이 아닌 것으로 분류합니다.

 

 

반응형

 

5) 클러스터링

유사한 데이터 포인트를 그룹화하면 데이터 내의 자연스러운 구조를 이해하는 데 도움이 됩니다. 이는 개인화된 제안에 대한 유사한 선호도에 따라 사용자를 그룹화하는 추천 시스템에서 중요한 역할을 합니다.

 

- 예시 : 유사한 고객 구매 내역을 그룹화하여 소매 환경에서 맞춤형 마케팅 캠페인 또는 충성도 프로그램을 위해 분류합니다.

 

6) 변칙 탐지

이상치나 불규칙성을 식별하는 것은 건초 더미에서 바늘을 찾는 것과 유사합니다. 이 기능은 사기 탐지, 시스템의 결함 진단 또는 희귀 질환을 식별하기 위한 의료 분야에서도 매우 중요합니다.

 

- 예시 : 비정상적인 패턴이나 정상적인 고객 행동에서 벗어난 것을 감지하여 은행에서 사기 거래를 식별합니다.

 

7) 연관 규칙 마이닝

데이터 마이닝 작업은 변수 간의 관계를 드러내어 다양한 산업에서 고객 행동, 제품 선호도 또는 공급망 관리 최적화에 대한 통찰력을 제공합니다.

 

- 예시 : 슈퍼마켓의 거래 데이터에서 품목 간의 관계를 찾는 것(예: 빵을 사는 사람들은 버터도 구매할 가능성이 높습니다).

 

8) 순차 패턴 마이닝

시계열 데이터 분석과 같은 순차적 동작 또는 이벤트를 이해하는 것은 재무 예측, 장비 고장 예측 또는 웹 사이트에서의 사용자 행동 분석에 매우 중요합니다.

 

- 예시 :  고객이 웹 사이트를 탐색하는 순서를 분석하여 웹 사이트 레이아웃 또는 사용자 경험을 최적화합니다.

 

9) 텍스트 마이닝

비정형 텍스트 데이터에서 인사이트를 추출하면 감정 분석, 소셜 미디어 분석을 통한 시장 조사, 검색 엔진 기능 개선을 지원할 수 있습니다.

 

- 예시 :  제품 또는 서비스에 대한 감정과 의견을 이해하기 위해 고객 리뷰 또는 소셜 미디어 댓글을 분석합니다.

 

10) 회귀 분석

회귀분석은 변수 간의 관계를 이해하고 예측 및 최적화를 제공하는 데 도움이 되며, 이는 시장 동향을 예측하기 위한 재무 분야 또는 환자 결과 예측을 위한 의료 분야에서 가능합니다.

 

- 예시 :  부동산의 위치, 크기 및 편의 시설과 같은 요소를 기반으로 주택 가격을 예측합니다.

 

11) 빅데이터 처리

대량의 데이터(빅 데이터)를 효율적으로 처리하는 것은 오늘날의 데이터 중심 세계에서 매우 중요합니다. 데이터 마이닝 기술은 수동으로 분석하기 어려운 대규모 데이터 세트를 관리하고 가치를 추출하는 데 도움이 됩니다.

 

- 예시 :  IoT 장치에서 대량의 스트리밍 데이터를 처리하고 분석하여 제조의 유지 관리 요구 사항을 예측합니다.

 

12) 빈번한 패턴의 마이닝

데이터 마이닝에서 빈번한 패턴을 마이닝하는 것은 데이터 세트 내에서 반복되는 항목, 시퀀스 또는 하위 구조 집합을 식별하는 것과 관련이 있습니다. 주로 자주 또는 반복적으로 발생하는 패턴을 발견하는 데 중점을 둡니다.

 

- 예시 :  식료품점에서 우유와 빵을 함께 구매하는 것과 같은 일반적인 구매 패턴을 파악하여 제품 배치를 최적화합니다.

 

 

반응형

 

5. 데이터 마이닝의 장점

데이터 마이닝 작업 기본 형식의 이점은 다음과 같습니다.

  • 능률: 작업을 더 작은 조각으로 나누면 운영 효율성이 높아지고 복잡성이 줄어들며 성능이 향상됩니다.
  • 모듈식 접근 방식: 이를 통해 서로 다른 프로젝트에서 특정 작업을 재사용할 수 있으므로 일관성과 쉬운 구현이 보장됩니다.
  • 해석 가능성: 작업 기본 형식은 각 단계에서 명확하고 이해할 수 있는 결과를 제공하여 데이터 마이닝 작업에서 파생된 프로세스와 인사이트를 이해하는 데 도움이 됩니다.
  • 자동화 지원: 자동화된 데이터 분석을 위한 빌딩 블록 역할을 하며, 패턴을 인식하고 예측 또는 분류를 수행하는 시스템을 지원합니다.

 

 

 

반응형

 

반응형

 

728x90
반응형
그리드형