콘텐츠 기반 추천 시스템 빌드

Databricks
Machine Learning

솔루션 아이디어

이 문서는 솔루션 아이디어입니다. 잠재적인 사용 사례, 대체 서비스, 구현 고려 사항 또는 가격 지침과 같은 추가 정보를 사용하여 콘텐츠를 확장하려면 GitHub 피드백을 제공하여 알려주세요.

권장 사항은 많은 비즈니스의 주요 수익 동인이며 소매, 뉴스 및 미디어를 비롯한 다양한 종류의 산업에서 사용됩니다. 고객 활동에 대한 많은 양의 데이터를 사용할 수 있으므로 기계 학습을 사용하여 관련성이 높은 권장 사항을 제공할 수 있습니다.

아키텍처

Azure Databricks를 사용하는 콘텐츠 기반 개인 설정에 대한 기계 학습 모델의 학습, 평가 및 개발을 보여 주는 아키텍처 다이어그램

이 아키텍처의 PowerPoint 파일을 다운로드합니다.

데이터 흐름

  1. 저장소. Azure Data Lake Storage 사용자 및 소비자 동작에 대한 많은 양의 데이터를 저장합니다.

  2. 읽기 Azure Databricks는 Azure Data Lake Storage 연결하고 읽습니다. Databricks로 수집하면 전처리 및 학습을 통해 모델을 등록할 수 있습니다.

  3. 전처리. 데이터 전처리는 권장 사항 시스템 모델에 공급할 데이터를 정리, 변환 및 준비합니다.

  4. 기차. 학습에는 기능 엔지니어링모델 학습의 두 단계가 있습니다. 모델 학습 중에 Azure Databricks는 전처리된 데이터 세트를 사용하여 최상의 권장 사항 모델의 동작을 학습시키고 설명합니다.

  5. 후처리. 후처리에는 가장 잘 수행되는 모델에 따라 모델 평가 및 선택이 포함됩니다.

  6. 배포합니다. Azure Databricks는 모델을 유지 관리합니다. 일괄 관리형 엔드포인트는 프런트 엔드 디스플레이에 노출하기 위해 모델을 배포합니다. 모델이 배포되면 새 엔드포인트를 통해 새 데이터에 액세스할 수 있습니다. 일괄 처리 및 거의 실시간 권장 사항이 지원됩니다.

  7. 쓰기 웹 애플리케이션과 같은 사용자 인터페이스는 저장된 모델 결과를 사용할 수 있습니다. 결과는 Azure Synapse 기록되고 캡처됩니다. 모델은 일괄 처리 유추로 실행되고 결과를 해당 데이터 저장소에 저장합니다.

구성 요소

이 아키텍처는 다음 구성 요소를 사용합니다.

  • Azure Data Lake Storage 빅 데이터 분석 전용이며 파일 시스템 의미 체계, 파일 수준 보안 및 크기 조정을 제공하는 스토리지 기능 집합입니다.

  • Azure Databricks는 모델 학습/평가를 위한 관리형 Apache Spark 클러스터입니다.

  • Azure Synapse Analytics는 대규모 병렬 처리 아키텍처를 사용하여 탄력적이고 독립적으로 확장, 컴퓨팅 및 저장할 수 있는 빠르고 유연하며 신뢰할 수 있는 클라우드 데이터 웨어하우스입니다.

시나리오 정보

이 문서에 설명된 접근 방식은 콘텐츠 기반 권장 사항 시스템을 빌드하는 데 중점을 둡니다. 권장 사항 시스템을 빌드하는 모범 사례에 대한 자세한 내용은 GitHub의 추천 자에 대한 설명서 및 예제를 참조하세요.

이 예제 시나리오에서는 기계 학습을 사용하여 고객을 위한 콘텐츠 기반 개인 설정을 자동화하는 방법을 보여 줍니다. 이 솔루션은 Azure Databricks 를 사용하여 사용자가 항목에 관심이 있을 확률을 예측하는 모델을 학습시킵니다. 일괄 처리된 관리형 엔드포인트는 해당 모델을 예측 서비스로 배포합니다. 이 서비스를 사용하여 사용자가 가장 관심을 가지는 콘텐츠에 따라 항목의 순위를 지정하여 개인 설정된 권장 사항을 만들 수 있습니다.

잠재적인 사용 사례

이 솔루션은 소매 업계에 이상적입니다. 다음과 같은 사용 사례와 관련이 있습니다.

  • 웹 사이트 및 모바일 앱에 대한 콘텐츠 권장 사항
  • 전자 상거래 사이트에 대한 제품 권장 사항
  • 웹 사이트에 대한 광고 추천 표시

권장 사항 시스템 유형

권장 사항 시스템에는 세 가지 주요 유형이 있습니다.

  • 공동 작업 필터링. 공동 작업 필터링은 고객 동작에서 유사한 패턴을 식별하고, 비슷한 다른 고객이 상호 작용한 항목을 추천합니다. 공동 작업 필터링의 장점은 데이터를 쉽게 생성할 수 있다는 것입니다. 사용자는 항목 및 제품 목록과 상호 작용하면서 데이터를 만듭니다. 또한 고객은 기록 상호 작용에서 큐레이팅된 항목 이외의 새 항목 및 제품을 검색할 수 있습니다. 그러나 공동 작업 필터링의 단점은 콜드 스타트 문제입니다. 사용자와 새 제품 간의 상호 작용이 부족하기 때문에 새로 추가된 항목은 전적으로 고객 상호 작용에 의존하는 알고리즘에서 권장되지 않습니다.

  • 콘텐츠 기반. 콘텐츠 기반 권장 사항은 항목에 대한 정보를 사용하여 고객 기본 설정을 학습하고, 고객이 이전에 상호 작용한 항목과 속성을 공유하는 항목을 권장합니다. 콘텐츠 기반 권장 사항 시스템은 콜드 스타트 문제로 인해 방해받지 않으며 새 항목의 도입에 적응할 수 있습니다. 그러나 권장 사항은 고객이 상호 작용한 원래 항목의 기능으로 제한됩니다.

  • 하이브리드 메서드. 권장 사항 시스템을 빌드하는 또 다른 방법은 콘텐츠 기반 및 공동 작업 필터링을 혼합하는 것입니다. 이 시스템은 사용자 등급 및 항목에 대한 정보를 기반으로 항목을 권장합니다. 하이브리드 접근 방식은 공동 작업 필터링과 콘텐츠 기반 권장 사항의 장점이 있습니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

기타 기여자:

  • 앤드류 아잘루와 | 프로그램 관리자
  • Gary Moore | 프로그래머/작가

공용이 아닌 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계