Vytvoření systému doporučení založeného na obsahu

Azure Databricks
Azure Machine Learning

Nápady na řešení

Tento článek je myšlenkou řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu k GitHubu.

Doporučení jsou klíčovým faktorem výnosů pro mnoho firem a používají se v různých typech odvětví, včetně maloobchodu, novinek a médií. S dostupností velkých objemů dat o aktivitách zákazníků můžete poskytovat vysoce relevantní doporučení pomocí strojového učení.

Architektura

Architectural diagram that shows training, evaluation, and development of a machine learning model for content-based personalization that uses Azure Databricks.

Stáhněte si soubor PowerPointu této architektury.

Tok dat

  1. Úložiště. Azure Data Lake Storage ukládá velké objemy dat o chování uživatelů a uživatelů.

  2. Číst. Azure Databricks se připojuje ke službě Azure Data Lake Storage a čte je z něj. Příjem dat do Databricks umožňuje předběžné zpracování a trénování k registraci modelu.

  3. Předběžné zpracování. Předběžné zpracování dat čistí, transformuje a připravuje data do modelu systému doporučení.

  4. Vlak. Trénování má dva kroky: přípravu funkcí a trénování modelů. Během trénování modelu azure Databricks používá předzpracovanou datovou sadu k trénování a vysvětlení chování nejlepšího modelu doporučení.

  5. Postprocess. Následné zpracování zahrnuje vyhodnocení a výběr modelu na základě toho, který model nejlépe funguje.

  6. Deploy. Azure Databricks udržuje model. Spravované koncové body služby Batch nasazují model pro zobrazení front-endu. Při nasazení modelu jsou nová data přístupná prostřednictvím nových koncových bodů. Doporučení služby Batch a téměř v reálném čase se podporují.

  7. Zápis. Uživatelská rozhraní, jako jsou webové aplikace, můžou využívat uložené výsledky modelu. Výsledky se zapisují a zaznamenávají v Azure Synapse. Model běží jako dávkové odvozování a ukládá výsledky do příslušného úložiště dat.

Komponenty

Tato architektura využívá následující komponenty:

  • Azure Data Lake Storage je sada možností úložiště, které jsou vyhrazené pro analýzy velkých objemů dat a poskytují sémantiku systému souborů, zabezpečení na úrovni souborů a škálování.

  • Azure Databricks je spravovaný cluster Apache Spark pro trénování a vyhodnocení modelu.

  • Azure Synapse Analytics je rychlý, flexibilní a důvěryhodný cloudový datový sklad, který umožňuje elasticky, výpočetní prostředky a ukládat elasticky a nezávisle na sobě s architekturou masivního paralelního zpracování.

Podrobnosti scénáře

Přístup popsaný v tomto článku se zaměřuje na vytvoření systému doporučení založeného na obsahu. Další informace o osvědčených postupech vytváření systémů doporučení najdete v dokumentaci a příkladech pro Doporučovací nástroje na GitHubu.

Tento ukázkový scénář ukazuje, jak můžete pomocí strojového učení automatizovat přizpůsobení na základě obsahu pro vaše zákazníky. Řešení používá Azure Databricks k trénování modelu, který předpovídá pravděpodobnost, že se uživatel bude zajímat o položku. Dávkové spravované koncové body nasadí tento model jako službu predikce. Tuto službu můžete použít k vytvoření přizpůsobených doporučení seřazením položek na základě obsahu, o který se uživatel s největší pravděpodobností zajímá.

Potenciální případy použití

Toto řešení je ideální pro maloobchod. Je relevantní pro následující případy použití:

  • Doporučení k obsahu pro weby a mobilní aplikace
  • Doporučení k produktům pro weby elektronického obchodování
  • Zobrazená doporučení pro reklamy pro weby

Typy systémů doporučení

Existují tři hlavní typy systémů doporučení:

  • Filtrování založené na spolupráci Filtrování na spolupráci identifikuje podobné vzory v chování zákazníků a doporučuje položky, se kterými spolupracovali jiní podobné zákazníci. Výhodou filtrování spolupráce je snadné generování dat – uživatelé vytvářejí data při interakci se výpisy položek a produktů. Zákazníci navíc můžou objevovat nové položky a produkty jiné než ty, které jsou kurátorované z jejich historických interakcí. Nevýhodou filtrování spolupráce je ale problém se studeným startem : protože dochází k nedostatku interakcí mezi uživateli a novými nabídkami, nově přidané položky se nedoporučují algoritmem, který zcela závisí na interakcích zákazníků.

  • Na základě obsahu. Doporučení na základě obsahu používá informace o položkách k získání informací o preferencích zákazníků a doporučuje položky, které sdílí vlastnosti s položkami, se kterými zákazník dříve pracoval. Systémy doporučení založené na obsahu nejsou narušeny problémem studeného startu a mohou se přizpůsobit zavedení nových položek. Doporučení jsou ale omezená na funkce původní položky, se kterými zákazník pracoval.

  • Hybridní metoda. Dalším přístupem k vytváření systémů doporučení je kombinovat filtrování založené na obsahu a spolupráci. Tento systém doporučuje položky na základě hodnocení uživatelů a informací o položkách. Hybridní přístup má výhody doporučení založeného na spolupráci i na základě obsahu.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další přispěvatel:

  • Andrew Ajaluwa | Programový manažer
  • Gary Moore | Programátor/zapisovač

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky