Upravit

Sdílet prostřednictvím


Analýza rozpoznávání tváře a mínění

Azure AI services
Azure Cosmos DB
Azure Cosmos DB
Azure HDInsight
Azure Synapse Analytics

Tento článek představuje řešení pro znázornění veřejného mínění v tweetech. Cílem je vytvořit transformační kanál, který vypíše clustery komentářů a populárních témat.

Apache®, Apache NiFi, Apache Hadoop, Apache Hive a Apache Airflow jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.

Architektura

Diagram architektury kanálu Součástí jsou služby pro příjem dat, transformaci dat, úložiště, analýzu, AI a prezentaci dat.

Stáhněte si powerpointový soubor tohoto diagramu.

Kanál příjmu dat

Kanál příjmu dat twitteru se skládá ze čtyř fází.

Shromažďování a ingestování dat

Následující komponenty ingestují tweety:

  • Systém souborů HDFS (Hadoop Distributed File System) (1)
  • Azure Synapse Analytics přes Azure Data Factory (4)
  • Azure Blob Storage (4)
  • Azure Cosmos DB (4)

Zpracování dat

Během zpracování dat:

  • Soubor JSON obsahující data tweetu se transformuje do formátu CSV (2).
  • Vytvoří se tabulky Apache Hive a Azure Synapse Analytics (2).
  • Analýza mínění se spouští na tweetech (2).
  • Azure Cognitive Services zpracovává obrázky a identifikuje lidské tváře (2).

Ukládání dat

Následující komponenty ukládají data:

  • HDFS a Hive (3)
  • Azure Synapse Analytics (3)
  • Blob Storage (3)
  • Azure Cosmos DB (7)

Vizualizace dat

Řídicí panely Power BI zobrazují data z následujících zdrojů:

  • Hive (5)
  • Azure Synapse Analytics (6)
  • Azure Cosmos DB (8)

Tok dat

Diagram architektury znázorňující tok dat z Twitteru, zpracování obrázků a analýzy mínění a ukládání

Stáhněte si powerpointový soubor tohoto diagramu.

Tok dat řešení obsahuje tři hlavní části.

Ingestování tweetů

Soubor s daty tweetu, který je ve formátu JSON, se transformuje do formátu CSV. Atributy se extrahují z dat JSON, aby se používaly jako proměnné pro složení CSV.

Zpracování obrázků

Analýza mínění se spouští na tweetech, které obsahují obrázky. Po shromáždění obrázků se na obrázcích spustí procesy detekce tváří. Všechny rozpoznané lidské tváře jsou uloženy ve službě HDInsight.

Spuštění analýzy mínění

Algoritmus NLTK (Natural Language Toolkit) běží na přijatých zprávách. Analýza mínění se spouští na textu tweetů. Výsledky se ukládají ve formátu CSV v tabulce Hive a data JSON se ukládají ve službě Azure Cosmos DB.

Komponenty

Diagram architektury znázorňující komponenty ve vrstvách příjmu dat, úložiště a zpracování řešení

Stáhněte si powerpointový soubor tohoto diagramu.

  • Data Factory poskytuje služby dávkové transformace pro různé zdroje a jímky. Jako klíčovou komponentu zpracování velkých objemů dat pomáhá Služba Data Factory zjednodušit úlohy extrakce, transformace, načítání (ETL). Data Factory také zpracovává složitost a škálovací výzvy integrace velkých objemů dat.

  • NiFi automatizuje tok dat mezi softwarovými systémy. NiFi nabízí funkce zabezpečení, rozšiřitelnou architekturu a flexibilní model škálování. Zpracovává více zdrojů a více jímek s různými typy procesorů. Funkce NiFi zahrnuje:

    • Spouštění transformací streamování
    • Připojení oddělení systémů v cloudu.
    • Přesouvání dat do a z Azure Storage a dalších úložišť dat
    • Integrace aplikací edge-to-cloud a hybridních cloudů se službami Azure
    • Poskytuje robustní funkce pro provenience dat.
  • HDInsight je platforma Hadoop pro data a analýzy pro místní prostředí. HDInsight dokáže bezpečně ingestovat, ukládat a zpracovávat data v reálném čase a v dávkách. HDInsight je postaven na platformě Hortonworks Data Platform (HDP), opensourcové rozhraní pro distribuované úložiště a zpracování velkých datových sad, které pocházejí z více zdrojů.

  • Azure Synapse Analytics je analytická služba pro datové sklady a systémy pro velké objemy dat. Pro snadný přístup centralizuje data v cloudu.

  • Azure Cosmos DB je plně spravovaná databáze NoSQL pro moderní vývoj aplikací. Díky poskytování doby odezvy v řádu milisekund a automatické a okamžité škálovatelnosti zaručuje Azure Cosmos DB rychlost v libovolném měřítku. Dostupnost na úrovni služeb (SLA) a zabezpečení na podnikové úrovni zajišťuje kontinuitu podnikových procesů.

  • Cognitive Services se skládá z cloudových služeb, které poskytují funkce AI. Rozhraní REST API a sady SDK klientské knihovny pomáhají vytvářet kognitivní inteligentní funkce do aplikací, i když nemáte dovednosti umělé inteligence nebo datových věd.

  • Power BI je služba obchodní analýzy, která je součástí platformy Microsoft Power Platform. Power BI poskytuje interaktivní vizualizace a možnosti business intelligence. Jeho snadno použitelné rozhraní umožňuje uživatelům vytvářet vlastní sestavy a řídicí panely.

Alternativy

Většinu součástí řešení můžete nahradit alternativami. Příklad:

  • Místo clusteru HDInsight můžete použít cluster Cloudera.
  • Místo služby Data Factory můžete použít Azure Databricks. Azure Databricks může transformovat a ukládat data, ale můžete je také použít jako orchestrátor. Další alternativou je použití obou služeb. Mnoho řešení, která používají Službu Data Factory, využívají také Azure Databricks.
  • Místo Nifi můžete Apache Airflow použít jako nástroj pracovního postupu, který spouští skripty ETL.
  • Pro hlavní úložiště souborů můžete místo služby Azure Cosmos DB použít Elasticsearch.
  • Pro služby řídicího panelu můžete místo Power BI použít Kibanu.

Podrobnosti scénáře

Branding je pro společnosti důležitý, protože hodnota společnosti závisí na obrazu této společnosti na trhu. S tím, jak se vaše společnost přesouvá k prediktivnímu rozhodování řízenému daty, a ne k reaktivním rozhodnutím, je potřeba monitorovat a pochopit, co se děje v reálném čase. Pokud chcete získat konkurenční výhodu, musíte použít analýzu sociálních médií k identifikaci a pochopení veřejného mínění. Spolu s identifikací mínění v tweetech se můžete také rozhodnout rozpoznávat tváře a obrázky.

Toto řešení měří veřejné mínění v tweetech. Kanál transformace vypíše clustery komentářů a populárních témat. Kanál poskytuje hodnotu díky bezproblémové integraci opensourcových řešení, jako je Apache NiFi a Azure HDInsight, s analýzou mínění a službami rozpoznávání tváře v Azure. Řešení platí pro širokou škálu odvětví – monitorování sociálních sítí není omezené na jeden sektor.

Potenciální případy použití

Toto řešení je ideální pro jakoukoli oblast, která monitoruje branding na sociálních sítích, včetně:

  • Marketing
  • Komunikace
  • Politika
  • Média a zábavní průmysl
  • Nemovitosti a zařízení
  • Food service (cestování a pohostinství)
  • Fashion
  • Retail

Důležité informace

Tyto aspekty implementují pilíře dobře architektuře Azure, sadu hlavních principů, které můžete použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.

V závislosti na nástrojích pro zpracování a počtu zdrojů, které používáte, můžete zjednodušit transformace a vizualizace řešení. Pokud je to možné, zvažte použití základního kanálu s jednou jímkou. Místo použití více zdrojů a více řídicích panelů kanál kanál do jednoho řídicího panelu.

Tento příklad používá co nejvíce služeb. Díky tomuto přístupu můžete porovnat výkon a možnosti, které máte s Power BI v různých zdrojích a datových typech.

Spolehlivost

Spolehlivost zajišťuje, že vaše aplikace může splňovat závazky, které uděláte pro vaše zákazníky. Další informace najdete v tématu Přehled pilíře spolehlivosti.

V produkčních prostředích vyhodnoťte cíl doby obnovení (RTO) a cíl bodu obnovení (RPO). Všechna rozhodnutí a scénáře zotavení po havárii závisí na těchto vyhodnoceních.

Ve většině případů potřebujete pro každý nástroj službu s vysokou dostupností. Pro efektivní zotavení po havárii je důležité snížit plánovanou dobu obnovení. Pokud ale máte vysokou dostupnost, můžete se vyhnout scénářům havárie. Můžete například vytvořit služby v jiné oblasti.

Zabezpečení

Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.

Zaměřte se na silný stav zabezpečení pomocí systému založeného na identitě a nativních nástrojů Azure. Pro externí komponenty použijte externí ověřovací nástroje, jako je Kerberos, k zajištění robustní a zabezpečené úlohy.

Optimalizace nákladů

Informace o vytvoření nákladově efektivní úlohy najdete v přehledu pilíře optimalizace nákladů.

Provozní dokonalost

Efektivita provozu zahrnuje provozní procesy, které nasazují aplikaci a udržují ji spuštěnou v produkčním prostředí. Další informace najdete v tématu Přehled pilíře efektivity provozu.

Centralizace protokolů monitorování ze všech služeb Řešení používá externí nástroje a nástroje nativní pro Azure. Pokud chcete dosáhnout uceleného zobrazení všech systémů, integrujte data monitorování ze všech nástrojů.

Efektivita výkonu

Efektivita výkonu je schopnost úlohy škálovat se tak, aby efektivním způsobem splňovala požadavky, které na ni kladou uživatelé. Další informace najdete v tématu Přehled pilíře efektivity výkonu.

Vzhledem k tomu, že řešení používá více zdrojů, zvažte kompresi v rámci procesu. Zvažte také formáty souborů, které používáte. Nakonfigurujte Službu Azure Cosmos DB, abyste dosáhli kompromisu mezi latencí a úrovněmi konzistence. Během celého procesu ale monitorujte a vyhodnocujte výkon služby Azure Cosmos DB, abyste zabránili tomu, aby se tato komponenta stala kritickým bodem. Pokud chcete snížit latenci, zvažte rozdělení dat podle umístění nebo přesunutí zdrojů dat blízko místa, kde je používáte.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autoři:

Další kroky