Oefening: gegevens uploaden en opvragen in HDInsight

Voltooid

Nu u een opslagaccount en een Interactive Query-cluster hebt ingericht, is het tijd om uw onroerend goedgegevens te uploaden en enkele query's uit te voeren. De gegevens die u uploadt, zijn onroerend goedgegevens in New York City. Het bevat meer dan 28.000 eigenschappenrecords, waaronder adressen, verkoopprijzen, vierkante beelden en geocodeerde locatiegegevens voor eenvoudige toewijzing. Uw vastgoedbeleggingsonderneming gebruikt deze informatie om de juiste prijzen voor vierkante beelden te bepalen voor nieuwe eigenschappen die op de markt komen, op basis van de verkoopprijzen van eerder verkochte eigenschappen.

Voor het uploaden en opvragen van gegevens gebruiken we Data Analytics Studio. Dit is een webtoepassing die is geïnstalleerd in de scriptactie die we hebben gebruikt toen we het Interactive Query-cluster maakten. U kunt Data Analytics Studio gebruiken om gegevens te uploaden naar Azure Storage, de gegevens te transformeren naar Hive-tabellen met behulp van de gegevenstypen en kolomnamen die u hebt ingesteld en vervolgens query's uit te voeren op gegevens in uw cluster met behulp van HiveQL. Naast Data Analytic Studio kunt u elk ODBC-/JDBC-compatibel hulpprogramma gebruiken om met uw gegevens te werken met Hive, zoals de Spark & Hive Tools voor Visual Studio Code.

Vervolgens gebruikt u een Zeppelin Notebook om snel trends in de gegevens te visualiseren. Met Zeppelin Notebooks kunt u query's verzenden en de resultaten weergeven in een aantal verschillende vooraf gedefinieerde grafieken. De Zeppelin Notebooks die zijn geïnstalleerd op Interactive Query-clusters hebben een JDBC-interpreter met een Hive-stuurprogramma.

Onroerend goedgegevens downloaden

  1. Ga naar https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20dataen download de gegevensset om het bestand propertysales.csv op uw computer op te slaan.

De gegevens uploaden met Data Analytics Studio

  1. Open Nu Data Analytics Studio in uw internetbrowser met behulp van de volgende URL, waarbij u servernaam vervangt door de clusternaam die u hebt gebruikt: https:// servername.azurehdinsight.net/das/

Als u zich wilt aanmelden, is de gebruikersnaam beheerder en het wachtwoord is het wachtwoord dat u hebt gemaakt.

Als er een fout optreedt, gaat u naar het tabblad Overzicht van het cluster in Azure Portal en controleert u of de status is ingesteld op Actief en het clustertype is de HDI-versie ingesteld op Interactive Query 3.1 (HDI 4.0).

  1. Data Studio Analytics wordt gestart in de internetbrowser.

A screenshot of the Data Analytics Studio application

  1. Klik op Database in het linkermenu, klik vervolgens op de groene knop met het weglatingsteken en klik vervolgens op Database maken.

A screenshot of the Create Database button in the Data Analytics Studio application

  1. Geef de database de naam newyorkrealestate en klik vervolgens op Maken.

  2. Klik in Database Explorer op het naamvak van de database en selecteer vervolgens newyorkrealestate.

Database Explorer in the Data Analytics Studio application

  1. Klik in Database Explorer op + Tabel maken en klik vervolgens op Tabel maken.

Create table button Database Explorer in the Data Analytics Studio application

  1. Geef de nieuwe tabel de naam 'propertysales' en klik vervolgens op Tabel uploaden. Tabelnamen mogen alleen kleine letters en cijfers bevatten, geen speciale tekens.

Upload table in the Data Analytics Studio application

  1. In het gebied Bestandsindeling selecteren van de pagina:
    • Zorg ervoor dat de bestandsindeling CSV is
    • Schakel het selectievakje Eerste rijkop in .
  2. In het gebied Bestandsbron selecteren van de pagina:
    • Selecteer Uploaden vanuit Lokaal.
    • Klik op Bestand slepen om te uploaden of op Bladeren te klikken en naar het bestand propertysales.csv te navigeren.
  3. Wijzig in de sectie Kolommen het gegevenstype Breedtegraad en Lengtegraad in Tekenreeks en Verkoopdatum in een datum.

Change data type in the Data Analytics Studio application

  1. Schuif omhoog en bekijk de sectie Tabelvoorbeeld om te controleren of de kolomkoppen er juist uitzien.

Table preview in the Data Analytics Studio application

  1. Schuif helemaal omlaag en klik op Maken om de Hive-tabel te maken in de database newyorkrealestate.

Create Hive Table button in the Data Analytics Studio application

  1. Klik in het linkermenu op Opstellen.

Compose button in the Data Analytics Studio application

  1. Probeer de volgende Hive-query om ervoor te zorgen dat alles werkt zoals verwacht.
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
  1. De uitvoer moet er ongeveer als volgt uitzien.

Query output in the Data Analytics Studio application

  1. Controleer de prestaties van uw query door in het linkermenu op Query's te klikken en vervolgens de SELECTADDRESS, ZIP CODE, , FROM SQUARE FOOTAGE SALE PRICEnewyorkrealestate.propertysales-query te selecteren die u zojuist hebt uitgevoerd.

Als er prestatieaankopen beschikbaar zijn, worden deze aanbevelingen weergegeven in het hulpprogramma. Deze pagina geeft ook de werkelijke SQL-query weer die is uitgevoerd, biedt een visuele uitleg van de query, toont de configuratiedetails die zijn afgeleid door Hive bij het uitvoeren van de query en een tijdlijn die laat zien hoeveel tijd er is besteed aan het uitvoeren van elk deel van de query.

De Hive-tabellen verkennen met behulp van een Zeppelin-notebook

  1. Klik in Azure Portal op de pagina Overzicht in het vak Clusterdashboard op Zeppelin Notebook.

Opening a Zeppelin Notebook in the Azure portal

  1. Klik op Nieuwe notitie, geef de notitie de naam Vastgoedgegevens en klik vervolgens op Maken.

Create a new Zeppelin Notebook in the Azure portal

  1. Plak het volgende codefragment in de opdrachtprompt in het Venster Zeppelin en klik op het afspeelpictogram.
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ; 

De queryuitvoer wordt weergegeven in het venster. U kunt zien dat de eerste 10 resultaten worden geretourneerd.

Viewing Query results in a Zeppelin Notebook in the Azure portal

  1. Open nu een complexere query om enkele visualisatie- en grafiekmogelijkheden te gebruiken die beschikbaar zijn in Zeppelin. Kopieer de volgende query naar de opdrachtprompt en klik op .
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales 
where `sale price` < 20000000 AND `square footage` < 50000;

Standaard wordt de queryuitvoer weergegeven in tabelindeling. Selecteer in plaats daarvan Spreidingsdiagram om een van de visuals weer te geven die de Zeppelin-notebooks bieden.

Visualizations in a Zeppelin Notebook in the Azure portal