Delen via


N-Gram-functies uit tekst halen

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Hiermee maakt u N-Gram-woordenlijstfuncties en worden functies geselecteerd

Categorie: Text Analytics

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt uitgelegd hoe u de module N-Gram-functies extraheren uit tekst in Machine Learning Studio (klassiek) gebruikt om tekst te featuriseren en alleen de belangrijkste gegevens uit lange tekstreeksen te extraheren.

De module werkt door een woordenlijst van n-gram te maken op basis van een kolom met vrije tekst die u opgeeft als invoer. De module past verschillende metrische gegevens toe op de n-gram-lijst om de data dimensionaliteit te verminderen en de n-gram te identificeren die de meeste informatiewaarde hebben.

Als u al een vocabulaire van n-gram hebt gemaakt, kunt u de statistieken bijwerken of nieuwe termen samenvoegen met behulp van een gewogen algoritme van uw keuze.

Omdat deze module featurization van n-gram ondersteunt, kan deze ook worden gebruikt bij het scoren.

N-Gram-functies extraheren uit tekst configureren

Deze module ondersteunt de volgende scenario's voor het maken, bijwerken of toepassen van een n-gram-woordenlijst:

  • U ontwikkelt een nieuw model met behulp van een kolom met vrije tekstkolom en u wilt tekstfuncties extraheren op basis van de invoergegevens. Zie de instructies.

  • U hebt een bestaande set tekstfuncties en u wilt de gewichten bijwerken door nieuwe tekstinvoer te verwerken. Zie de instructies.

  • U genereert scores op basis van een voorspellend model en moet tekstinvoer genereren en gebruiken met een n-gram-woordenlijst als onderdeel van het scoreproces. Zie de instructies.

U kunt het voorbeeldexperiment als referentie gebruiken.

Een nieuwe n-gram-woordenlijst maken van een tekstkolom

  1. Voeg de module N-Gram-functies extraheren uit Tekst toe aan uw experiment en verbind de gegevensset met de tekst die u wilt verwerken.

  2. Kies bij Tekstkolom een kolom van het type tekenreeks die de tekst bevat die u wilt extraheren.

    De module selecteert standaard alle tekenreekskolommen. Omdat het resultaat echter uitgebreid is, moet u mogelijk één kolom tegelijk verwerken.

  3. Selecteer maken bij Vocabulairemodus om aan te geven dat u een nieuwe lijst met n-gram-functies maakt.

    Zie deze sectie voor meer informatie over het bijwerken van een bestaande set n-gram-functies.

  4. Bij N-Gramgrootte typt u een getal dat de maximale grootte aangeeft van de n-gram die moet worden geëxtraheert en opgeslagen.

    Als u bijvoorbeeld typt 3, worden unigrammen, bigrams en trigrammen gemaakt.

  5. Voor K-Skip-grootte typt u het maximum aantal tekens dat kan verschillen bij het identificeren van varianten van n-grammen. Als de waarde van k is ingesteld op 0, kan n-gram alleen worden gemaakt op basis van een unieke, aaneengesloten reeks tekens.

    Stel bijvoorbeeld dat uw woordenlijst het unigram 'computer' bevat. Een k-waarde van 0 betekent dat 'computer' het enige geldige unigram is. Als u de waarde van k naar 1 verhoogt, kunt u één tussenliggende teken overslaan, zodat u meer vergelijkbare reeksen kunt vinden. Een skip-gram met een k-waarde van 1 verschilt met één teken van het unigram van 0 k . De skip-grammen 'conputer' en 'compuuter' worden dus beide beschouwd als onderdeel van dezelfde woordenlijstinvoer als 'computer'. Als u de k-waarde instelt op 2, komt deze overeen met nog meer ongelijksoortige woorden.

    Zie dit artikel: Candidate Generation and Feature Engineering for Supervised Lexical Normalization (Kandidaatgeneratie en Functie-engineering voor lexicale normalisering onder supervisie) voor meer informatie over hoe skip-grammen worden gebruikt in tekstanalyse

  6. De optie, de functie Weging, is alleen vereist als u vocabulaires samenvoegt of bij werkt. Het geeft aan hoe termen in de twee vocabulaires en hun scores tegen elkaar moeten worden gewogen.

  7. Bij Minimale woordlengte typt u de minimale woordlengte van tekenreeksen die kunnen worden geanalyseerd.

    Stel bijvoorbeeld dat de minimale woordlengte is ingesteld op 3 (de standaardwaarde) en dat u één invoer met één woord hebt en een andere invoer met een korte tekst zoals 'mooie plaats'. Beide rijen worden genegeerd.

  8. Bij Maximale woordlengte typt u het maximum aantal letters dat in één woord in een n-gram kan worden gebruikt.

    Standaard zijn maximaal 25 tekens per woord of token toegestaan. Woorden die langer zijn dan die zijn verwijderd, in de veronderstelling dat het mogelijk reeksen willekeurige tekens zijn in plaats van werkelijke lexicale items.

  9. Voor minimale n-gram document absolute frequentie, typt u een getal dat de minimale exemplaren die vereist zijn voor een enkel woord of token moet worden opgenomen in de n-gram woordenlijst.

    Als u bijvoorbeeld de standaardwaarde 5 gebruikt, moet een n-gram of skip-gram ten minste vijf keer worden weergegeven in het woordenboek dat moet worden opgenomen in de n-gram-woordenlijst.

  10. Bij Maximale n-gram documentverhouding typt u een getal dat deze verhouding vertegenwoordigt: het aantal rijen dat een bepaalde n-gram bevat, boven het aantal rijen in het totale aantal rijen.

    Een verhouding van 1 zou bijvoorbeeld aangeven dat, zelfs als een specifieke n-gram aanwezig is in elke rij, de n-gram kan worden toegevoegd aan de n-gram-woordenlijst. Normaal gesproken wordt een woord dat in elke rij voorkomt, beschouwd als een ruiswoord en zou het worden verwijderd. Als u woorden met domeinafhankelijke ruis wilt wegfilteren, vermindert u deze verhouding.

    Belangrijk

    De snelheid van het voorkomen van bepaalde woorden is niet uniform, maar varieert per document. Als u bijvoorbeeld opmerkingen van klanten over een specifiek product analyseert, kan de productnaam een zeer hoge frequentie hebben en dicht bij een ruiswoord liggen, maar een belangrijke term zijn in andere contexten.

  11. Selecteer de optie Out-of-vocabulary rows detecteren als u een indicator wilt genereren voor rijen die woorden bevatten die niet in de n-gram-woordenlijst staan, die 'out of vocabulary' (OOV)-woorden worden genoemd.

    Alle woordenlijstjes zijn eindig; Daarom bevat uw tekstconfig bijna gegarandeerd woorden die zich niet in de woordenlijst woordenlijst of n-gram-woordenlijst bevindt. Dergelijke woorden kunnen echter verschillende effecten hebben op taalmodellen, waaronder hogere foutpercentages in vergelijking met woorden in woorden in woordenlijst (IV). Afhankelijk van uw domein kunnen deze OOV-woorden belangrijke inhoudswoorden vertegenwoordigen.

    Door rijen te identificeren die deze woorden bevatten, kunt u de effecten van deze termen compenseren of de termen en gerelateerde rijen afzonderlijk verwerken.

  12. Selecteer de optie Begin van zin markeren om een speciale tekenreeks toe te voegen die het begin van een zin in uw n-gram-woordenlijst aangeeft. Het voorvoegsel n-grammen die een zin met een speciaal teken beginnen, is gebruikelijk in tekstanalyse en kan nuttig zijn bij het analyseren van grenzen van de grenzen van de autorisering.

    Azure ML Studio (klassiek) voegt het symbool in|||. U kunt geen aangepast teken opgeven.

  13. Selecteer de optie N-gram-functievectoren normaliseren als u de functievectoren wilt normaliseren. Wanneer u dit doet, wordt elke n-gram-functievector gedeeld door de L2-norm.

    Normalisatie wordt standaard gebruikt.

  14. Stel Functieselectie op basis van filters gebruiken in op Waar als u aanvullende opties wilt inschakelen voor het beheren van de grootte van uw tekstfunctievector.

    • Functieselectie kan handig zijn bij het verminderen van de dimensionaliteit van uw n-grammen.
    • Wanneer u geen filterselectie toe passen, worden alle mogelijke n-grammen gemaakt, waardoor de dekking toeneemt ten koste van het langer maken van de woordenlijst en mogelijk met inbegrip van veel weinig voorkomende termen.
    • In een kleine hoeveelheid termen kan het gebruik van functieselectie het aantal termen dat wordt gemaakt aanzienlijk verminderen.
    • Zie Filter Based Feature Selection (Functieselectie op basis van filters) voor meer informatie.

    Als u functieselectie gebruikt, moet u een methode selecteren in de vervolgkeuzelijst Functiescoremethode:

    • PearsonCorrelation: berekent de correlatie van Pearson op basis van de waarde van de labelkolom en de tekstvector.
    • MutualInformation: berekent een wederzijdse informatiescore op basis van de waarde van de labelkolom en de tekstvector.
    • KendallCorrelation: berekent de correlatie van Kendall op basis van de waarde van de labelkolom en de tekstvector.
    • SpearmanCorrelation: berekent de Spearman-correlatie op basis van de waarde van de labelkolom en de tekstvector.
    • ChiSquared: maakt gebruik van de chi-kwadraatmethode om de correlatie tussen de waarde van de labelkolom en de tekstvector te berekenen.
    • Score: berekent de Score voor de kolomwaarde van het label en de tekstvector.
    • Functieselectie op basis van aantal: maakt nieuwe functies op basis van het aantal waarden. Een labelkolom is niet vereist voor deze methode.

    Afhankelijk van de methode die u kiest, stelt u een van de volgende opties in:

    • Aantal gewenste functies: vereist als u een andere functieselectiemethode gebruikt dan het selecteren van functies op basis van een aantal.

      Tijdens het selectieproces van functies krijgen alle n-grammen een functiescore en worden n-grammen gerangschikt op score. De waarde die u hier in stelt, bepaalt hoeveel van de meest geclassificeerde functies worden uitgevoerd. N-grammen met lagere functiescores worden verwijderd.

    • Minimum aantal niet-nul-elementen: vereist als u functieselectie op basis van aantal gebruikt.

      Typ een geheel getal dat het minimumaantal vereiste exemplaren voor het in tabelleren van het aantal voor een mogelijke functie vertegenwoordigt.

  15. Voer het experiment uit.

    Zie deze sectie voor een uitleg van de resultaten en hun indeling.

Een bestaande n-gram-woordenlijst bijwerken of woordenlijsten samenvoegen

  1. Voeg de module N-Gram-functies extraheren uit tekst toe aan uw experiment en koppel de gegevensset met de tekst die u wilt verwerken aan de poort van de gegevensset .

  2. Kies bij Tekstkolom de tekstkolom die de tekst bevat die u wilt gebruiken. De module selecteert standaard alle kolommen van het type tekenreeks. Voor het beste resultaat kunt u één kolom tegelijk verwerken.

  3. Voeg de opgeslagen gegevensset met een eerder gegenereerde n-gram-woordenlijst toe en verbind deze met de invoer-woordenlijstpoort . U kunt ook de uitvoer van de woordenlijst Resultaat van een upstream-exemplaar van de module N-Gram-functies extraheren uit tekst verbinden.

    Als u woordenlijst wilt samenvoegen of bijwerken, moet het schema van de invoerwoordenlijst exact overeenkomen met de verwachte indeling. Verwijder geen kolommen uit of voeg kolommen toe aan de invoerwoordenlijst.

  4. Selecteer in de vocabulairemodus een van de volgende updateopties in de vervolgkeuzelijst:

    • ReadOnly: vertegenwoordigt het invoerinvoer-invoerinvoercabulaire. Dat wil zeggen dat in plaats van termfrequenties te berekenen van de nieuwe tekstset (aan de linkerkant), de n-gram-gewichten van de invoerwoordenlijst worden toegepast zoals ze zijn.

      Tip

      Gebruik deze optie bij het scoren van een tekstclassificator.

    • Update: Hiermee maakt u een nieuwe n-gram-woordenlijst van het invoerinvoerentamen en voegt u deze samen met de invoerwoordenlijst. Met andere woorden, u kunt nieuwe vermeldingen toevoegen aan de gemaakte woordenlijst vanuit de invoerwoordenlijst, of u kunt bestaande vermeldingen bijwerken.

      Tip

      Gebruik deze optie voor incrementele updates van woordenlijst met binnenkomende gegevensbatchs.

    • Samenvoegen: genereert een nieuwe n-gram-woordenlijst uit het invoerinvoerentvoegprogramma.

      Deze optie is handig als u een achtergrondwoorden als invoer aan de module door geeft en het gewicht van stopwoorden wilt verminderen. Met andere woorden, aan elke vermelding met een hoge documentfrequentiescore op de achtergrond wordt een lagere inverse documentfrequentiescore toegewezen in de gemaakte woordenlijst.

      Tip

      Gebruik deze optie als u geen nieuwe vermeldingen wilt toevoegen aan de gemaakte woordenlijst vanuit de invoer en alleen de scores van bestaande vermeldingen wilt aanpassen.

  5. De optie Kies de wegingsfunctie is vereist als u vocabulaires samenvoegt of bij werkt. De wegingsfunctie geeft aan hoe de DF- en IDF-scores in de twee vocabulaires tegen elkaar moeten worden gewogen:

    • Binair gewicht: wijst een binaire aanwezigheidswaarde toe aan de geëxtraheerde n-grammen. Met andere woorden, de waarde voor elke n-gram is 1 wanneer deze bestaat in het opgegeven document, en 0 anders.
    • TF-gewicht: wijst een termfrequentiescore (TF) toe aan de geëxtraheerde n-grammen. De waarde voor elke n-gram is de frequentie van optreden in het opgegeven document.
    • IDF-gewicht: wijst een inverse documentfrequentiescore (IDF) toe aan de geëxtraheerde n-grammen. De waarde voor elke n-gram is het logboek van de grootte van een groep, gedeeld door de frequentie van het aantal exemplaren in het hele atoom. Dat wil zeggen: IDF = log of corpus_size / document_frequency
    • TF-IDF-gewicht: wijst een term frequency/inverse document frequency score (TF/IDF) toe aan de geëxtraheerde n-gram. De waarde voor elke n-gram is de TF-score vermenigvuldigd met de IDF-score.
    • Graph Gewicht: wijst score toe aan de geëxtraheerde n-gram op basis van de classificatie van de TextRank-grafiek. TextRank is een classificatiemodel op basis van grafieken voor tekstverwerking. Graph op basis van classificatiealgoritmen zijn in feite een manier om het belang te bepalen op basis van globale informatie. Zie TextRank: Bringing Order into Teksten van Rada Mihalcea en Paul Textu voor meer informatie.
  6. Zie de beschrijvingen van eigenschappen in de vorige sectie voor alle andere opties.

  7. Voer het experiment uit.

    Zie deze sectie voor een uitleg van de resultaten en hun indeling.

Een model met n-grammen scoren of publiceren

  1. Kopieer de module N-Gram-functies extraheren uit tekst van de trainingsgegevensstroom naar de scoring-gegevensstroom.

  2. Verbinding maken uitvoer van de Woordenlijst met resultaten van de trainingsgegevensstroom door naar de invoerwoordenlijst voor de scoring-gegevensstroom.

  3. Wijzig in de scoring-werkstroom de module N-Gram-functies extraheren uit Tekst en maak deze wijzigingen, zodat alle andere elementen hetzelfde blijven:

    • Stel de parameter Vocabulairemodusin op ReadOnly.

    • Wijzig de optie Functieselectie op basis van filters gebruiken in False.

  4. Als u het experiment wilt publiceren, moet u de Woordenlijst met resultaten opslaan als gegevensset.

    Verbind vervolgens de opgeslagen gegevensset met de module N-Gram-functies extraheren uit tekst in uw scoregrafiek.

Resultaten

De module N-Gram-functies extraheren uit Tekst maakt twee soorten uitvoer:

  • Gegevensset met resultaten: Een samenvatting van de geanalyseerde tekst samen met de n-gram die is geëxtraheerd. Kolommen die u niet hebt geselecteerd in de optie Tekstkolom worden doorgegeven aan de uitvoer. Voor elke kolom met tekst die u analyseert, genereert de module deze kolommen:

    • NgramsString: een tekenreeks met alle unieke n-grammen.
    • NumUniqueNgrams: het aantal n-gram dat is geëxtraheerd met behulp van de opgegeven eigenschappen.
    • Sparse matrix van n-gram-exemplaren: De module genereert een kolom voor elke n-gram die in het totale aantal wordt gevonden en voegt een score toe in elke kolom om het gewicht van de n-gram voor die rij aan te geven.
  • Woordenlijst met resultaten: De woordenlijst bevat de werkelijke n-gram-woordenlijst, samen met de term frequentiescores die worden gegenereerd als onderdeel van de analyse. U kunt de gegevensset opslaan voor opnieuw gebruik met een andere set invoer of voor latere updates. U kunt ook de scores bijwerken of de woordenlijst opnieuw gebruiken voor modellering en scoren.

Voorbeeldresultaten

Om te laten zien hoe u de resultaten kunt gebruiken, wordt in het volgende korte voorbeeld gebruikgemaakt van de Amazon Book Review-gegevensset die beschikbaar is in Studio (klassiek). Het gegevensaset is gefilterd om alleen beoordelingen weer te geven met een score van 4 of 5 en beoordelingen met een tekenreekslengte van minder dan 300 tekens.

Uit deze gegevensset is een korte beoordeling geselecteerd, die slechts 92 woorden bevat. Hier is de naam van de auteur vervangen door Xxx en de titel van het boek vervangen door Yyy:

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

Resultatengegevensset voor voorbeeldbeoordelingstekst

Voor dit voorbeeld heeft de module deze kolommen gegenereerd:

  • NumUniqueNgrams: Voor deze beoordeling van 92 woorden zijn met behulp van de standaardinstellingen 11 n-grammen uit de voorbeeldbeoordeling geëxtraheerd.

    Toen de n-gram-lengte werd verhoogd tot 3 en de skip-gram-waarde was ingesteld op 1, werden er 15 n-gram gevonden.

    Toen functieselectie werd toegepast op de standaardinstelling, werden er geen n-grammen geëxtraheerd.

  • NgramsString:Met de standaardinstellingen zijn deze n-gram geretourneerd: ["his","best","one","highly","recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel"]

    Met een n-gram lengte van 3 en een skip-gram-waarde van 1, werden deze n-gram geretourneerd: ["his","best","one","highly", "recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel","best_one","one_best","highly_this","highly_recommend_this"]

  • Sparse matrix van n-gram-exemplaren

    Voor deze specifieke beoordeling omvatten de resultaten de volgende kolommen:

    ReviewText. [beheert] ReviewText. [and_highly] ReviewText. [zeer] ReviewText. [highly_recommend]
    0 0 0.301511 0.301511

    Tip

    Als u problemen hebt met het weergeven van een bepaalde kolom, koppelt u de module Kolommen in gegevensset selecteren aan de uitvoer en gebruikt u vervolgens de zoekfunctie om kolommen te filteren op naam.

Woordenlijst met resultaten voor voorbeeldbeoordelingstekst

De woordenlijst bevat de werkelijke n-gram-woordenlijst, samen met de term frequentiescores die worden gegenereerd als onderdeel van de analyse. U kunt de gegevensset opslaan voor opnieuw gebruik met een andere set invoer of voor latere updates. De scores DF en IDF worden gegenereerd, ongeacht andere opties. Wanneer u vocabulaires combineert, worden deze opgeslagen waarden gebruikt als invoer voor de gewogen functie die u kiest.

  • Id: Een id die wordt gegenereerd voor elke unieke n-gram.
  • Ngram: de n-gram. Spaties of andere scheidingstekens voor woorden worden vervangen door het onderstrepingsteken.
  • DF: De term frequency score voor de n-gram in het oorspronkelijke -atoom.
  • IDF: De inverse documentfrequentiescore voor het n-gram in het oorspronkelijke -bestand.

Het is mogelijk om deze gegevensset handmatig bij te werken; wees echter voorzichtig, omdat u fouten kunt introduceren. Bijvoorbeeld:

  • Er t doet zich een fout voor als de module dubbele rijen met dezelfde sleutel in de invoerwoordenlijst vindt. Zorg ervoor dat geen twee rijen in de woordenlijst hetzelfde woord hebben.
  • Het invoerschema van de vocabulaire-gegevenssets moet exact overeenkomen, inclusief kolomnamen en kolomtypen.
  • De kolom ID en de kolom DF-score moeten van het type geheel getal zijn.
  • De kolom IDF moet van het type FLOAT (drijvende punt) zijn.

Technische opmerkingen

We raden u aan te experimenteren met verschillende waardenbereiken voor de lengte van n-gram, het aantal skip-gram en het gebruik van functieselectie om de dimensionaliteit van uw tekstvak en de optimale functieverhouding te bepalen.

Zie de volgende bronnen voor meer informatie over n-grammen en skip-grammen:

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Invoergegevens
Vocabulaire invoer Gegevenstabel Vocabulaire invoer

Moduleparameters

Naam Type Bereik Optioneel Standaard Beschrijving
Minimumaantal elementen dat niet nul is Geheel getal >= 1 Is alleen van toepassing wanneer u de volgende methode gebruikt:

Op basis van aantal
1 Geef het aantal functies op dat moet worden uitgevoerd (voor de methode CountBased)
Tekstkolom Kolomselectie Vereist StringFeature Naam of een op één gebaseerde index van tekstkolom
Vocabulairemodus Vocabulairemodus Maken

ReadOnly

Bijwerken

Samenvoegen
Vereist Maken Opgeven hoe de n-gram-woordenlijst moet worden gemaakt op basis van het -woordenboek
N-Gramgrootte Geheel getal >= 1 Vereist 1 De maximale grootte van n gram aangeven om te maken
K-Skip-grootte Geheel getal >= 0 Vereist 0 De K-skip-grootte aangeven
De functie Weighting Wegingsfunctie Binair gewicht

TF-gewicht

IDF-gewicht

TF-IDF-gewicht

Graph gewicht
Vereist Binair gewicht Kies de wegingsfunctie die op elke n-gram-waarde moet worden toegepast
Minimale woordlengte Geheel getal >= 1 Vereist 3 Geef de minimale lengte van woorden op die moeten worden in n-grammen
Maximale woordlengte Geheel getal >= 2 Vereist 25 Geef de maximale lengte van woorden op die moeten worden in n-grammen
Minimale absolute n-gram-frequentie van document Float >= 1,0 Vereist 5,0 Minimale absolute n-gram-frequentie van document
Maximale n-gram documentverhouding Float >= 0,0001 Vereist 1.0 Maximale n-gram documentverhouding
Out-of-vocabulary rijen detecteren Booleaans Vereist true Rijen detecteren die woorden hebben die niet in de n-gram vocabulaire (OOV) staan
Begin van zin markeren Booleaans Vereist onjuist Aangeven of een beginse zin moet worden toegevoegd aan n-grammen
N-gram-functievectoren normaliseren Booleaans Vereist Normaliseer n-gram-functievectoren. Indien waar, wordt de n-gram-functievector gedeeld door de L2-norm.
Functieselectie op basis van filters gebruiken Waar onwaar type Waar

Niet waar
Vereist Waar Functieselectie op basis van filters gebruiken om dimensionaliteit te verminderen
Scoringsmethode voor functies Scoring-methode Pearson-correlatie

Wederzijdse informatie

Kendall Correlation

Spearman-correlatie

Chi kwadraat

Score voor Score

Op basis van aantal
Is alleen van toepassing wanneer de optie Functieselectie op basis van filter gebruiken waar is Score voor Score Kies de methode die u wilt gebruiken voor scoren
Doelkolom Kolomselectie Is van toepassing wanneer u een van de volgende methoden gebruikt:

Pearson-correlatie

Wederzijdse informatie

Kendall Correlation

Spearman-correlatie

Chi kwadraat

Score voor Score
De doelkolom opgeven
Aantal gewenste functies Geheel getal >= 1 Is van toepassing wanneer u een van de volgende methoden gebruikt:

Pearson-correlatie

Wederzijdse informatie

Kendall Correlation

Spearman-correlatie

Chi kwadraat

Score voor Score
1 Geef het aantal functies op dat in de resultaten moet worden uitgevoerd

Uitvoerwaarden

Naam Type Description
Gegevensset met resultaten Gegevenstabel Geëxtraheerde functies
Woordenlijst met resultaten Gegevenstabel Woordenlijst met resultaten

Zie ook

Tekstanalyse
A-Z-lijst met Machine Learning modules