İstatistiksel metin analizi.

3 dakika

Uyarı

Daha fazla ayrıntı için Metin ve resimler sekmesine bakın!

Bir metin corpus'unu kendi kurucu belirteçlerine ayırıp analize hazırlayarak; metinden anlam çıkarabilmek için kullanabileceğiniz bazı yaygın istatistiksel analiz teknikleri vardır.

Sıklık Analizi

Belgede ele alınan konuları doğrulamanın belki de en belirgin yolu, normalleştirilmiş her belirtecin kaç kez görüntülendiğini saymaktır. Belgede daha sık kullanılan terimlerin tartışılan konuları veya temaları tanımlamaya yardımcı olabileceği varsayımı var. Basitçe söylemek gerekirse, belirli bir belgede en sık kullanılan sözcükleri saptayabiliyorsanız, genellikle belgenin ne hakkında olduğu hakkında iyi bir fikir edinebilirsiniz.

Örneğin, aşağıdaki metni göz önünde bulundurun:

AI in modern business delivers transformative benefits by enhancing efficiency, decision-making, and customer experiences. Businesses can leverage AI to automate repetitive tasks, freeing employees to focus on strategic work, while predictive analytics and machine learning models enable data-driven decisions that improve accuracy and speed. AI-powered tools like Copilot streamline workflows across marketing, finance, and operations, reducing costs and boosting productivity. Additionally, intelligent applications personalize customer interactions, driving engagement and loyalty. By embedding AI into core processes, businesses benefit from the ability to innovate faster, adapt to market changes, and maintain a competitive edge in an increasingly digital economy.

Metne belirteç ekledikten, normalleştirdikten ve metne lemmatizasyon uyguladıktan sonra, her terimin sıklığı sayılabilir ve tablolanabilir; aşağıdaki kısmi sonuçları üretir:

Süre	Sıklık
`ai`	4
`business`	3
`benefit`	2
`customer`	2
`decision`	2
`market`	2
`ability`	1
`accuracy`	1
...	...

Bu sonuçlardan en sık ortaya çıkan terimler, metnin yapay zekayı ve iş avantajlarını ele aldığı anlamına gelir.

Terim Sıklığı - Ters Belge Sıklığı (TF-IDF)

Her belirtecin oluşum sayısını saydığınız basit sıklık analizi, tek bir belgeyi analiz etmenin etkili bir yolu olabilir, ancak aynı corpus içindeki birden çok belgeyi ayırt etmeniz gerektiğinde, her belgede en uygun belirteçleri belirlemek için bir yol gerekir.

Örneğin, aşağıdaki iki metin örneğini göz önünde bulundurun:

Örnek A:

Microsoft Copilot Studio enables declarative AI agent creation using natural language, prompts, and templates. With this declarative approach, an AI agent is configured rather than programmed: makers define intents, actions, and data connections, then publish the agent to channels. Microsoft Copilot Studio simplifies agent orchestration, governance, and lifecycles so an AI agent can be iterated quickly. Using Microsoft Copilot Studio helps modern businesses deploy Microsoft AI agent solutions fast.

Örnek B:

Microsoft Foundry enables code‑based AI agent development with SDKs and APIs. Developers write code to implement agent conversations, tool calling, state management, and custom pipelines. In Microsoft Foundry, engineers can use Python or Microsoft C#, integrate Microsoft AI services, and manage CI/CD to deploy the AI agent. This code-first development model supports extensibility and performance while building Microsoft Foundry AI agent applications.

Bu örneklerde en sık kullanılan üç terim aşağıdaki tablolarda gösterilmiştir:

Örnek A:

Süre	Sıklık
`agent`	6
`ai`	4
`microsoft`	4

Örnek B:

Süre	Sıklık
`microsoft`	5
`agent`	4
`ai`	4

Sonuçlardan görebileceğiniz gibi, her iki örnekteki en yaygın sözcükler aynıdır ("agent", "Microsoft"ve "AI"). Bu, her iki belgenin de benzer bir genel temayı kapsadığını ancak tek tek belgeler arasında ayrım yapmamıza yardımcı olmadığını bildirir. Daha az kullanılan terimlerin sayısını incelemek yararlı olabilir, ancak Microsoft'un yapay zeka belgelerine dayalı bir corpus analizini kolayca hayal edebilirsiniz; bu da tüm belgelerde ortak olan çok sayıda terimle sonuçlanır; her belgede ele alınan belirli konuları belirlemeyi zorlaştırıyor.

Bu sorunu çözmek için Terim Sıklığı - Ters Belge Sıklığı (TF-IDF), bir sözcüğün veya terimin belge koleksiyonunun tamamında daha genel sıklığına kıyasla bir belgede ne sıklıkta göründüğüne göre puanları hesaplayan bir tekniktir. Bu teknik kullanıldığında, belirli bir belgede sık görülen ancak çok çeşitli diğer belgelerde nispeten seyrek görülen sözcükler için yüksek düzeyde ilgi olduğu varsayılır. Tek bir belgedeki terimlerin TF-IDF hesaplamak için aşağıdaki üç adımlı işlemi kullanabilirsiniz:

Terim Sıklığını (TF) Hesaplama: Bu, belgede bir sözcüğün kaç kez göründüğüdür. Örneğin, sözcük "agent" belgede 6 kez görünüyorsa, o zaman tf(agent) = 6.
Ters Belge Sıklığını (IDF) Hesaplama: Bu, bir sözcüğün tüm belgelerde ne kadar yaygın veya nadir olduğunu denetler. Her belgede bir sözcük görünürse, bu özel değildir. IDF'yi hesaplamak için kullanılan formül : idf(t) = log(N / df(t)) (burada N toplam belge sayısıdır ve df(t) sözcüğü tiçeren belge sayısıdır)
TF-IDF'yi hesaplamak için bunları birleştirin: Puanı almak için TF ve IDF'yi çarpın: tfidf(t, d) = tf(t, d) * log(N / df(t))

Yüksek TF-IDF puanı, bir sözcüğün bir belgede sık sık göründüğünü ancak diğerlerinde nadiren göründüğünü gösterir. Düşük puan, sözcüğün birçok belgede yaygın olduğunu gösterir. yapay zeka aracılarıyla ilgili iki örnekte, çünkü "AI", "Microsoft"ve "agent" her iki örnekte de görünür (N = 2, df(t) = 2 ), IDF'leri TF-IDF'de log(2/2) = 0ayrımcı ağırlık taşımaz. Örneklerin ilk üç TF-IDF sonucu şunlardır:

Örnek A:

Süre	TF-IDF
`copilot`	2.0794
`studio`	2.0794
`declarative`	1.3863

Örnek B:

Süre	TF-IDF
`code`	2.0794
`develop`	2.0794
`foundry`	2.0794

Bu sonuçlardan, örnek A'nın Copilot Studio ile bildirim temelli aracı oluşturma ile ilgili olduğu, B örneğinin ise Microsoft Foundry ile kod tabanlı aracı geliştirme hakkında olduğu daha açık bir şekilde açıklanmaktadır.

"Sözcük paketi" makine öğrenmesi teknikleri

Sözcük torbaları , dil bilgisi ve sözcük sırasını yoksayarak metin belirteçlerini sözcük sıklıklarının veya oluşumlarının vektörleri olarak temsil eden bir özellik ayıklama tekniğine verilen addır. Bu gösterim, sözcük sıklığına göre bir belgenin olası sınıfını tahmin etmek için Bayes'in teoremini uygulayan olasılıksal bir sınıflandırıcı olan Naive Bayes gibi makine öğrenmesi algoritmaları için giriş haline gelir.

Örneğin, e-posta istenmeyen posta filtrelemesi gerçekleştiren bir makine öğrenmesi modelini eğitmek için bu tekniği kullanabilirsiniz. Şüpheli sağlık ürünleri hakkında istenmeyen e-postalarda "miracle cure", "lose weight fast" ve "yaşlanma karşıtı" kelimeleri normal e-postalarınıza göre daha sık görünebilir ve bu sözcükleri içeren mesajlar, eğitilen bir model tarafından potansiyel istenmeyen posta olarak işaretlenebilir.

Metni duygusal tona göre sınıflandırmak için aynı yöntemi kullanarak yaklaşım analizi uygulayabilirsiniz. Sözcük paketi özellikleri sağlar ve model bu özellikleri kullanarak olasılıkları tahmin eder ve "pozitif" veya "negatif" gibi yaklaşım etiketleri atar.

TextRank

TextRank, metni bağlı düğümlerden oluşan bir ağ olarak modelleyen denetimsiz graf tabanlı bir algoritmadır. Örneğin, bir belgedeki her tümce bir düğüm olarak kabul edilebilir ve aralarındaki bağlantılar (kenarlar) içerdikleri sözcüklerin benzerliğine göre puanlanmıştır. TextRank, bir belge içindeki tümcelerin bir alt kümesini tanımlamaya dayalı olarak metni özetlemek için yaygın olarak kullanılır ve genel konusunu en iyi şekilde temsil eder.

TextRank algoritması, Google'ın PageRank algoritmasıyla aynı ilkeyi (web sayfalarını aralarındaki bağlantılara göre sıralayan) metne uygular. Önemli fikir, diğer birçok önemli cümleye benzerse cümlenin önemli olmasıdır. Algoritma aşağıdaki adımlarda çalışır:

Grafik oluşturma: Her tümce bir düğüme dönüşür ve bunları bağlayan kenarlar benzerlik açısından ağırlıklandırılır (genellikle sözcük çakışması veya cümle vektörleri arasındaki kosinüs benzerliği kullanılarak ölçülür).
Yinelemeli olarak hesaplama: Her düğümün puanı, ona bağlı düğümlerin puanlarına göre hesaplanır. Formül şöyledir: TextRank(Sᵢ) = (1-d) + d * Σ(wⱼᵢ / Σwⱼₖ) * TextRank(Sⱼ) (burada d bir sönümleme faktörüdür ve genellikle 0,85'tir, j cümlesinden i cümlesine olan kenar ağırlığı wⱼᵢ'dir ve toplam, i ile bağlantılı tüm cümleler üzerinde yinelenir).
En yüksek dereceli cümleleri çıkarmak: Yakınsama tamamlandıktan sonra, en yüksek puanlı cümleler özet olarak seçilir.

Örneğin, bulut bilişim hakkında aşağıdaki belgeyi göz önünde bulundurun:

Cloud computing provides on-demand access to computing resources. Computing resources include servers, storage, and networking. Azure is Microsoft's cloud computing platform. Organizations use cloud platforms to reduce infrastructure costs. Cloud computing enables scalability and flexibility.

Bu belgenin özetini oluşturmak için TextRank işlemi, bu belgeyi cümlelere bölerek başlar:

Cloud computing provides on-demand access to computing resources.
Computing resources include servers, storage, and networking.
Azure is Microsoft's cloud computing platform.
Organizations use cloud platforms to reduce infrastructure costs.
Cloud computing enables scalability and flexibility.

Daha sonra, benzerlik (sözcük çakışması) temelinde ağırlıkları olan cümleler arasında kenarlar oluşturulur. Bu örnekte kenar ağırlıkları şu şekilde olabilir:

Cümle 1 <-> Cümle 2: 0,5 (paylaşımlar "computing resources")
Cümle 1 <-> Cümle 3: 0,6 (paylaşımlar "cloud computing")
Cümle 1 <-> Cümle 4: 0,2 (paylaşımlar "cloud")
Cümle 1 <-> Cümle 5: 0,7 (paylaşımlar "cloud computing")
Cümle 2 <-> Cümle 3: 0,2 (sınırlı çakışma)
Cümle 2 <-> Cümle 4: 0,1 (sınırlı çakışma)
Cümle 2 <-> Cümle 5: 0.1 (paylaşımlar "computing")
Cümle 3 <-> Cümle 4: 0,5 (paylaşımlar "cloud platforms")
Cümle 3 <-> Cümle 5: 0,4 (paylaşımlar "cloud computing")
Tümce 4 <-> Cümle 5: 0,3 (sınırlı çakışma)

Bağlı tümce düğümlerinin diyagramı.

TextRank puanlarını bu ağırlıkları kullanarak yinelemeli olarak hesapladıktan sonra, paylaşılan terminoloji ve kavramlar aracılığıyla diğer cümlelere iyi bağlandıkları için 1, 3 ve 5 tümceleri en yüksek puanları alabilir. Bu cümleler kısa bir özet oluşturmak için seçilir: "Cloud computing provides on-demand access to computing resources. Azure is Microsoft's cloud computing platform. Cloud computing enables scalability and flexibility."

Uyarı

En uygun cümleleri seçerek belge özeti oluşturmak , ayıklayıcı özetleme biçimidir. Bu yaklaşımda yeni metin oluşturulmaz; özet, özgün metnin bir alt kümesinden oluşur. Anlamsal modellemedeki daha yeni gelişmeler, kaynak belgenin temel temalarını özetleyen yeni dilin oluşturulduğu soyut özetlemeyi de sağlar.

TextRank, sözcüklerin (cümleler yerine) düğüm haline geldiği ve kenarların sabit bir pencere içinde birlikte oluşumu temsil ettiği anahtar sözcük ayıklama için sözcük düzeyinde de uygulanabilir. En yüksek dereceli sözcükler, belgenin ana konularını temsil eden önemli terimler olarak ayıklanır.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?