Microsoft Syntex açıklama türleri
Şunlar için geçerlidir: ★ Yapılandırılmamış belge işleme
Açıklamalar, Microsoft Syntex'da yapılandırılmamış belge işleme modellerinizde etiketlemek ve ayıklamak istediğiniz bilgileri tanımlamaya yardımcı olmak için kullanılır. Açıklama oluştururken bir açıklama türü seçmeniz gerekir. Bu makale, farklı açıklama türlerini ve bunların nasıl kullanıldığını anlamanıza yardımcı olur.
Bu açıklama türleri kullanılabilir:
Tümcecik listesi: Belgede veya ayıkladığınız bilgilerde kullanabileceğiniz sözcüklerin, tümceciklerin, sayıların veya diğer karakterlerin listesi. Örneğin, başvuruda bulunan metin dizesi doktor, tanımladığınız tüm Tıbbi Referans belgelerinde yer alır. Ya da tanımladığınız tüm Tıbbi Referans belgelerinden başvuran doktorun telefon numarası .
Normal ifade: Belirli karakter desenlerini bulmak için desen eşleştirme gösterimi kullanır. Örneğin, bir belge kümesindeki e-posta adresi deseninin tüm örneklerini bulmak için normal bir ifade kullanabilirsiniz.
Yakınlık: Açıklamaların birbirine ne kadar yakın olduğunu açıklar. Örneğin, sokak numarası tümcecik listesi, arasında belirteç olmadan sokak adı tümcecik listesinden hemen önce gider (bu makalenin devamındaki belirteçler hakkında bilgi edinirsiniz). Yakınlık türünü kullanmak için modelinizde en az iki açıklama olması gerekir, aksi takdirde seçenek devre dışı bırakılır.
Tümcecik listesi
İfade listesi açıklama türü genellikle modeliniz aracılığıyla belgeyi tanımlamak ve sınıflandırmak için kullanılır. Başvuruda bulunan doktor etiketi örneğinde açıklandığı gibi, tanımladığınız belgelerde tutarlı olarak bulunan bir sözcük, tümcecik, sayı veya karakter dizesidir.
Bir gereksinim olmasa da, yakaladığınız tümcecik belgenizde tutarlı bir konumda bulunuyorsa açıklamanızla daha iyi bir başarı elde edebilirsiniz. Örneğin, başvuran doktor etiketi tutarlı bir şekilde belgenin ilk paragrafında bulunabilir. Ayrıca, özellikle de tümceciği belgenizdeki birden çok konumda bulunma olasılığı varsa, tümceciğin bulunduğu belirli alanları seçmek için Belge gelişmiş ayarında tümceciklerin nerede olduğunu yapılandır ayarını da kullanabilirsiniz.
Büyük/küçük harf duyarlılığı etiketinizi tanımlamada bir gereksinimse, tümcecik listesi türünü kullanmak , Yalnızca tam büyük harf kullanımı onay kutusunu seçerek açıklamanızda bunu belirtmenize olanak tanır.
İfade türü özellikle tarihler, telefon numaraları ve kredi kartı numaraları gibi farklı biçimlerdeki bilgileri tanımlayan ve ayıklayan bir açıklama oluşturduğunuzda kullanışlıdır. Örneğin, tarih birçok farklı biçimde görüntülenebilir (1/1/2020, 1-1-2020, 01/01/20, 01/01/2020 veya 1 Ocak 2020). Tümcecik listesi tanımlamak, tanımlamaya ve ayıklamaya çalıştığınız verilerdeki olası varyasyonları yakalayarak açıklamanızı daha verimli hale getirir.
Telefon numarası örneği için, modelin tanımladığını tüm Tıbbi Referans belgelerinden başvuran her doktorun telefon numarasını ayıklarsınız. Açıklamayı oluşturduğunuzda, olası varyasyonları yakalayabilmeniz için belgenizde telefon numarasının görüntüleyebileceği farklı biçimleri yazın.
Bu örnekte Gelişmiş Ayarlar'da0-9 arasında herhangi bir basamak onay kutusunu seçerek tümcecik listenizde kullanılan her "0" değerin 0 ile 9 arasında herhangi bir rakam olduğunu belirleyin.
Benzer şekilde, metin karakterleri içeren bir tümcecik listesi oluşturursanız, tümcecik listesinde kullanılan her "a" karakterini "a" ile "z" arasında herhangi bir karakter olarak tanımak için A-z'den herhangi bir harf onay kutusunu seçin.
Örneğin, bir Tarih tümcecik listesi oluşturursanız ve 1 Ocak 2020 gibi bir tarih biçiminin tanındığından emin olmak istiyorsanız şunları yapmanız gerekir:
- tümcecik listenize aaa 0, 0000 ve aaa 00, 0000 ekleyin.
- A-z harfinden herhangi bir harfin de seçili olduğundan emin olun.
Tümcecik listenizde büyük harfe çevirme gereksinimleri varsa , Yalnızca tam büyük harfe çevirme onay kutusunu seçebilirsiniz. Tarih örneğinde, ayın ilk harfinin büyük harfle yazılması gerekiyorsa şunları yapmanız gerekir:
- Tümcecik listenize Aaa 0, 0000 ve Aaa 00, 0000 ekleyin.
- Yalnızca tam büyük harfe çevirme'nin de seçili olduğundan emin olun.
Not
Tümcecik listesi açıklamasını el ile oluşturmak yerine, tarih, telefon numarası veya kredi kartı numarası gibi ortak bir tümcecik listesi için tümcecik listesi şablonlarını kullanmak için açıklama kitaplığını kullanın.
Düzenli ifade
Normal ifade açıklama türü, belgelerde belirli metin dizelerini bulmanıza ve tanımlamanıza yardımcı olan desenler oluşturmanıza olanak tanır. Büyük miktarda metni hızla ayrıştırmak için normal ifadeleri kullanabilirsiniz:
- Belirli karakter desenlerini bulma.
- Önceden tanımlanmış bir desenle (e-posta adresi gibi) eşleştiğinden emin olmak için metni doğrulayın.
- Metin alt dizelerini ayıklayın, düzenleyin, değiştirin veya silin.
Normal ifade türü özellikle e-posta adresleri, banka hesap numaraları veya URL'ler gibi benzer biçimlerde bilgileri tanımlayan ve ayıklayan bir açıklama oluşturduğunuzda kullanışlıdır. Örneğin, gibi megan@contoso.combir e-posta adresi belirli bir düzende görüntülenir ("megan" ilk bölüm, "com" ise son bölümdür).
E-posta adresi için normal ifade: [A-Za-z0-9._%-]+@[A-Za-z0-9.-]+.[ A-Za-z]{2,6}.
Bu ifade şu sırayla beş bölümden oluşur:
Aşağıdaki karakterlerden herhangi biri:
a. A'dan z'ye mektuplar
b. 0-9 arası sayılar
c. Nokta, alt çizgi, yüzde veya tire
@ simgesi
E-posta adresinin ilk bölümüyle aynı karakter miktarı
Bir dönem
İki ile altı harf
Normal ifade açıklama türü eklemek için:
Açıklama oluştur panelindeki Açıklama türü'nin altında Normal ifade'yi seçin.
Normal ifade metin kutusuna bir ifade yazabilir veya Şablondan normal ifade ekle'yi seçebilirsiniz.
Şablon kullanarak normal ifade eklediğinizde, ad ve normal ifade otomatik olarak metin kutusuna eklenir. Örneğin, Email adres şablonunu seçerseniz, Açıklama oluştur paneli doldurulur.
Sınırlamalar
Aşağıdaki tabloda, normal ifade desenlerinde şu anda kullanılamamakta olan satır içi karakter seçenekleri gösterilmektedir.
Seçenek | Durum | Geçerli işlevsellik |
---|---|---|
Büyük/küçük harf duyarlılığı | Şu anda desteklenmiyor. | Gerçekleştirilen tüm eşleşmeler büyük/küçük harfe duyarlı değildir. |
Çizgi tutturucular | Şu anda desteklenmiyor. | Dizede eşleşmenin olması gereken belirli bir konum belirtilemiyor. |
Yakınlık
Yakınlık açıklaması türü, modelinizin başka bir veri parçasının ona ne kadar yakın olduğunu tanımlayarak verileri tanımlamasına yardımcı olur. Örneğin, modelinizde hem müşteri adres numarasını hem de telefon numarasını etiketleyen iki açıklama tanımlamış olduğunuzu varsayalım.
Müşteri telefon numaralarının her zaman sokak adres numarasından önce göründüğüne dikkat edin.
Alex Wilburn
555-555-5555
One Microsoft Way
Redmond, WA 98034
Yakınlık açıklamasını kullanarak, telefon numarası açıklamasının belgelerinizdeki sokak adresi numarasını daha iyi tanımlamak için ne kadar uzak olduğunu tanımlayın.
Not
Normal ifadeler şu anda yakınlık açıklaması türüyle kullanılamaz.
Belirteçler nedir?
Yakınlık açıklaması türünü kullanmak için belirtecin ne olduğunu anlamanız gerekir. Belirteç sayısı, yakınlık açıklamasının bir açıklamadan diğerine olan mesafeyi nasıl ölçt olduğudur. Belirteç, harflerin ve sayıların sürekli yayılma alanıdır (boşluklar veya noktalama işaretleri dahil değildir).
Aşağıdaki tabloda, bir tümcecikteki belirteç sayısını belirlemeye yönelik örnekler gösterilmektedir.
Deyim | Belirteç sayısı | Açıklama |
---|---|---|
Dog |
1 | Noktalama işareti veya boşluk içermeyen tek bir sözcük. |
RMT33W |
1 | Kayıt bulucu numarası. Sayılar ve harfler içerebilir, ancak noktalama işaretleri yoktur. |
425-555-5555 |
5 | Telefon numarası. Her noktalama işareti tek bir belirteçtir ve 425-555-5555 5 belirteçtir:425 - 555 - 5555 |
https://luis.ai |
7 | https : / / luis . ai |
Yakınlık açıklaması türünü yapılandırma
Örneğin, telefon numarası açıklamasındaki belirteç sayısının aralığını açık adres numarası açıklamasından tanımlamak için yakınlık ayarını yapılandırın. Telefon numarası ile sokak adresi numarası arasında belirteç olmadığından en düşük aralığın "0" olduğuna dikkat edin.
Ancak örnek belgelerdeki bazı telefon numaraları (mobil) ile eklenir.
Nestor Wilke
111-111-1111 (mobil)
One Microsoft Way
Redmond, WA 98034
(mobil) içinde üç belirteç vardır:
Deyim | Belirteç sayısı |
---|---|
( | 1 |
cep | 2 |
) | 3 |
Yakınlık ayarını 0 ile 3 arasında bir aralığa sahip olacak şekilde yapılandırın.
Tümceciklerin belgede nerede olduğunu yapılandırma
Bir açıklama oluşturduğunuzda, varsayılan olarak ayıklamaya çalıştığınız tümceciği belgenin tamaminde arama yapılır. Ancak, belgede bir tümceciğin oluştuğu belirli bir konumu yalıtmaya yardımcı olması için bu tümceciklerin oluştuğu yer gelişmiş ayarını kullanabilirsiniz. Bu ayar, bir tümceciğin benzer örneklerinin belgede başka bir yerde görünebileceği ve doğru ifadenin seçildiğinden emin olmak istediğiniz durumlarda kullanışlıdır.
Tıbbi Referans belgesi örneğimize atıfta bulunarak, başvuran doktor her zaman belgenin ilk paragrafında belirtilir. Bu tümceciklerin oluştuğu yer ayarıyla, bu örnekte açıklamanızı yalnızca belgenin başlangıç bölümünde veya belgenin oluşabileceği başka bir konumda bu etiketi aramak üzere yapılandırabilirsiniz.
Bu ayar için aşağıdaki seçenekleri belirleyebilirsiniz:
Dosyanın herhangi bir yerinde: Tümcecik için belgenin tamamı arandı.
Dosyanın başlangıcı: Belgede baştan tümcecik konumuna kadar arama yapılır.
Görüntüleyicide, aşamanın gerçekleştiği konumu içerecek şekilde seçme kutusunu el ile ayarlayabilirsiniz. Bitiş konumu değeri, seçtiğiniz alanın içerdiği belirteç sayısını gösterecek şekilde güncelleştirilir. Seçilen alanı ayarlamak için Bitiş konumu değerini de güncelleştirebilirsiniz.
Dosyanın sonu: Belgenin sonundan tümcecik konumuna kadar arama yapılır.
Görüntüleyicide, aşamanın gerçekleştiği konumu içerecek şekilde seçme kutusunu el ile ayarlayabilirsiniz. Başlangıç konumu değeri, seçtiğiniz alanın içerdiği belirteç sayısını gösterecek şekilde güncelleştirilir. Seçili alanı ayarlamak için Başlangıç konumu değerini de güncelleştirebilirsiniz.
Özel aralık: Belge, belirtilen aralıkta tümcecik konumu için arandı.
Görüntüleyicide, aşamanın gerçekleştiği konumu içerecek şekilde seçme kutusunu el ile ayarlayabilirsiniz. Bu ayar için bir Başlangıç ve Bitiş konumu seçmeniz gerekir. Bu değerler, belgenin başından itibaren belirteç sayısını temsil eder. Bu değerleri el ile girebilirsiniz ancak görüntüleyicideki seçim kutusunu el ile ayarlamak daha kolaydır.
Açıklamaları yapılandırırken dikkat edilmesi gerekenler
Bir sınıflandırıcıyı eğitirken, daha öngörülebilir sonuçlara neden olacak birkaç şeyi göz önünde bulundurun:
Ne kadar çok belgeyle eğitildiyseniz sınıflandırıcı o kadar doğru olur. Mümkün olduğunda, beşten fazla iyi belge kullanın ve birden fazla hatalı belge kullanın. Üzerinde çalıştığınız kitaplıkların içinde birkaç farklı belge türü varsa, her türden birkaçı daha öngörülebilir sonuçlara yol açar.
Belgenin etiketlenmesi eğitim sürecinde önemli bir rol oynar. Modeli eğitmek için açıklamalarla birlikte kullanılırlar. Sınıflandırıcıyı çok fazla içeriği olmayan belgelerle eğitirken bazı anomaliler görebilirsiniz. Açıklama belgedeki hiçbir şeyle eşleşmeyebilir, ancak "iyi" bir belge olarak etiketlendiği için eğitim sırasında bir eşleşme olduğunu görebilirsiniz.
Açıklamalar oluştururken, bir eşleşme olup olmadığını belirlemek için etiketle birlikte OR mantığını kullanır. VE mantığını kullanan normal ifade daha tahmin edilebilir olabilir. Burada, gerçek belgelerde eğitim olarak kullanılacak örnek bir normal ifade verilmiştir. Kırmızıyla vurgulanan metnin, aradığınız tümcecik veya tümcecik olduğunu unutmayın.
(?=.*network provider)(?=.*participating providers).*
Etiketler ve açıklamalar birlikte çalışır ve modeli eğiterken kullanılır. Bu, yapılandırılmış olan her değişkene çift ve hassas ağırlıklar veya tahmin uygulanabilen bir dizi kural değildir. Eğitimde kullanılan belgelerin varyasyonu ne kadar büyük ise modelde daha fazla doğruluk sağlar.