Udostępnij za pośrednictwem


Wykrywanie emocji na podstawie tekstu

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Wykrywanie emocji to funkcja sztucznej inteligencji usługi Azure AI Video Indexer, która automatycznie wykrywa emocje w wierszach transkrypcji wideo. Każde zdanie można wykryć jako:

  • Gniew,
  • Strach,
  • Radość,
  • Smutne

Lub, żaden z powyższych, jeśli nie wykryto żadnych innych emocji.

Model działa tylko na tekście (etykietowanie emocji w transkrypcjach wideo). Ten model nie wywnioskuje stanu emocjonalnego ludzi, może nie wykonywać, gdzie dane wejściowe są niejednoznaczne lub niejasne, jak sarkastyczne uwagi. W związku z tym model nie powinien być używany do wykonywania takich czynności jak ocena wydajności pracownika lub stan emocjonalny osoby.

Wyświetlanie szczegółowych informacji

Podczas pracy w witrynie internetowej szczegółowe informacje są wyświetlane na karcie Szczegółowe informacje . Można je również wygenerować na liście podzielonej na kategorie w pliku JSON, który zawiera identyfikator, typ i listę wystąpień, w których się pojawia, z ich czasem i ufnością.

Aby wyświetlić wystąpienia w pliku JSON, wykonaj następujące czynności:

  1. Wybierz pozycję Pobierz —> szczegółowe informacje (JSON).
  2. Skopiuj tekst i wklej go do przeglądarki JSON online.
"emotions": [ 
  { 
    "id": 1, 
    "type": "Sad", 
    "instances": [ 
      { 
        "confidence": 0.5518, 
        "adjustedStart": "0:00:00", 
        "adjustedEnd": "0:00:05.75", 
        "start": "0:00:00", 
        "end": "0:00:05.75" 
      }, 

Aby pobrać plik JSON za pośrednictwem interfejsu API, użyj portalu deweloperów usługi Azure AI Video Indexer.

Uwaga

Wykrywanie emocji na podstawie tekstu jest niezależne od języka, jednak jeśli transkrypcja nie jest w języku angielskim, jest najpierw tłumaczona na język angielski, a dopiero wtedy model jest stosowany. Może to spowodować zmniejszenie dokładności wykrywania emocji w językach innych niż angielski.

Składniki wykrywania emocji

Podczas procedury wykrywania emocji transkrypcja wideo jest przetwarzana w następujący sposób:

Składnik Definicja
Język źródłowy Użytkownik przekazuje plik źródłowy do indeksowania.
Interfejs API transkrypcji Plik dźwiękowy jest wysyłany do usług azure AI, a przetłumaczone dane wyjściowe transkrypcji są zwracane. Jeśli określono język, jest on przetwarzany.
Wykrywanie emocji Każde zdanie jest wysyłane do modelu wykrywania emocji. Model generuje poziom ufności każdej emocji. Jeśli poziom ufności przekracza określony próg i nie ma niejednoznaczności między emocjami dodatnimi i negatywnymi, zostanie wykryta emocja. W każdym innym przypadku zdanie jest oznaczone jako neutralne.
Poziom ufności Szacowany poziom ufności wykrytych emocji jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Ograniczenia dotyczące danych wejściowych

  • Podczas przekazywania pliku zawsze używaj wysokiej jakości zawartości audio i wideo.

Uwaga dotycząca przezroczystości

Przegląd informacji o przezroczystości

Specyficzne dla wykrywania emocji

Wprowadzenie: ten model został zaprojektowany w celu ułatwienia wykrywania emocji w transkrypcji filmu wideo. Nie jest to jednak odpowiednie do przeprowadzania ocen dotyczących stanu emocjonalnego osoby, ich zdolności lub ogólnej wydajności.

Przypadki użycia: ten model wykrywania emocji ma pomóc w ustaleniu tonacji zdań w transkrypcji wideo. Jednak działa tylko na samym tekście i może nie działać dobrze w przypadku sarkastycznych danych wejściowych lub w przypadkach, gdy dane wejściowe mogą być niejednoznaczne lub niejasne.

Wymagania dotyczące informacji: aby zwiększyć dokładność tego modelu, zaleca się, aby dane wejściowe mieściły się w jasnym i jednoznacznym formacie. Użytkownicy powinni również zauważyć, że ten model nie ma kontekstu dotyczącego danych wejściowych, co może mieć wpływ na jego dokładność.

Ograniczenia: ten model może generować zarówno wyniki fałszywie dodatnie, jak i fałszywie ujemne. Aby zmniejszyć prawdopodobieństwo, użytkownicy powinni stosować najlepsze rozwiązania dotyczące danych wejściowych i przetwarzania wstępnego oraz interpretować dane wyjściowe w kontekście innych istotnych informacji. Należy pamiętać, że system nie ma żadnego kontekstu danych wejściowych.

Interpretacja: Dane wyjściowe tego modelu nie powinny być używane do oceny stanu emocjonalnego osoby lub innych cech ludzkich. Ten model jest obsługiwany w języku angielskim i może nie działać prawidłowo z danymi wejściowymi innych niż angielski. Nie angielskie dane wejściowe są tłumaczone na angielski przed wejściem do modelu, dlatego mogą generować mniej dokładne wyniki.

Zamierzone przypadki użycia

  • Twórcy zawartości i edytory wideo — twórcy zawartości i edytory wideo mogą używać systemu do analizowania emocji wyrażonych w transkrypcjach tekstu swoich filmów wideo. Pomaga to im uzyskać wgląd w emocjonalny ton ich treści, pozwalając im dostosować narrację, dostosować tempo lub zapewnić zamierzony wpływ emocjonalny na publiczność.
  • Analitycy mediów i naukowcy - analitycy mediów i naukowcy mogą wykorzystać system do szybkiego analizowania zawartości emocjonalnej dużej liczby transkrypcji wideo. Mogą używać emocjonalnej osi czasu generowanej przez system do identyfikowania trendów, wzorców lub odpowiedzi emocjonalnych w określonych tematach lub obszarach zainteresowania.
  • Specjaliści ds. marketingu i reklamy — specjaliści ds. marketingu i reklamy mogą wykorzystać system do oceny emocjonalnego odbioru kampanii lub reklam wideo. Zrozumienie emocji wywoływanych przez ich zawartość pomaga im efektywniej dostosować wiadomości i ocenić sukces kampanii.
  • Konsumenci i widzowie wideo — użytkownicy końcowi, tacy jak osoby oglądające lub konsumenci treści wideo, mogą korzystać z systemu, rozumiejąc emocjonalny kontekst filmów wideo bez konieczności ich całkowitego oglądania. Jest to szczególnie przydatne dla użytkowników, którzy chcą zdecydować, czy film jest wart obejrzenia, czy też dla tych, którzy mają ograniczony czas do stracenia.
  • Entertainment Industry Professionals - Specjaliści w branży rozrywkowej, takich jak producenci filmowi lub reżyserzy, mogą wykorzystać system do oceny emocjonalnego wpływu ich scenariuszy lub fabuły, pomoc w uściśleniu scenariuszy i zaangażowaniu publiczności.

Zagadnienia dotyczące wybierania innych przypadków użycia

  • Model nie powinien być używany do oceny wydajności i monitorowania pracowników.
  • Model nie powinien być używany do przeprowadzania ocen dotyczących osoby, ich stanu emocjonalnego lub ich zdolności.
  • Wyniki modelu mogą być niedokładne, ponieważ jest to system sztucznej inteligencji i powinny być traktowane ostrożnie.
  • Należy również wziąć pod uwagę pewność modelu w przewidywaniu.
  • Filmy nieanglojęzyczne generują mniej dokładne wyniki.