Les API de détection du contenu protégé analysent les résultats des modèles linguistiques de grande envergure afin d'identifier et de signaler le contenu protégé connu. Les API sont conçues pour aider les organisations à empêcher la génération de contenu qui correspond étroitement à un texte ou à un code protégé par le droit d'auteur.
L’API texte de matériel protégé indique les contenus de texte connu (par exemple, paroles de chanson, articles, recettes et contenu web sélectionné) qui peuvent être générés par les grands modèles de langage.
L’interface de programmation d’applications (API) Matériel protégé pour le code signale du contenu de code protégé (provenant de référentiels GitHub connus, notamment les bibliothèques de logiciels, le code source, les algorithmes et d’autres contenus de programmation propriétaires) qui est susceptible être généré par de grands modèles de langage.
Attention
Le scanneur/indexeur de codes du service de sécurité du contenu sera uniquement opérationnel jusqu’au 6 avril 2023. Le code ajouté à GitHub après cette date n’est pas détecté. Utilisez votre propre jugement lors de l’utilisation de Matériel protégé pour le code afin de détecter des corps récents de code.
La détection et la prévention de l’affichage du code protégé permet aux organisations de garantir la conformité aux lois sur la propriété intellectuelle, de respecter l’originalité du code et de protéger leur réputation.
Ce guide fournit des informations sur les types de contenu détectés par l’API de matériel protégé.
Scénarios utilisateur
Plateformes de génération de contenu pour l’écriture créative
- Scénario : une plateforme de génération de contenu qui utilise l’IA générative pour l’écriture créative (par exemple, des publications de blog, des témoignages et des copies marketing) intègre la fonctionnalité Matériel protégé pour le texte afin d’empêcher la génération de contenu correspondant étroitement aux documents connus protégés par droits d’auteur.
- Utilisateurs : administrateurs de plateforme et créateurs de contenu.
- Action : la plateforme utilise Azure AI Sécurité du Contenu pour analyser le contenu généré par l’IA avant de le fournir aux utilisateurs. Si le texte généré correspond au matériel protégé, le contenu est marqué d’un indicateur et bloqué ou mis à jour.
- Résultat : la plateforme évite les infractions éventuelles liées aux droits d’auteur et veille à ce que tout le contenu généré soit original et conforme aux lois sur la propriété intellectuelle.
Création automatisée de contenu sur les réseaux sociaux
- Scénario : une agence de marketing digital utilise l’IA générative pour automatiser la création de contenu sur les réseaux sociaux. L’agence intègre la fonctionnalité Matériel protégé pour le texte afin d’empêcher la publication de contenu généré par l’IA qui inclut du texte protégé par droits d’auteur, comme les paroles des chansons ou les extraits de livres.
- Utilisateurs : spécialistes du marketing numérique et responsables des réseaux sociaux.
- Action : l’agence utilise Azure AI Sécurité du Contenu pour vérifier tout le contenu des réseaux sociaux généré par l’IA afin de rechercher les correspondances par rapport à une base de données de matériel protégé. Le contenu correspondant est marqué d’un indicateur pour révision ou ne peut pas être publié.
- Résultat : l’agence maintient la conformité aux lois sur les droits d’auteur et évite les risques sur la réputation liés à la publication de contenu non autorisé.
Écriture d’actualités assistée par l’IA
- Scénario : un organe d’information utilise l’IA générative pour aider les journalistes à rédiger des articles et des reportages. Pour veiller à ce que le contenu ne réplique pas de manière involontaire des articles d’information protégés ou tout autre matériel protégé par droits d’auteur, l’organe utilise la fonctionnalité Matériel protégé pour le texte.
- Utilisateurs : journalistes, rédacteurs et responsables de la conformité.
- Action : l’organe d’information intègre Azure AI Sécurité du Contenu dans son workflow de création de contenu. Les brouillons générés par l’IA sont automatiquement analysés pour le contenu protégé avant l’envoi pour la révision éditoriale.
- Résultat : l’organe d’information empêche les violations accidentelles de droits d’auteur et maintient l’intégrité et l’originalité de son reportage.
Plateformes de formation en ligne utilisant l’IA pour la génération de contenu
- Scénario : une plateforme de formation en ligne utilise l’IA générative pour générer du contenu pédagogique, comme des résumés, des questionnaires et du texte explicatif. La plateforme utilise la fonctionnalité Matériel protégé pour le texte afin de veiller à ce que le contenu généré n’inclue pas de matériel protégé provenant de livres, articles et de publications universitaires.
- Utilisateurs : créateurs de contenu pédagogique et responsables de la conformité.
- Action : la plateforme intègre la fonctionnalité pour analyser des documents pédagogiques générés par l’IA. Si un contenu correspond à du matériel pédagogique protégé connu, il est marqué d’un indicateur pour révision ou automatiquement supprimé.
- Résultat : la plateforme conserve la qualité du contenu pédagogique et respecte les lois sur les droits d’auteur, évitant ainsi l’utilisation de matériel protégé dans des ressources d’apprentissage générées par l’IA.
Générateurs de recettes basés sur l’intelligence artificielle
- Scénario : un site de recettes et sur l’alimentation utilise l’IA générative pour générer de nouvelles recettes basées sur les préférences des utilisateurs. Pour éviter la génération de contenu correspondant à des recettes protégées de sites web ou livres de recettes connus, le site web intègre la fonctionnalité Matériel protégé pour le texte.
- Utilisateurs : responsables de contenu et administrateurs de plateforme.
- Action : le site web utilise Azure AI Sécurité du Contenu pour vérifier les recettes générées par l’IA par rapport à une base de données de contenu protégé connu. Si une recette générée correspond à une recette protégée, elle est marquée d’un indicateur et révisée ou bloquée.
- Résultat : le site web veille à ce que toutes les recettes générées par l’IA soit originales, ce qui réduit le risque d’infraction aux droits d’auteur.
- Scénario : une plateforme de développement logiciel qui utilise l’IA générative pour aider les développeurs à écrire du code intègre la fonctionnalité Matériel protégé pour le code afin d’empêcher la génération de code répliquant du matériel provenant de référentiels GitHub existants.
- Utilisateurs : administrateurs de plateforme, développeurs.
- Action : la plateforme utilise Azure AI Sécurité du Contenu pour analyser le contenu généré par l’IA. Si du code correspond à un matériel protégé, il est marqué d’un indicateur pour révision, révisé ou bloqué.
- Résultat : la plateforme veille à ce que tout le code généré par l’IA soit original et conforme aux contrats de licence, ce qui réduit les risques juridiques et en matière de conformité.
- Scénario : une équipe de développement utilise l’IA générative pour automatiser certaines parties de leur écriture de code. L’équipe intègre la fonctionnalité Matériel protégé pour le code afin d’empêcher l’utilisation accidentelle d’extraits de code qui correspondent à du contenu provenant de référentiels GitHub existants, notamment du code open source avec des licences restrictives.
- Utilisateurs : développeurs de logiciels, équipes DevOps.
- Action : Azure AI Sécurité du Contenu vérifie le code généré par rapport à du matériel connu provenant de référentiels GitHub. Si une correspondance est détectée, le code est marqué d’un indicateur et révisé avant son incorporation dans le projet.
- Résultat : l’équipe évite les infractions éventuelles aux droits d’auteur et veille à ce que le code généré par l’IA respecte les licences appropriées.
Révisions de code assistées par l’IA
- Scénario : une société de logiciels intègre des outils de révision de code assistée par l’IA dans son processus de développement. Pour éviter d’introduire du code protégé provenant de bibliothèques externes ou GitHub, la société utilise la fonctionnalité Matériel protégé pour le code.
- Utilisateurs : réviseurs de code, développeurs de logiciel, responsables de la conformité.
- Action : la société analyse tout le code généré par l’IA pour rechercher des correspondances par rapport au matériel protégé provenant de référentiels GitHub avant la révision finale de code et le déploiement.
- Résultat : la société empêche l’inclusion de matériel protégé dans ses projets, en conservant la conformité aux lois sur la propriété intellectuelle et aux normes internes.
- Scénario : une plateforme de formation en ligne utilise l’IA générative afin de générer un exemple de code pour programmer des tutoriels et des cours. La plateforme intègre la fonctionnalité Matériel protégé pour le code afin de veiller à ce que les exemples générés ne dupliquent pas du code provenant de référentiels GitHub existants ou d’autres sources pédagogiques.
- Utilisateurs : créateurs de cours, administrateurs de plateforme.
- Action : Azure AI Sécurité du Contenu vérifie tous les exemples de code généré par l’IA à la recherche de contenu protégé. Les correspondances sont marquées d’un indicateur, examinées et révisées.
- Résultat : la plateforme maintient l’intégrité et l’originalité de son contenu pédagogique tout en respectant les lois sur les droits d’auteur.
Assistants de codage basés sur l’intelligence artificielle
- Scénario : un outil d’assistant de codage basé sur l’IA générative permet aux développeurs de générer des suggestions de code. Pour veiller à ce qu’aucune suggestion n’entraîne une infraction de code provenant de référentiels GitHub, l’outil assistant utilise la fonctionnalité Matériel protégé pour le code.
- Utilisateurs : développeurs, administrateurs d’outil.
- Action : l’outil analyse toutes les suggestions de code à la recherche de matériel protégé provenant de GitHub avant leur présentation aux développeurs. Si une suggestion correspond à du code protégé, elle est marquée d’un indicateur et ne s’affiche pas.
- Résultat : l’assistant de codage veille à ce que toutes les suggestions de code soient exemptes de contenu protégé, ce qui favorise l’originalité et réduit les risques juridiques.
L’intégration de la fonctionnalité Matériel protégé pour le code permet aux organisations de gérer les risques associés au code généré par l’IA, de conserver une conformité aux lois sur la propriété intellectuelle et de veiller à l’originalité de leur sortie de code.
Exemples de texte de matériel protégé
Pour plus d’informations sur les principales catégories de détection de texte de matériel protégé, reportez-vous à ce tableau. Les quatre catégories sont toutes appliquées lorsque vous appelez l’API.
Catégorie |
Étendue |
Considéré comme acceptable |
Considéré comme nuisible |
Recettes |
Contenu protégé par les droits d’auteur lié aux recettes.
Les autres textes nuisibles ou sensibles ne sont pas concernés par cette tâche, sauf s’ils tombent sous le coup des préjudices liés à la propriété intellectuelle et aux droits d’auteur des recettes. |
- Liens vers des pages web qui contiennent des informations sur les recettes
- Tout contenu provenant de recettes qui n’ont aucune protection, ou une protection faible, en matière de propriété intellectuelle ou de droits d’auteur :
- Listes d’ingrédients
- Instructions de base pour combiner et cuisiner des ingrédients
- Rejet ou refus de fournir du contenu protégé par les droits d’auteur :
- Modification d’une rubrique pour éviter le partage de contenu protégé par les droits d’auteur
- Refus de partager du contenu protégé par les droits d’auteur
- Fourniture d’informations irrecevables
|
- Autres contenus littéraires dans une recette
- Anecdotes, histoires ou commentaires personnels correspondants sur la recette (40 caractères ou plus)
- Noms créatifs de la recette qui ne sont pas limités au nom bien connu du plat, ou un résumé descriptif simple du plat indiquant ce que l’ingrédient principal est (40 caractères ou plus)
- Descriptions créatives des ingrédients ou des étapes de combinaison ou de cuisson, y compris les descriptions qui contiennent plus d’informations que nécessaire pour créer le plat, s’appuient sur une formulation imprécise ou contiennent des grossièretés (40 caractères ou plus)
- Méthodes d’accès au contenu protégé par les droits d’auteur :
- Façons de contourner les modèles payants pour accéder aux recettes
|
Contenu web |
Tous les sites web qui ont webmd.com comme nom de domaine d’URL. Se concentre uniquement sur les problèmes de contenu protégé par les droits d’auteur concernant le contenu web sélectionné.
Les autres textes nuisibles ou sensibles ne sont pas concernés par cette tâche, sauf s’ils tombent sous le coup des préjudices liés au contenu web sélectionné. |
- Liens vers des pages web
- Extraits courts ou extraits de contenu web sélectionné, tant que :
- Ils sont pertinents pour la requête de l’utilisateur
- Ils comportent moins de 200 caractères
|
- Contenu important du contenu web sélectionné
- Sections de réponse supérieures à 200 caractères qui présentent une similarité importante avec un bloc de texte du contenu web sélectionné
- Extraits de contenu web sélectionné qui dépassent 200 caractères
- Citations provenant du contenu web sélectionné dont la taille est supérieure à 200 caractères
- Méthodes d’accès au contenu protégé par les droits d’auteur :
- Façons de contourner les modèles payants ou les protections DRM pour accéder au contenu web sélectionné protégé par les droits d’auteur
|
Actualités |
Se concentrent uniquement sur les questions de contenu protégé par les droits d’auteur concernant les actualités.
Les autres textes nuisibles ou sensibles ne sont pas concernés par cette tâche, sauf s’ils tombent sous le coup des préjudices liés à la propriété intellectuelle et aux droits d’auteur des actualités. |
- Liens vers des pages web qui hébergent des actualités ou des informations sur les actualités, les magazines ou les articles de blog tant que :
- Ils disposent d’autorisations légitimes
- Ils ont une couverture des actualités sous licence
- Ce sont des plateformes autorisées
- Liens vers des pages web autorisées qui contiennent des lecteurs audio ou vidéo incorporés tant que :
- Ils disposent d’autorisations légitimes
- Ils ont une couverture des actualités sous licence
- Ce sont les plateformes de diffusion en continu autorisées
- Ce sont les chaînes YouTube officielles
- Extraits ou extraits courts, comme les titres ou les légendes des articles d’actualités tant que :
- Ils sont pertinents pour la requête de l’utilisateur
- Ils ne représentent pas une partie importante de l’article
- Ils ne représentent pas l’intégralité de l’article
- Résumés des articles d’actualités tant que :
- Ils sont pertinents pour la requête de l’utilisateur
- Ils sont brefs et factuels
- Ils ne copient pas ou ne paraphrasent pas une partie importante de l’article
- Ils sont clairement et visiblement cités comme résumés
- Analyse, critique ou révision des articles d’actualités tant que :
- Ils sont pertinents pour la requête de l’utilisateur
- Ils sont brefs et factuels
- Ils ne copient pas ou ne paraphrasent pas une partie importante de l’article
- Ils sont clairement et visiblement cités comme analyse, critique ou révision
- Tout contenu d’actualités qui n’a aucune protection de propriété intellectuelle et de droits d’auteur :
- Actualités, magazines ou blogs qui se trouvent dans le domaine public
- Actualités, magazines ou blogs pour lesquels la protection des droits d’auteur s’est écoulée, a été abandonnée ou n’a jamais existé
- Rejet ou refus de fournir du contenu protégé par les droits d’auteur :
- Modification de la rubrique pour éviter le partage de contenu protégé par les droits d’auteur
- Refus de partager du contenu protégé par les droits d’auteur
- Fourniture d’informations irrecevables
|
- Liens vers des fichiers .pdf ou tout autre fichier contenant le texte intégral d’articles d’actualités, de magasine ou de blog, sauf si :
- Ils sont sourcés depuis des plateformes agréées, avec des autorisations et des licences légitimes
- Contenu d’actualités
- Verbatim de plus de 200 caractères extrait de tout article d’actualité
- Plus de 200 caractères ressemblent fortement à un bloc de texte de tout article d’actualité
- Accès direct aux articles d’actualités, de magasine ou de blog qui sont en accès payant
- Méthodes d’accès au contenu protégé par les droits d’auteur :
- Étapes de téléchargement des actualités depuis un site web non autorisé
- Moyens de contourner les modèles payants ou les protections DRM pour accéder à des actualités ou à des vidéos protégées par les droits d’auteur
|
Lyrics |
Se concentre uniquement sur les problèmes de contenu protégé par les droits d’auteur concernant les chansons.
Les autres textes nuisibles ou sensibles ne sont pas concernés par cette tâche, sauf s’ils tombent sous le coup des préjudices liés à la propriété intellectuelle et aux droits d’auteur des chansons. |
- Liens vers des pages web qui contiennent des informations sur des chansons telles que :
- Paroles des chansons
- Accords ou tablatures de la musique associée
- Analyse ou révisions de la chanson ou de la musique
- Liens vers des pages web autorisées qui contiennent des lecteurs audio ou vidéo incorporés tant que :
- Ils disposent d’autorisations légitimes
- Ils dispose de musique sous licence
- Ce sont les plateformes de diffusion en continu autorisées
- Ce sont les chaînes YouTube officielles
- Extraits courts ou extraits de paroles des chansons tant que :
- Ils sont pertinents pour la requête de l’utilisateur
- Ils ne représentent pas une partie importante des paroles
- Ils ne représentent pas l’intégralité des paroles
- Ils ne sont pas plus longs que 11 mots
- Extraits courts ou extraits d’accords ou tablatures des chansons tant que :
- Ils sont pertinents pour la requête de l’utilisateur
- Ils ne représentent pas une partie importante des accords ou tablatures
- Ils ne représentent pas l’intégralité des accords ou tablatures
- Tout contenu provenant de chansons qui n’ont aucune protection en matière de propriété intellectuelle ou de droits d’auteur :
- Chansons, paroles, accords ou tablatures qui se trouvent dans le domaine public
- Chansons, paroles, accords ou tablatures pour lesquels la protection des droits d’auteur s’est écoulée, a été abandonnée ou n’a jamais existé
- Rejet ou refus de fournir du contenu protégé par les droits d’auteur :
- Modification de la rubrique pour éviter le partage de contenu protégé par les droits d’auteur
- Refus de partager du contenu protégé par les droits d’auteur
- Fourniture d’informations irrecevables
|
- Paroles d’une chanson
- Paroles entières
- Partie importante des paroles
- Partie des paroles contenant plus de 11 mots
- Accords ou tablatures d’une chanson
- Intégralités des accords ou tablatures
- Partie importante des accords ou tablatures
- Liens vers des pages web qui contiennent des lecteurs audio ou vidéo incorporés qui :
- Ne disposent pas d’autorisations légitimes
- Ne disposent pas de musique sous licence
- Ne sont pas des plateformes de diffusion en continu agréées
- Ne sont pas des chaînes YouTube officielles
- Méthodes d’accès au contenu protégé par les droits d’auteur :
- Étapes de téléchargement de chansons depuis un site web non autorisé
- Moyens de contourner les modèles payants ou les protections DRM pour accéder à des chansons ou à des vidéos protégées par les droits d’auteur
|
Étape suivante
Suivez le guide de démarrage rapide pour commencer à utiliser Azure AI Sécurité du contenu pour détecter le matériel protégé.