無縫地帯

人工知能学会全国大会で立命館大学の学生の論文発表が炎上した件(訂正あり)

技術的流行もあって急激に会員の増える人工知能学会で、立命館大学の学生がpixiv内のR-18指定ゾーニングされた中にあった淫靡なボーイズラブ系同人テキストをデータに論文発表し物議を醸していました。

世を挙げての人工知能(AI)ブーム到来ということもあるのでしょうが、人工知能学会がずいぶんと盛り上がっているようです。

開催案内(2017年度 人工知能学会全国大会)

人工知能学会は30周年を迎えたと同時に、個人会員数が過去最高を記録しました(2016年10月27日時点で4,339名)。昨今のAIブームを追い風として全国大会の参加者も、2014年の松山大会が1,000名、2015年の函館大会が1,200名、2016年の北九州大会が1,600名と急増しました。この勢いならば、今回の名古屋大会で2,000名に達し、大会参加者数でも過去最高を更新するに違いありません。2017年度 人工知能学会全国大会
当然、全国大会における各種発表には多くの人が関心を持つのも自然な流れでありますが、幸か不幸かその発表の中の一つが人工知能とは関係ない切り口で注目を浴びなおかつネットで炎上してしまうことになってしまいました。先日も、人工知能学会の学会誌表紙に掃除をするメイドロボットが微笑むポートレートを掲載したところ、謎の「女性蔑視」議論が湧き上がり、関係者の皆様におかれましては大変お疲れ様でございます。

pixivのR-18小説を「有害な文」学会が論文取り下げ「検討するため」(ITmedia 17/5/25)

立命館大学の学生が「2017年度 人工知能学会全国大会」で5月24日に発表し、公式Webサイト上に掲載されていた論文を、同学会が25日朝に公開中止した。論文では「青少年にとって有害な文」として作品投稿サイト「pixiv」のR-18指定小説を名指ししており、ネット上で問題視する声が上がっていた。ITmedia
炎上した発表の論文についてはすでにネット上での公開が停止されているため、各自で論文をpdfで確保していない限り具体的な内容を知る由もありませんが、概要は以下のようなものであったこが分かります。

2M2-OS-34a-1 ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング(2017年度 人工知能学会全国大会)

Web上に投稿される情報の中には青少年にとって有害な情報,特に猥褻な意味を持つ言葉は直接記述されず暗喩により表現されることが多い.本研究の目的は暗喩を用いて表現されている有害な文に対してフィルタリングを行うことである.提案手法では有害表現が含まれる文をドメインごとに機械学習し有害表現の分類器を作り,有害表現をフィルタリングする.提案手法の有用性を評価する実験をR-18指定の小説を使い行った.
なるほど。概要だけから勝手に想像するに「暗喩を用いて表現されている有害な文に対してフィルタリングを行う」というのはなかなか高度な案件だと感じます。暗喩ということは、直接的な言葉を使うことなく何かにたとえて表現されているわけですが、それが何のたとえであるかは読む側が一定の知見を持って解釈できることが前提になるわけですね。特定の場(ドメイン)においてしか意味をもたない暗喩を機械学習させるとしていますが、おそらく人間でもこういう暗喩を理解できるためにはそれなりの社会的教養や経験、さらには複雑な構文とコンテクストを理解するための語学力が必要になると考えられますので、それを完全にAIの力だけで実現できるのであれば、相当に画期的な技術開発になるのではないかと思われます。実際にどこまでフィルタリングに成功していたのかは大いに気になるところです。

ただ、残念ながら今回の炎上はそういう技術的な部分に関してではありません。なぜ炎上が起き何が問題であったかについての論考はすでにネット上に多数あがっていますが、自らを「エロマンガ統計の研究者」と称されている方が冷静にツイートされているまとめがありまして、そういうエロ同人文化に門外漢の私が読んでもかなり納得できるものでしたのでご紹介しておきます。

立命館の「猥褻文フィルタリング論文」問題について思うこと(togetter)

エロ同人な人達が内輪だけでこっそりお楽しみとしゃれ込んでいたつもりが、あっさりと衆目に晒されてしまったというのが炎上の大きな原因でありますが、学術論文の手法としてはそれほど間違ったやり方ではなかったと判断できそうな事例であります。

個人的には、AIでの言語認識を研究するための実験対象として、これらのエロ方面の同人界隈を相手にしたのは筋が悪かったのではないかという印象を覚えます。わざわざ最初からR-18指定のゾーニングが行われてたサービス内に踏み込んで、何が猥褻の暗喩なのかをAIに機械学習させるというのはどうにも不毛な行為に見えてしまうんですよね。逆にAIにポルノ小説を書かせるというのであれば、その方がずっとチャレンジングで面白い試みにも感じます。

ネット上では今回の事件を契機にして論文などでの引用行為を制限しようみたいな言説も出ているようですがそれはそれでまた微妙な話でもあります。そのあたりは朝日新聞記者の丹治吉順さんがTwitterで警鐘を鳴らされておりました。

Pixivがアクションを起こしたことへの賞賛が多いようだけど、これが最も危険だと思っている。権利者の許諾を得ない二次創作(それもR-18)の掲載を「業として行っている」組織が、少なくとも法的にはほとんど問題のない学術研究に対して異議を唱える、その本末転倒ぶり。本気でヤバい。:丹治吉順 aka 朝P|https://twitter.com/tanji_y/status/867992423842041856
学術目的である場合、むしろ出典を明らかにして検証可能性や再現性を担保するのは道理なのですが、一方で利用者感情を害さないとか、コミュニティのマナーを守って調査研究を行うことも求められるところです。法的に正しいので問題ない、だからこそpixiv側も利用者勘定に沿いすぎないようにするべきだという主張もある一方、観察対象に不利益や精神的な打撃を与えるような方法論は慎むべきだという議論も百出しているのが実情です。

また、今回講義を受けた立命館大学はこの論文を閲覧できないようにする、いわゆる「お蔵入り」にすることで対処したわけなんですけど、これまた一部議論ではアカデミックの在り方にまで論考されているのが興味深いです。

もしも法的に明確な何かをということであれば、「学術研究お断り」みたいな但し書きや利用規約を作ることになるのでしょうが、公園に子供を連れて行って「ボール遊び禁止」の立札を見て萎える親の気分も感じます。そこまでルールやマナーを明示しないとトラブルが避けられないのかとか、常識的に密やかな趣味を楽しんでいる人が、ゾーニングされているという安心感の中でやりたいことをやりたいようにやっていたところ、突然枠外に投稿者名(あだ名が多いですが)を晒され研究対象とされていたことが分かるというのはなかなか厳しいものがあります。

ただし、人工知能の論文であればこのように論文が発表されると立ちどころに部外者の人工知能活用サンプルにされていることが判明するわけなんですけれども、これが商用で利活用されるフィルタリングソフトやツールになると、利用者側から見て「これってどうやってサンプルとって猥褻ワード指定できるように組み上げたんだ?」という代物もないわけではありません。常識的に、ゾーニングされているとはいえ、CGM的なサービスのプラットフォーム内に作品や画像、映像を掲載していたら、原則として誰かに使われていたり、その業者自体が契約している先にデータが流れていることなど往々にしてあるわけです。

たいていの利用規約には業者から利用者に対して業者や業者のグループ会社、業者の指定する別の事業者に対して、投稿者の個人情報の一部や投稿内容を開示するという一文が入っています。無料や安価にサービスを使うということは、すなわちそういうことです。pixivは結果として「ユーザーを守る」という方向に舵を切る会社であることが分かって今回は良かったんですが、そうではない業者や事例があるのではないかと思うわけですね。

なんかこう、先端技術にまつわるネットでのあれこれは、どうしても先鋭化した問題が起きがちなものでして、話題が尽きないのであります。困ったものです。

(訂正とお詫び)

タイトルと記事中の一部で、立命館大学と間違えて同志社大学と記述してしまいました…。お詫びして訂正いたします。