Pattern Recognition

文字や顔等,この世界に存在するさまざまな物体を圧縮して表現することで,それらを高速に高い精度で機械に認識させる方法について研究を行っています.物体(パターン)を圧縮することで,認識に重要な成分を抽出することができ,さらに少ない記憶容量でさまざまなパターンを表現することが可能となることから,高速化や高精度化が容易となります.この性質を利用すれば,計算能力が低く,少ない記憶容量しか持たない携帯端末上で物体を認識?検出したり,機械にとっては難しい認識問題を効率よく解決できたりします.

Classifier design is one of the most important issues in the pattern recognition domain. Our laboratory focuses on a linear classifier called subspace method. This method maps high-dimensional samples into a low-dimensional subspace obtained by eigenvalue decomposition of an autocorrelation matrix. By using this mapping, a high-dimensional sample can be represented by a linear combination of a small number of eigenvectors. This property yields high accuracy and speed in a classification phase.

Manga analysis

キングダム©原泰久/集英社

日本が生んだキラーコンテンツの一つにマンガがあります.マンガは一般に手書きで描かれたキャラクタがコマの中で自由に動き回り,その考えや感情はセリフによって表現されています.また,ストーリの展開を追うことや,通常ではありえない時間的?空間的な飛躍があっても人間はその内容を理解し,楽しむことが可能です.別の見方をすると,マンガは種種雑多な記号の集まりで,人間はそこからさまざまなことを読み取ることができるのです.本研究室では,このような現象を工学的に説明することと,自動解析によって新たなマンガというメディアの方向性を探ることを目的として,原作者,出版社のご協力を得て,実際に連載中の漫画を対象として機械によるマンガの解析に関する研究を行っています.


Manga (comic strip) is regarded as one of the most famous Japanese arts in the world. Manga consists of various signs such as handwritten funny fictional characters and texts in monochromatic format. Human beings may read them easily, but machines cannot. This fact implies that many secrets are included in a recognition process in reading Manga. Our laboratory investigates such secrets and develops applications for a future Manga media by collaborating with a professional comic artist.

Case-Based Processing

計算機が人間よりも優れている点は,データを誤りなく大量に記憶できることと,正確な計算を超高速に行うことができる点であると言えます.この性質を利用して,大量のデータを使って,本来ならば解けるはずのない問題を,疑似的にですが解くことができます.例えば,すっぴんと化粧の顔画像のペアを大量に集められれば,計算機にとって未知の人物の化粧をした後の顔を推定することもある程度可能になります(逆も可能です!).同様のアプローチで,モノラル音源をステレオ化したり,音楽から,その楽譜を推定(採譜)したりする研究も行っています.

Machines are superior to human beings in their high speed calculation abilities and huge amount of memory capacities. The machines can solve difficult problems such as makeup face estimation, audio stereozation (converting monaural music into stereo one), and musical notation estimation from a real music by using these properties. These approaches can be regarded as a big data analysis. More data usually beats better algorithms.

Multimedia Understanding

人間にとって画像や音声,動画などの内容を理解することは簡単です.例えば猫がたくさん写っている写真を見た場合,真っ白な猫や真っ黒な猫,茶トラなどがいて,さらに,顔が傾いていたり,下を向いていたりすることも多いですが,人間はどこに猫がいるかは瞬時にわかります.しかし,機械にとってはこれらは単なる数値の集合にすぎません.この数値の集合に対して様々な処理を施して領域を分割したり,所望の対象を検出したりする研究を行っています.

Interests in the potential of multimedia information such as image, audio, and video have increased enormously over the last few years with the rapid growth of digital information. Many researchers put their efforts into research on object recognition or detection that can be regarded as an ultimate problem in an artificial intelligence domain. We have, however, a small number of effective recognition methods yet for general objects such as sea or ships, except for face recognition or handwritten digit recognition. Our laboratory also researches object detection, image segmentation, semantic video indexing, and multimedia information retrieval for achieving such recognition by machines.

Image and Video Retrieval and Visualization

大量のデータから所望のものを見つけるには,ウェブ検索のように,通常テキストによるキーワードを用いて検索を行います.しかし,画像や音声,ビデオといったデータに関しては,言葉では表現することの難しい内容の場合もあります.そのような場合には,ブラウジングといってデータをユーザに提示し,ユーザはそれを閲覧することによって所望のデータを探すことになります.本研究室では,このブラウジングを介した情報検索についての研究を行っています.

For information retrieval, we generally use text keywords as queries even if retrieval objects are not text-based information such as image and videos. Such multimedia information is ambiguity so it is difficult for users to select suitable keywords. For overcoming this difficulty, many researchers have been studying content-based information retrieval in the past. Our laboratory mainly focuses on nonverbal content-based multimedia information retrieval. The types of image retrieval are roughly divided into two approaches; query-based and browsing style retrieval. The former requires users to prepare a query image instead of using text queries. The later approach requires displaying database images for users effectively as shown in the above figures.