kaitoの日記

自分らしく行こう!

Googleの特許論文を読んで楽しんでいる

f:id:kaito87:20240904181704j:image
仕事の一環で、SEOに詳しくなる必要が出てきた。他人が加工した二次情報ではなく、一次情報にあたるのが大事、という考えがあって、何を一次情報にしようかと考えた結果、Google検索エンジンに関連しそうな論文や特許を読むと決めた。


海外のSEOマニアのブログをみると、時折Googleの特許論文が引用されている。思い出してブログをたどると「Google Patents」という、特許論文を検索できるサイトをみつけた。Google自身が特許を保有する論文も掲載されている。著者や企業名で調べられる。論文本文もテキスト情報も画像情報も掲載されている。Google Scholarよりずっと使いやすい。論文検索も、PDFだけ掲載するとかじゃなくて、画像とテキストの分離・本文の掲載・類似論文の推薦・引用論文の見える化を、もっと進めてほしいものだ。


で、その中でみつけたのは「検索クエリを質問文による正規化する」という論文だった。2020年代の特許論文でけっこう新しい。ChatGPTにPDFを読み込ませて質問しながら理解をふかめていく。最近はNotionに和訳全文をはりつけて、移動中読む。気になるところはコメントしている。


個人的に面白いなと感じたのは、Googleが検索クエリを「質問化」することで意図を掴んでいるということだった。かつ、検索履歴データをつかって、時間的・順序的に関連性がありそうなクエリを抽出しており(ここまでは普通に語られていること)、それを質問という形で抽象化して、この抽象化した質問同士をマッピングしている、という話が興奮だった。


私はこれまではずっと、「クエリを1つ1つ個別」でマッピングしていると思ってた。データ量がすくない場合どうしてるんだろうと不思議だった。しかしそれも、質問としてメタ化して1つ上の抽象レイヤーであつかえば、検索が少ないクエリの意図を正しくとらえられるし、関連クエリをレコメンドもずっと容易になる。実際にこの技術は「他の人は○○で検索」の機能につかわれている、とのこと。へぇ~~なるほど


しかも「どうやってクエリを質問化しているの?」という疑問にもちゃんと答えていて、方法としては、クエリと質問文の対応表を大量に用意し、機械学習させているのだそうだ。データをつくるのが超大変そうだけど、たしかにその方法ならできそう。方法論としても納得だった。


「なるほど!そういうふうに技術で解消しているのか」がわかる論文に出会うと楽しい。しかし、同じくらい知的好奇心を覚える論文には、そう簡単には出会えないものだ。次の候補として読んだ論文も、なんだかピンと来ない内容だった。


この調子でいくと、そのうちGoogle特許オタクになってしまうかも。まあ、それも悪くないか。そもそも、こういう好奇心は1ヶ月くらいしか続かないことが経験上わかってるし、楽しんでやってこう。