kaitoの日記

自分らしく行こう!

自然言語処理を分析に活用する挑戦をしてる。

f:id:kaito87:20240815125527j:image

自然言語処理への初挑戦

業務で少し挑戦的なことに挑んだ。Google Colaboratoryを使って、SEO分析に自然言語処理を導入してみたのだ。

具体的には、Sentence-BERTモデルを使って、サイトのコンテンツ類似度を分析しようと試みた。これまで自然言語処理に触れたことがなかった私にとっては、大きな一歩だった。

 

失敗からの学び

しかし、結果は思ったほど上手くいかなかった。どうやら、使ったモデルが適切ではなかったらしい。特に、扱っていたHTMLファイルの内容にはSentence-BERTよりも、もっと適切なモデルがあったようだ。

 

シンプルな手法の意外な強み

その後、さらに学んでいく中で、今回の分析ではむしろTF-IDFやJaccard類似度といった、もっとシンプルで「原始的」とも言える手法が適していたことがわかった。

高度なモデルを使ったつもりが、実はその必要がなかった。なんとも少し肩透かしを食らったような気分だった。

 

優秀なモデルは存在しない?

Googleは検索精度をたかめるため、自然言語処理を活用してるらしいことは知っていた。

今回の発見は、いくら優れたモデルであっても万能というわけではない、ということだった。例えば、Sentence-BERTのように高度なモデルであっても、特定の領域では、原始的なモデルに負けることもある。結局のところ、適用範囲を見極めることが重要なのだ。そして、たとえ見極めたつもりでも、結果が予想外の方向に行くことも少なくない。

そういう難しさがあるんだなと、身をもって理解できたのは収穫だった。