ルシーンの内部 – 整数のエンコーディングと圧縮の取り扱い

'ルシーンの内部 - 整数のエンコーディングと圧縮'

PackedInts、VInt、FixedBitSet、およびRoaringDocIdSet(Roaring Bitmaps)に深入りする

Image by Gerd Altmann from Pixabay

以前に、類似性検索のための製品量子化を使用したベクトルの圧縮について学びました。

非対称距離計算を使用した類似性検索のために、巨大なベクトルセットをメモリに圧縮して適合させる方法…

towardsdatascience.com

この記事では、整数がどのようにエンコードおよび圧縮されるかについて、Luceneで中心的な役割を果たす逆インデックスの世界を探求し、洞察を得ます。

Luceneの簡単な紹介

Luceneは、Javaで書かれたオープンソースの検索エンジンライブラリです。Doug Cuttingによって1999年に作成され、フルテキスト検索とインデックス作成でよく知られています。

このApacheソフトウェア財団のオープンソースソフトウェアプロジェクトは、20年以上にわたり活発な開発が行われています。これまでに進化し成長し、強力で完全に機能した高性能な検索エンジンライブラリとなりました。

Luceneの成功は、その強力なコミュニティとコミッターによる信じられないほどの貢献のおかげです。彼らの参加と協力により、Luceneは現在の地位に至りました。SolrやElasticsearchなどの人気のあるエンタープライズ検索プラットフォームやソリューションは、Luceneの上に構築されています。

「オープンソースプロジェクトとしては、20年は長い時間です。疑いの余地なく、Luceneの長寿は、そのコミュニティの強さと多様性を示しています」- Apache Luceneの20周年を祝う

逆インデックス

逆インデックスはLuceneの中心に位置しています。逆インデックスは2つのパートで構成されます- 左側には用語の辞書があり、右側には各用語の頻出リストがあります。

Figure 1: Terms dictionary and postings lists form the inverted index in Lucene. All images are by the author unless otherwise specified.

頻出リストには、用語が文書内に出現する情報が含まれています。頻出リストには、文書のドキュメントIDが含まれています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...

人工知能

「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

アミール・ハラマティは、aiOlaのCEO兼共同創業者であり、スピーチを作業可能にし、どこでも完全な正確さで業界固有のプロセ...

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

人工知能

ギル・ジェロン、Orca SecurityのCEO&共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

人工知能

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

ピーター・マッキーはSonarのDeveloper Relationsの責任者です Sonarは、悪いコードの1兆ドルの課題を解決するプラットフォー...