NeurIPS 2022์์ ๋ฐํ๋ A Neural Corpus Indexer for Document Retrieval ๋ ผ๋ฌธ์ ์ ๋ฆฌํฉ๋๋ค.
Introduction
Document retrieval๊ณผ ranking์ ์น ๊ฒ์ ์์ง์ ์์ด์ key stage๋ค์ ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ document retrieval์ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ผ๋ก ์ํํ๋ end-to-end ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ ์ด์ ์ฐ๊ตฌ ๋๋น ํฐ ์ฑ๋ฅ ํฅ์์ ์ด๋ค๋์ต๋๋ค.
Document retrieval์ ์ผ๋ฐ์ ์ผ๋ก term-based ๋ฐฉ๋ฒ๊ณผ semantic-based ๋ฐฉ๋ฒ์ผ๋ก ๋๋ฉ๋๋ค. Term-based ๋ฐฉ๋ฒ์ TF-IDF์ ์๊ฐํด๋ณผ ์ ์๋๋ฐ ๋ฌธ์์ semantic ์ ๋ณด๋ฅผ ๋ฝ์๋ด๊ธฐ ํ๋ค๋ฉฐ ๋น์ทํ ๋ฌธ์์ฌ๋ ๋ค๋ฅธ ๋จ์ด๋ฅผ ์ฌ์ฉํ๋ค๋ฉด ๊ฒ์์ ์คํจํ ์ ์์ต๋๋ค. Semantic-based ๋ฐฉ๋ฒ์ ๊ฒฝ์ฐ์ ๊ฒ์ query์ ๋ฌธ์์ representation์ ๊ธฐ๋ฐ์ ANN(apporximate. Nearest Neighbor)์ด ๋ํ์ ์ธ๋ฐ ์ด ๋ํ ํ๋์ ๋ฒกํฐ๋ก ๋ฌธ์์ semantic์ ๋ชจ๋ ๋ด์๋ด๊ธฐ ์ด๋ ต๊ณ query์ ๋ฌธ์๋ฅผ ๊ฐ์ space ์์ ํํํด์ผ๋ง ํฉ๋๋ค.
๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์ ์ ์๋ค์ ์ด๋ฌํ ๋จ์ ์ ๋ณด์ํ์ฌ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ์ํ ๋ช๊ฐ์ง ์ ๊ตํ ๋ฐฉ๋ฒ๋ค์ ์ ์ํฉ๋๋ค.
- Semantic identifier: hierarchical k-means๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์์ semantic์ ์ ๋ด์๋ธ identifier(docid)๋ฅผ ๋ง๋ญ๋๋ค.
- Query generation: ๋ฌธ์๋ฅผ ์ ํํํ๋ query๋ค์ ์์ฑํ์ฌ ๋ชจ๋ธ ํ์ต์ ํ์ฉํฉ๋๋ค.
- Prefix-aware weight-adaptive decoder: hierarchy level์ ๋ฐ๋ผ decoder weight์ ์กฐ์ ํฉ๋๋ค.
- Consistency-based regularization loss: ํ์ต์์์ over-fitting์ ๋ฐฉ์งํฉ๋๋ค.
Neural Corpus Indexer
Taken From Wang et al.
Neural corpus indexer(NCI)๋ sequence-to-sequence ๋ชจ๋ธ์ ๋๋ค. NCI๋ ๊ฒ์ query๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ , document identifier(docid)๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ๋ฐ๋ผ์ ๋ง์ ์์ <query, docid> pair๋ก ๋ชจ๋ธ ํ์ต์ด ์ํ๋ฉ๋๋ค.
Document Representation with Semantic Identifiers
๋จผ์ ๋ชจ๋ ๋ฌธ์์ ๋ํด docid๋ฅผ ๋ถ์ฌํด์ผ ํฉ๋๋ค. ์ ์๋ค์ ๋น์ทํ document๋ค ๋ผ๋ฆฌ ๊ฐ๊น์ด docid๋ฅผ ๊ฐ์ง๊ธฐ๋ฅผ ์ํ๊ณ ์ด๋ฅผ ์ํด์ hierarchical clustering์ ํ์ฉํฉ๋๋ค.
์ผ๋จ ๋จผ์ ๋ชจ๋ ๋ฌธ์๋ฅผ BERT ๊ธฐ๋ฐ์ผ๋ก ๋ฒกํฐํํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ํด๋น document ๋ฒกํฐ๋ค์ hierarchical k-means ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํฉ๋๋ค. ๊ทธ๋ฌ๋ฉด , routing path๋ ์ด๋ผ๊ณ ํ ๋, ๋ชจ๋ ๋ฌธ์๋ฅผ root ์ผ๋ก ๋ถํฐ ์์ํ๋ tree structure๋ก ํํํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ดํด๋ฅผ ๋๊ธฐ์ํด ์์๋ฅผ ๋ค์ด๋ณด์๋ฉด, docid=012์ docid=013์ level 0๊ณผ 1์์ ๊ฐ์ ๊ตฐ์ง์ ์ํ๋ ๋ฌธ์์ ๋๋ค. ๊ฐ ํ ๊ตฐ์ง์ ์กด์ฌํ๋ document ์๋ผ๊ณ ํ ๋ ๋ชจ๋ ์คํ์์ ๋ฅผ ์ฌ์ฉํ์๋ค๊ณ ํฉ๋๋ค.
Query Generation
์ค์ง ๊ฒ์ query๋ง ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์ ๋ต document identifier๋ฅผ ์ ์ฐพ์๋ด๊ธฐ ์ํด์๋, ์ด๋ป๊ฒํด์ผ ํด๋น ๋ฒกํฐ๊ฐ document semantic์ ์ ์์์ฑ๊ณ identifier๋ฅผ ๋ง๋ค์ด๋ผ ์ ์์์ง๋ฅผ ๊ณ ๋ฏผํด์ผํฉ๋๋ค.
์ด๋ฅผ ์ํด ํ์ต์์๋ถํฐ document semantic์ ๋ชจ๋ธ์ ์ ํ๋ ค๋ณด๋ด์ค ํ์๊ฐ ์๋๋ฐ, ์ด๋ฅผ ์ํด ์ ์๋ค์ document ์ ๋ณด๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์์ ์ฌ๋ฌ๊ฐ์ query๋ฅผ ๋ง๋ค์ด๋ด๋ query generation ๋จ๊ณ๋ฅผ ์ ์ํฉ๋๋ค. ์ฌ๊ธฐ์๋ DocT5Query์ Document As Query๋ผ๋ ๋ฐฉ๋ฒ์ ํ์ฉํ์ผ๋ฉฐ ์ด๋ ๊ฒ ์์ฑ๋ query๋ค์ training loss์ ํ์ฉ๋ฉ๋๋ค (cross-entropy์ consistency-based loss์์ ๋ชจ๋ ํ์ฉ).
Prefix-Aware Weight-Adaptive Decoder
Taken From Wang et al.
์ฃผ์ด์ง ์ ๋ ฅ query์ ๋ํด docid๋ฅผ ์์ธกํ๋ ๊ณผ์ ์ ์๋ ์์ผ๋ก ํํ๋ฉ๋๋ค.
์์ ์ ์ด ์๋ก ๋ค๋ฅธ ๊ฒ์ด๊ณ , ๊ณผ ๊ฐ ์๋ก ๋ค๋ฅธ ๊ฒ ์ฒ๋ผ, tree level์ ๋ฐ๋ผ, prefix์ ๋ฐ๋ผ ํ ํฐ์ด ๋ฌ๋ผ์ง๋ ๊ฒ์ ์ธ์งํ๊ธฐ ์ํด ๊ณผ ๊ฐ์ identifier๋ฅผ (1,3)(2,5)(3,5) ํํ๋ก ๋จผ์ ํํํฉ๋๋ค.
๊ทธ ๋ค์๋ decoder๊ฐ ์๋ก ๋ค๋ฅธ prefix๋ฅผ ์ธ์งํ ์ ์๋๋ก ๋ง๋ค๊ธฐ ์ํด์, prefix์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ weight ์ ๋ง๋ค๊ณ ์ด๋ฅผ ํ ํฐ ์๋ฒ ๋ฉ๊ณผ ๊ณฑํด์ฃผ๊ณ ์ด ๊ฐ์ softmax๋ฅผ ์ทจํด์ tree level๋ณ docid๋ฅผ ๋ฝ์๋ ๋๋ค.
Training and Inference
ํ์ต์์๋ ๊ฒ์ query์ query generation์ ํตํด ์์ฑ๋ document query ๋ชจ๋์ ๋ํด์ consistency-based regularization๊ณผ cross-entropy loss๋ฅผ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค.
์ถ๋ก ๋จ๊ณ์์๋ ๋จผ์ encoder network๋ฅผ ํตํด query embedding์ ๋ฝ์๋ธ ๋ค์, decoder network์์ beam search๋ฅผ ์ํํฉ๋๋ค. Beam search์ ๋ํ ์ค๋ช ์ ์ด๊ณณ, ์์ธํ pseudocode์ ๋ ผ๋ฌธ์ Appendix B3์์ ํ์ธํ์ค ์ ์์ต๋๋ค.
Experiments
๋ฐ์ดํฐ์ ์ Natural Questions์ TriviaQA๋ผ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๊ณ , ๊ฐ๊ฐ 320k, 78k์ query-document pair๋ก ์ด๋ฃจ์ด์ ธ์์ต๋๋ค. Metric์ผ๋ก๋ Recall@N, MRR(Mean Reciprocal Rank), R-precision์ ์ฌ์ฉํ์๋๋ฐ, ๋ชจ๋ ์ฃผ์ด์ง query ๊ธฐ๋ฐ์ผ๋ก ์ผ๋ง๋ ๋ฌธ์๋ฅผ ์ ์ฐพ์๋ด๋๋๋ฅผ ์ธก์ ํ๋ metric์ ๋๋ค.
Taken From Wang et al.
Conclusion
NCI๋ฅผ ํตํด ์ฑ๋ฅ์์ผ๋ก ํฐ ๋ฐ์ ์ ์ด๋ค๋ผ ์ ์์์ง๋ง ์ฌ์ ํ ๋ช ๊ฐ์ง ํ๊ณ์ ์ด ์กด์ฌํฉ๋๋ค. ์ฒซ๋ฒ์งธ๋ ์คํ ๋ฐ์ดํฐ์ ์์ค์ด ์๋๋ผ ์ค์ web scale์์๋ document์ ์๊ฐ ํจ์ฌ ๋ง์์ง๊ธฐ ๋๋ฌธ์ ๋ ํฐ model capacity๊ฐ ํ์ํ๋ค๋ ์ ์ ๋๋ค. ๋๋ฒ์งธ๋ real-time์ผ๋ก ์ฌ์ฉํ๊ธฐ ์ํด์ ๋น ๋ฅธ inference ์๋๊ฐ ์๊ตฌ๋๋ค๋ ์ ์ ๋๋ค. ๋ง์ง๋ง์ผ๋ก๋, ์๋ฌธ์๊ฐ ์์คํ ์ ์ถ๊ฐ๋๋ ๊ณผ์ ์ด ๊น๋ค๋กญ๋ค๋ ์ ์ ๋๋ค. ๋ฌธ์๊ฐ ์ถ๊ฐ๋ ๋ ๋ง๋ค hierarchical clustering์ ํตํด ๋ฌธ์๋ง๋ค์ semantic identifier๋ฅผ ์ฌ์ค์ ํด์ฃผ๋ ๊ณผ์ ์ด ํ์ํฉ๋๋ค.