Skip to content

Latest commit

 

History

History
25 lines (16 loc) · 1.25 KB

참고용.md

File metadata and controls

25 lines (16 loc) · 1.25 KB

각종 파라미터

max_seq_length

data_preprocessing.py의 prepare_train_features, prepare_validation_features의 max_length를 변경 defalut = 384

doc_stride

data_preprocessing.py의 prepare_train_features, prepare_validation_features의 max_length를 변경 defalut = 128

max_answer_length

utils.taemin.py의 post_processing_function 함수의 max_answer_length를 변경 default = 30

num_clusters

utils.taemin.py의 run_sparse_retrieval 함수의 build_faiss 부분에서 num_clusters=64를 변경 defalut=64

top_k_retrieval

utils.taemin.py의 run_sparse_retrieval 함수의 retrieve_faiss 부분에서 topk=10, df = retriever.retrieve(datasets["validation"], topk=10) 를 변경 defalut=10

Use Bert

현재 모델 Roberta, 만약 BERT 사용 시 data_preprocessing.py의 prepare_train_features, prepare_validation_features의 return_token_type_id를 True로 변경

이외 수정사항

utils.taemin.py의 run_sparse_retrieval p==1 k==1로 된 부분은 뭐하는진 잘모르지만 베이스라인에서 사용해서 그대로 동일하게 실행하도록 바꾼거임 정확히 무슨 역할을 하는지는 의문 기존에는 arg 조정했지만 arg를 받아올수있는 코드가 아니므로 하드코딩으로 수정함