각종 파라미터

max_seq_length

data_preprocessing.py의 prepare_train_features, prepare_validation_features의 max_length를 변경 defalut = 384

doc_stride

data_preprocessing.py의 prepare_train_features, prepare_validation_features의 max_length를 변경 defalut = 128

max_answer_length

utils.taemin.py의 post_processing_function 함수의 max_answer_length를 변경 default = 30

num_clusters

utils.taemin.py의 run_sparse_retrieval 함수의 build_faiss 부분에서 num_clusters=64를 변경 defalut=64

top_k_retrieval

utils.taemin.py의 run_sparse_retrieval 함수의 retrieve_faiss 부분에서 topk=10, df = retriever.retrieve(datasets["validation"], topk=10) 를 변경 defalut=10

Use Bert

현재 모델 Roberta, 만약 BERT 사용 시 data_preprocessing.py의 prepare_train_features, prepare_validation_features의 return_token_type_id를 True로 변경

이외 수정사항

utils.taemin.py의 run_sparse_retrieval p==1 k==1로 된 부분은 뭐하는진 잘모르지만 베이스라인에서 사용해서 그대로 동일하게 실행하도록 바꾼거임 정확히 무슨 역할을 하는지는 의문 기존에는 arg 조정했지만 arg를 받아올수있는 코드가 아니므로 하드코딩으로 수정함

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

참고용.md

참고용.md

각종 파라미터

max_seq_length

doc_stride

max_answer_length

num_clusters

top_k_retrieval

Use Bert

이외 수정사항

Files

참고용.md

Latest commit

History

참고용.md

File metadata and controls

각종 파라미터

max_seq_length

doc_stride

max_answer_length

num_clusters

top_k_retrieval

Use Bert

이외 수정사항