-
Notifications
You must be signed in to change notification settings - Fork 40
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[20230326] Weekly AI ArXiv 만담 시즌2 - 11회차 #77
Comments
News
ArXiv
|
News: ChatGPT에서 인터넷 접속 및 외부 앱 연결을 위한 plugin API를 공개했습니다. Scaling in the service of reasoning & model-based ML Yoshua Bengio 옹께서 Large Language Model이 System 2 cognition을 하기 위해 현재 LLM의 한계 및 앞으로 나아갈 방향에 대해 논의합니다. Hello Dolly: Democratizing the magic of ChatGPT with open models DataBricks 연구팀에서 GPT-J 6B 모델을 기반으로 작은 fine-tuning dataset에 Instruction find-tuning을 실행했을 때 무려 30분만에(!) ChatGPT와 유사하게 instruction에 대해 응답하도록 유도할 수 있었습니다. GPT-J 6B는 공개되고 2년이 지난 모델이라는 것을 감안한다면 Instruction에 대해 답변하는 것은 거대 모델의 역량도 중요하지만 fine-tuning 과정 또한 매우 중요하다는 것을 보여줍니다. Software: GitHub: https://github.com/rapidsai/raft NVIDIA에서 데이터 사이언스 및 머신러닝을 위한 primitves 라이브러리를 공개했습니다. Research: 조~금 오래되었지만 ICLR2023 Oral Session 선정 논문이어서 공유합니다. Erasing Concepts from Diffusion Models MIT David Bau 교수님 연구실에서 나온 최근 연구입니다. 하나의 Frozen Stable Diffusion (SD) 모델과 하나의 Erased Stable Diffusion (ESD) 모델을 활용하여 원치 않는 개념에 대한 prompt를 제공한 경우와 제공하지 않은 경우에 대해 일치하도록 학습함으로써 추후 저작권 등을 위배하는 prompt를 제공하더라도 마치 해당 개념이 모델에서 삭제된것과 마찬가지의 출력을 제공하도록 합니다. CoLT5: Faster Long-Range Transformers with Conditional Computation ArXiv: https://arxiv.org/abs/2303.09752 Google Research에서 long sequence input에 대한 연산을 축소하기 위한 방법을 제시했습니다. Meet in the Middle: A New Pre-training Paradigm ArXiv: https://arxiv.org/abs/2303.07295 Microsoft Azure AI에서 나온 연구로 새로운 LLM pre-training task를 제시합니다. |
ArxivThe effectiveness of MAE pre-pretraining for billion-scale pretraining
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models
|
For my small comment: Efficient fair PCA for fair representation learning (AISTATS 2023)
cf:
|
For next time: Sparks of Artificial General Intelligence: Early experiments with GPT-4 (Microsoft Research) 교훈: latex에서 comment를 뺍시다! “Given the breadth and depth of GPT-4's capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system.” Theoretical analyses of language models!!! A Kernel-Based View of Language Model Fine-Tuning ( Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers (arXiv 2022) The Learnability of In-Context Learning (arXiv 2023) A Theory of Emergent In-Context Learning as Implicit Structure Induction (arXiv 2023) |
No description provided.
The text was updated successfully, but these errors were encountered: