인프런 커뮤니티 질문&답변
Agent 성능 관련 문의
작성
·
53
답변 2
1
안녕하세요! 좋은 질문 감사합니다.
ChatGPT에 pdf와 같은 파일을 업로드해서 분석한다면 OpenAI에서 제공하는 다양한 pdf parsing과 분석 툴들을 사용할 수 있다는 장점이 있습니다(어떻게 구현이 되었는지 알 수는 없지만) 직접 유사한 기능을 개발한다면
pdf 파일 불러오기 -> pdf 파일 텍스트 파싱 -> pdf 텍스트 LLM 전달
과 같은 흐름을 직접 구현하면 비슷한 효과를 얻을 수 있을거라고 생각합니다.
저는 개인적으로 가급적이면 있는 도구들을 활용하는게 좋다고 생각합니다. 만약 회사 정책에 위반이 되는게 아니라면, ChatGPT를 활용해서 pdf나 엑셀을 분석하는 편이 더 좋다고 생각합니다. 아마 그들은 ChatGPT에만 엄청 많은 수의 엔지니어들을 할당해서 개발중일거라, 우리가 직접 개발하는 것보다 훨씬 더 빠르고 다양한 기능들을 제공할 수 있을거라고 생각하기 때문입니다.
다만 말씀하신 보안 문제가 있을 수 있고, 프롬프트를 작성해서 우리 회사나 내가 처리하는 문서에 대한 context를 조금 더 자세히 제공할 수 있다면 ChatGPT를 쓰는 것보다 직접 개발하는 것이 LLM에게 문맥을 더 자세히 제공하는 측면에서는 유리하다고 생각합니다. 인프라를 직접 관리하면서 서비스를 운영하는 것과 누군가가 제공하는 서비스를 사용하는 유지보수도 고려가 되어야겠지만요.
네네 이해하신 바가 맞습니다. 만약 보안이 우려된다면 직접 서버를 구축하시는 편이 좋습니다. 그리고 ChatGPT의 약관과 API의 약관이 달라서 정책을 한번 비교해보시면 좋을 것 같아요.
추가로 용어가 혼동될 수 있어서 한번 정의를 하자면, 문서를 벡터화하는 것은 임베딩 모델을 활용해서 벡터화를 하는 것이지, LLM의 tokenization과는 다릅니다. 조금더 자세하게 설명하는 블로그 링크를 전달 드립니다
0





답변 주신것에서 질문이 있습니다. 말씀해주신 보안문제라면, 직접 서버를 구축하고 서버에 LLM모델을 받아서 직접 구현하는것을 의미하는걸까요?
이 부분은 이해했는데, 웹으로 chat gpt를 사용하여 문서를 벡터화하는 방식과 LLM에서 토큰으로 호출해서 문서를 벡터화하는방식이 보안측면에서는 동일한것이 아닌가 질문드립니다.
감사합니다.