本发明涉及基因组编辑,具体地说,涉及一种面向基于crispr/cas技术的基因组编辑自动化设计在线工具。
背景技术:
1、现有的基因组编辑设计工具由于对单功能编辑序列设计工具的集成度低,造成在处理多步骤的复杂基因组编辑任务时自动化程度低,导致效率低下、错误率高和设计通量受限。基因组编辑技术具有多样化的技术变种和实验场景,但当前的基因组编辑设计工具缺乏对多实验场景的支持功能。此外,基因组包含不同类型和比例的重复序列,它们可能造成编辑序列的脱靶,进而导致基因组编辑的错误定位,但现有的基因组编辑设计工具在编辑序列的脱靶评估方面存在缺陷。
2、面向基于crispr/cas技术的基因组编辑自动化设计在线工具旨在通过搭建自动化编辑序列设计流程实现基因组编辑的自动化和高通量设计;通过整合多种基因组编辑任务的设计流程实现对多种基因组编辑实验场景的支持;通过整合同源臂和引物脱靶风险评估及优化提高基因组编辑成功率。
技术实现思路
1、本发明的目的在于提供一种面向基于crispr/cas技术的基因组编辑自动化设计在线工具,以解决背景技术中提出的基因组编辑设计自动化程度低、不支持多种实验场景以及编辑序列的脱靶评估缺陷的问题。工具的主要功能模块包括:
2、sgrna设计单元,所述sgrna设计单元用于设计特异性sgrna,面向crispr技术,利用sgrna的高度特异性结合能力,实现基因组特定位点的精准编辑;
3、基因组编辑设计单元,所述基因组编辑设计单元用于实现基因组的编辑,面向crispr/cas介导的同源重组技术,实现序列的精确敲除、插入和替换;
4、任务管理与可视化系统,所述任务管理与可视化系统用于监控和管理基因编辑设计任务的进度和状态,使用云计算和实时数据处理技术,实现任务的实时监控、结果的动态可视化和用户交互;
5、报错处理单元,所述报错处理单元用于自动化识别和解决进行基因组编辑设计过程中出现的错误,实现对错误的快速定位和详细的问题解释。
6、作为本技术方案的进一步改进,所述sgrna设计单元包含数据预处理模块和sgrna生成器,sgrna设计所涉及的具体步骤如下:
7、s1.1、用户首先需要通过选择、上传基因组序列来指定参考基因组,包括sgrna设计输入文件和包含基因组编辑设计任务信息的靶点改造文件,并且数据预处理模块对这些文件进行格式化处理。
8、s1.2、用户设置sgrna设计的参数,包括crispr/cas系统类型、guide sequence(n20)长度、脱靶分析时潜在脱靶位点与基因组序列的错配碱基数的上限,以及sgrna的切割效率即efficiency score的算法,并且由sgrna生成器根据用户设置的相关参数,生成和优化sgrna;
9、s1.3、用户完成输入文件的选择/上传和参数设置后,点击任务提交按钮;
10、s1.4、设计流程完成后将自动跳转到“job manager”页面,“job manager”页面展示sgrna设计的结果列表,包括sgrna序列、在靶序列上的位置、gc含量、包含不同错配碱基数的潜在脱靶位点的个数、efficiency score以及sgrna排名;
11、作为本技术方案的进一步改进,所述数据预处理模块用于接收用户上传的基因组序列文件,对这些文件进行格式化处理,所涉及的具体步骤如下:
12、s1.1.1、接收用户上传的基因组序列文件,并检查文件的格式是否正确;
13、s1.1.2、使用序列验证技术对上传的基因组序列检查是否存在非标准碱基字符,去除非法字符和空白行,将所有碱基转换为大写形式,统一序列的表示;
14、s1.1.3、使用基因组坐标系统来标准化输入文件;
15、s1.1.4、使用序列对齐技术确认输入序列与目标物种的参考基因组的一致性;
16、所述sgrna生成器负责实际的sgrna设计,包括sgrna序列的生成和优化,sgrna生成器生成和优化sgrna所涉及的具体步骤如下:
17、s1.2.1、输入参考基因组、目标靶序列和sgrna设计的参数,使用blast 2.9.0比对工具,将目标靶序列与参考基因组序列进行比对,确定目标序列在参考基因组中的确切位置,得到目标序列在参考基因组上的坐标;
18、s1.2.2、在确认的目标序列位置基础上,向两端各扩展包含引导序列(guidesequence)和pam序列的长度,获得sgrna搜索区域;
19、s1.2.3、在sgrna搜索区域中,识别所有紧邻pam序列的候选sgrna;
20、s1.2.4、使用bowtie1.3.1构建基因组索引,并将候选sgrna与整个参考基因组进行比对,搜索与候选sgrna具有高度相似性但位置不同的潜在脱靶位点,设定碱基错配数的上限,评估每个候选sgrna的潜在脱靶风险;
21、s1.2.5、使用chopchop v3软件,根据预设或用户选择的评分算法,对每个候选sgrna进行效率评分,包括sgrna的切割效率和脱靶风险;
22、s1.2.6、生成包含所有候选sgrna的详细信息,包括序列、位置、效率评分、脱靶风险及排名的设计结果文件,结果文件供前端展示,用户可以在线查看、比较不同sgrna的性能,并下载结果文件。
23、作为本技术方案的进一步改进,所述基因组编辑设计单元设计特定的sgrna和pcr引物用于基因组编辑实验,使用同源臂、sgrna片段和质粒模板pcr引物通过pcr获得相应片段并组装成重组质粒,重组质粒转化进细胞后表达crispr/cas系统,利用细胞的同源重组机制精确修复crispr/cas系统介导的dna双链断裂,从而在基因组上实现目标序列的定点编辑。基因组编辑设计单元包括数据预处理模块、质粒图谱编辑模块、pcr引物设计模块、同源臂脱靶检测模块、测序验证引物设计模块和基因组测序验证引物脱靶优化模块;
24、其中,所述数据预处理模块实现对基因组数据和质粒信息的格式化、校正和位置信息提取;
25、所述质粒图谱编辑模块实现用户自定义修改和调整质粒结构,适配不同的编辑策略;
26、所述pcr引物设计模块用于设计基因组编辑过程中的pcr引物;
27、所述同源臂脱靶检测模块用于分析同源臂可能的脱靶位置,评估脱靶风险;
28、所述测序验证引物设计模块用于设计验证编辑结果的测序引物;
29、所述基因组测序验证引物脱靶优化模块用于优化基因组测序验证引物,减少脱靶效应并提高测序精度。
30、作为本技术方案的进一步改进,所述基因组编辑设计单元在进行基因组编辑设计所涉及的具体步骤如下:
31、s2.1、数据预处理模块对用户上传基因组和质粒数据进行格式化,并解析和确认用户输入的参数,包括sgrna设计参数、编辑类型,其中编辑类型包括敲除、插入和替换;
32、s2.2、pcr引物设计模块基于用户输入的参数,设计同源臂和sgrna的pcr引物,并计算引物的最优长度、温度和gc含量,生成引物列表,包括序列、预期产物大小和预计的扩增效率;
33、s2.3、测序验证引物设计模块和基因组测序验证引物脱靶优化模块分析潜在的脱靶位点,选择最佳pcr引物位置和序列,优化pcr引物条件,得到测序引物设计结果,包括引物位置、序列和预测的脱靶分析结果。
34、作为本技术方案的进一步改进,所述pcr引物设计模块基于dna片段组装参数和pcr引物设计参数设定(引物长度、tm值、gc含量)设计pcr引物。包含确定设计类型、生成引物设计模板、引物搜索和评估、引物修饰和生成重组质粒图谱功能;
35、其中,所述pcr引物设计模块基于参数输入设计同源臂、sgrna片段和质粒模板pcr引物,具体步骤如下:
36、s2.2.1、首先识别输入文件中设计任务的编辑类型和目标序列,其中编辑类型包括敲除、插入和替换,根据用户指定的质粒系统和额外引物设计要求确定每个任务的设计类型;
37、s2.2.2、根据设计类型的需求,在参考基因组和出发质粒上选择同源臂、sgrna片段和质粒骨架的pcr引物设计模板,根据输入的dna片段组装参数在模板上确定引物搜索区域,并根据引物设计参数输入生成primer3的参数输入;
38、s2.2.3、根据引物设计的参数输入,从引物搜索区域生成所有候选引物,并基于其生成引物对集合,根据primer3的评分规则和算法筛选最佳引物对,最后进行同源臂的脱靶评估并生成相关结果文件;
39、s2.2.4、根据任务的设计类型确定相邻重组质粒片段之间的重叠序列,将重叠序列以及间隔序列、iis型限制性内切酶识别位点和保护序列添加到相应引物的3’端,使用添加了接头序列的引物及其关键特征,包括tm、gc含量生成引物设计的结果文件;
40、s2.2.5、基于同源臂脱靶评估策略对上、下游同源臂进行脱靶风险评估,生成同源臂进行脱靶风险评估报告;
41、s2.2.6、基于引物设计结果及其pcr产物序列生成带有重组质粒片段标签以及相应pcr引物的重组质粒图谱文件。
42、作为本技术方案的进一步改进,所述测序验证引物设计模块用于设计重组质粒和基因组编辑的测序验证引物,测序验证引物设计模块包括确定测序目标、引物搜索和评估以及设计结果可视化;具体步骤如下;
43、s2.3.1、根据pcr引物设计结果确定重组质粒和编辑后基因组的待测序目标区域以及测序验证引物的搜索区域,并根据引物设计参数输入(引物长度、gc含量、tm)生成primer3的测序验证引物设计参数输入;
44、s2.3.2、根据引物设计的参数输入,从引物搜索区域生成所有候选引物,并基于其生成引物对集合,根据primer3的评分规则和算法筛选最佳引物对,并基于脱靶分析对待测序区域pcr的两条引物进行检测和优化;
45、s2.3.3、基于测序引物设计结果以及重组载体和编辑后的基因组序列生成包含待测序片段的标签(同源臂、sgrna片段、插入片段等)以及相应的测序引物标签的重组质粒和编辑后的基因组图谱文件,用于基于ove包的可视化。;
46、作为本技术方案的进一步改进,所述任务管理与可视化系统包括任务提交模块、结果展示模块和用户交互模块;
47、其中,所述任务提交模块用户通过这个模块上传文件和输入编辑任务所需的参数,包括基因组序列、基因组编辑设计需求以及sgrna设计、pcr引物设计和测序验证引物设计参数;
48、其中,所述结果展示模块用于展示基因编辑任务的结果,包括sgrna、pcr引物、测序验证引物设计结果,同源臂脱靶风险评估结果以及编辑后的重组质粒和基因组图谱文件;
49、其中,所述用户交互模块用于用户导航至不同的任务管理界面,修改参数设置,重新提交修改后的任务,并提供用户反馈功能。
50、作为本技术方案的进一步改进,所述报错处理单元包括错误诊断模块和解决方案模块;
51、其中,所述错误诊断模块负责监测整个基因组编辑设计流程,实时检测可能发生的各种逻辑、输入和执行错误,包括输入文件错误、参数设置错误和引物设计失败;
52、其中,所述解决方案模块根据诊断的错误类型和具体情况,生成相应的解决方案和修正建议。
53、作为本技术方案的进一步改进,本在线工具的系统架构包括前端表示层、逻辑计算层和数据存储层;
54、其中,所述前端表示层主要涉及任务管理与可视化系统,包括直接与用户交互的组件,使用aws s3和cloud front来提供静态内容的快速访问和交付,集成ove包工具,提供交互式的dna片段可视化,帮助用户进行质粒标签添加、引物指定和设计结果的检查;
55、其中,所述逻辑计算层主要涉及sgrna设计单元、基因组编辑设计单元和报错处理单元,包括管理http请求和提供核心计算服务功能,使用aws lambda、aws api gateway和aws step functions服务构建;
56、其中,所述数据存储层主要涉及网站的持久性存储,包括任务记录(任务输入、参数设定、中间计算结果)以及设计结果(sgrna设计结果、基因组编辑设计结果、失败任务分析、同源臂脱靶风险分析、引物合成订单),基于awsdynamodb和aws s3服务所搭建,用于管理网站的持久性存储。
57、与现有技术相比,本发明的有益效果:
58、1、面向crispr/cas介导的同源重组的基因组编辑技术,通过搭建自动化编辑序列设计流程实现了基因组编辑的自动化和高通量设计。
59、2、通过整合多种基因组编辑任务的设计流程实现了对多种基因组编辑实验场景的支持。
60、3、通过整合同源臂和引物脱靶风险评估及优化有助于提高基因组编辑成功率。
1.一种面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于,包括:
2.根据权利要求1所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述sgrna设计单元(1)包含数据预处理模块和sgrna生成器,sgrna设计所涉及的具体步骤如下:
3.根据权利要求2所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述数据预处理模块用于接收用户上传的基因组序列文件,对这些文件进行格式化处理,所涉及的具体步骤如下:
4.根据权利要求1所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述基因组编辑设计单元(2)通过设计特定的sgrna和pcr引物,以及提供同源臂模板,利用细胞的同源重组机制精确修复crispr/cas系统介导的dna双链断裂,从而在基因组上实现目标序列的定点编辑,基因组编辑设计单元(2)包括数据预处理模块、质粒图谱编辑模块、pcr引物设计模块、同源臂脱靶检测模块、测序验证引物设计模块和基因组测序验证引物脱靶优化模块;
5.根据权利要求4所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述基因组编辑设计单元(2)在进行基因组编辑设计所涉及的具体步骤如下:
6.根据权利要求5所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述pcr引物设计模块基于dna片段组装参数和pcr引物设计参数设定设计pcr引物。包含确定设计类型、生成引物设计模板、引物搜索和评估、引物修饰和生成重组质粒图谱功能;
7.根据权利要求5所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述测序验证引物设计模块用于重组质粒和基因组编辑的测序验证的引物,测序验证引物设计模块包括确定测序目标、引物搜索和评估以及设计结果可视化;
8.根据权利要求1所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述任务管理与可视化系统(3)包括任务提交模块、结果展示模块和用户交互模块;
9.根据权利要求1所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述报错处理单元(4)包括错误诊断模块和解决方案模块;
10.根据权利要求1所述的面向基于crispr/cas技术的基因组编辑自动化设计在线工具,其特征在于:所述系统架构包括前端表示层、逻辑计算层和数据存储层;